Modelação da Despesa com Medicamentos nos Hospitaisdo Serviço Nacional de Saúde
Maria Beatriz Malveiro Jorge
Dissertação para obtenção do Grau de Mestre em
Matemática e Aplicações
Orientadora: Professora Doutora Maria do Rosário de Oliveira Silva
Júri
Presidente: Professor Doutor António Manuel Pacheco PiresOrientador: Professora Doutora Maria do Rosário de Oliveira SilvaVogal: Professora Doutora Maria da Conceição Esperança Amado
Vogal: Professora Doutora Cláudia Indira Xavier Furtado
Dezembro 2016
ii
Nitwit! Blubber! Oddment! Tweak!
ALBUS DUMBLEDORE
iii
iv
Agradecimentos
A realizacao desta tese e o culminar do meu percurso de estudante no Instituto Superior Tecnico. Estes
devidos agradecimentos estao divididos em sete partes:
// Aos meus pais e irmao, pelo seu sempre presente e incondicional apoio em todas as minhas
(ate nas mais descabidas) escolhas.
// A professora Rosario Oliveira, pela sua enorme disponibilidade, motivacao e competencia que
foram absolutamente essenciais.
// Ao Infarmed e em particular a Teresa Risso, pelos indispensaveis dados e esclarecimentos,
sem os quais este trabalho nao seria possıvel.
// Aos meus amigos da LMAC e MMA, pela partilha de experiencias, frustracoes, alegrias e pela
companhia de estudo nestes, simultaneamente longos e curtos, cinco anos.
// As minhas amigas de uma decada, por todos os anos de amizade e pelos cafes das sextas
que ajudaram a manter a minha sanidade mental durante muitas epocas de exames.
// Aos professores Antonio Pacheco e Manuel Scotto, por prontamente se disponibilizarem para
esclarecer duvidas.
// Ao Andre, por tudo.
v
vi
Resumo
O Servico Nacional de Saude (SNS) portugues proporciona aos seus cidadaos servicos de saude
tendencialmente livres de custo. No entanto, a capacidade de fornecer servicos de saude de qualidade,
adequados e acessıveis e um desafio global de dificuldade crescente. Assim, torna-se cada vez mais
importante assegurar a eficacia de custo nas despesas do SNS a fim de garantir a sua sustentabilidade.
Com este trabalho pretende-se desenvolver um modelo para descrever e prever a despesa total com
medicamentos nos hospitais portugueses. Este modelo destina-se a contribuir para definir, de forma
informada, o orcamento que deve ser reservado para este tipo de consumo, permitindo uma melhor
alocacao de recursos.
A despesa total foi agrupada nas cinco regioes NUTS II de Portugal continental. Desta forma, para cada
regiao foram desenvolvidos dois modelos, um de frequencia mensal e outro trimestral. Os modelos sao
regressoes lineares com erros SARIMA que descrevem a despesa com medicamentos nos hospitais
em cada regiao em funcao de respetivos indicadores demograficos, economicos e de utilizacao dos
servicos de saude. Estes modelos permitiram modelar de forma adequada a despesa total em Portugal
e realizar previsoes bastante satisfatorias sobre o gasto entre abril de 2015 e marco de 2016.
Foi ainda desenvolvida uma interface grafica que permite uma interativa visualizacao dos dados e
tambem torna mais facil a realizacao das previsoes da despesa futura. Assim, os modelos e aplicacao
desenvolvidos permitem fornecer ao Infarmed uma solucao iterativa pratica para fundamentar e supor-
tar as opcoes de alocacao de recursos para esta despesa.
Palavras-chave: Series Temporais, Modelos de Regressao, Previsao, Visualizacao, Mercado
Farmaceutico, Servico Nacional de Saude
vii
viii
Abstract
The Portuguese National Health Service provides to its citizens health services tendentially free of cost.
However, the ability to provide quality and accessible health services is an increasingly difficult global
challenge. Thus, in order to ensure the sustainability of the system, it is ever more important to be able
to ensure cost-effectiveness in all various expenses. The purpose of this work is to build a model which
can be used to describe and predict the total drug expenditure in Portuguese public hospitals, which can
then help define a better allocation of resources.
The total expenditure was grouped into the five NUTS II regions of mainland Portugal. Then, two models
were built for each region, a monthly and quarterly one. The models are linear regressions with SARIMA
errors. These models describe the expenditure with medicines in hospitals in each region according to
their respective demographic, economic and utilization of health services indicators. These models
adequately describe the total expenditure in Portugal and perform very satisfactory forecasts about the
spending between April 2015 and March 2016.
A graphical interface was also developed in order to allow interactive visualizations of the data and to
facilitate the process of generating the forecasts. Hence, the developed models and application allow us
to provide to Infarmed an interactive and practical solution to substantiate and support decisions on the
allocation of funds for drug expenditure.
Keywords: Time Series, Regression Models, Visualization, Forecasing, Pharmaceutical Market,
Portuguese National Health Service
ix
x
Conteudo
Agradecimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii
Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
Lista de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv
Lista de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii
Glossario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxi
1 Introducao 1
1.1 Motivacao e objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Contexto do problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Revisao bibliografica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 Analise da despesa com medicamentos . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.2 Series temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Estrutura do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Metodos Estatısticos em Series Temporais 7
2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 Metodos descritivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Estacionaridade e medidas de dependencia . . . . . . . . . . . . . . . . . . . . . 9
2.2 Series estacionarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
xi
2.2.1 Estabilizacao de variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.2 Eliminacao de tendencia e sazonalidade . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3 Modelos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Series nao estacionarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Modelos ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Modelos SARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Identificacao de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5 Estimacao e avaliacao de diagnostico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6 Previsao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.1 Metodos dos mınimos quadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.2 Qualidade das previsoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.7 Regressao com erros SARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.7.1 Identificacao do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 Analise Preliminar dos Dados 27
3.1 Despesa com medicamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Tratamento da Hepatite C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 Acordos entre Industria Farmaceutica e o Estado Portugues . . . . . . . . . . . . 29
3.1.3 Analise descritiva da despesa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Variaveis explicativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Modelacao e Previsao 39
4.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Regioes NUTS II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.1 Area Metropolitana de Lisboa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.2 Norte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3 Centro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
xii
4.2.4 Alentejo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.5 Algarve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3 Portugal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.1 Discussao de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5 Desenvolvimento de Aplicacao 59
5.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2 Visualizacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3 Previsao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6 Conclusoes 63
6.1 Conquistas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2 Trabalho futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Bibliografia 67
A Estatısticas Descritivas 71
B Medidas de Erro 73
xiii
xiv
Lista de Tabelas
2.1 Condicoes para estacionaridade e invertibilidade em serie ARMA . . . . . . . . . . . . . . 17
2.2 Guia para identificar as ordens p, q, P,Q de um modelo ARMA(p, q)× (P,Q) . . . . . . . 20
3.1 Estatısticas sumarias da serie da despesa total ao longo das duas fases de tratamento
de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Sumario das transformacoes aplicadas as series temporais . . . . . . . . . . . . . . . . . 40
4.2 Sumario das medidas de erro calculadas e percentagem de valores observados fora dos
intervalos de previsao para os varios modelos selecionados . . . . . . . . . . . . . . . . . 57
6.1 Sumario das medidas de erro para os modelos finais mensal e e trimestral para Portugal
continetal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
A.1 Estatısticas sumarias das series temporais da despesa total com medicamentos nas
regioes NUTS II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.2 Estatısticas sumarias das series da despesa dos grupos ATC principais . . . . . . . . . . 72
B.1 Sumario das medidas de erro calculadas para os modelos selecionados para a regiao do
Lisboa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
B.2 Sumario das medidas de erro calculadas para os modelos selecionados para a regiao do
Norte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
B.3 Sumario das medidas de erro calculadas para os modelos selecionados para a regiao do
Centro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
B.4 Sumario das medidas de erro calculadas para os modelos selecionados para a regiao do
Alentejo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
xv
B.5 Sumario das medidas de erro calculadas para os modelos selecionados para a regiao do
Algarve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
xvi
Lista de Figuras
1.1 Previsao do envelhecimento da populacao europeia ate 2050 . . . . . . . . . . . . . . . . 3
2.1 Precipitacao mensal (mm) no estado de Filadelfia, EUA . . . . . . . . . . . . . . . . . . . 8
2.2 Decomposicao STL da serie temporal da Figura 2.1 . . . . . . . . . . . . . . . . . . . . . 9
2.3 Temperatura media mensal em Londres entre Janeiro 1983 e Abril 1994 . . . . . . . . . . 11
2.4 Nascimentos mensais em Nova Iorque entre Janeiro de 1950 e Janeiro e 1960 . . . . . . 11
2.5 ACF dos 200 valores de ruıdo iid ∼ N(0, 1) simulado . . . . . . . . . . . . . . . . . . . . 13
2.6 ACF amostral de uma serie MA(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.7 FACP amostral de uma serie AR(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1 Codigo ATC para o farmaco Brufen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Despesa com farmacos nao pertencentes ao grupo ATC J05AX nos hospitais do SNS
entre janeiro de 2010 e marco de 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Despesa total no hospital 30 entre janeiro de 2010 e marco de 2016 . . . . . . . . . . . . 30
3.4 Despesa total corrigida no hospital 30 entre janeiro de 2010 e marco de 2016 . . . . . . . 30
3.5 Comportamento da despesa total entre janeiro de 2010 e marco de 2016 . . . . . . . . . 31
3.6 Diagramas em caixa das despesas totais mensais entre janeiro de 2010 e marco de 2016 32
3.7 Cronogramas das series da despesa por grupo principal ATC (A a M) . . . . . . . . . . . 33
3.8 Cronogramas das series da despesa por grupo principal ATC (N a V) . . . . . . . . . . . 34
3.9 Cronogramas das series da despesa por regiao NUTS II . . . . . . . . . . . . . . . . . . . 34
3.10 Despesa anual entre 2010 e 2015 segmentada por regiao NUTS II. . . . . . . . . . . . . 35
xvii
3.11 Cronogramas das series temporais da populacao por regiao NUTS II . . . . . . . . . . . 36
3.12 Cronogramas da serie temporal da taxa de variacao do PIB . . . . . . . . . . . . . . . . . 36
3.13 Cronogramas das series da temporais do numero de internamentos por regiao NUTS II . 37
3.14 Cronogramas das series da temporais do numero de atendimentos de urgencia por regiao
NUTS II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.15 Cronogramas das series da temporais do numero de consultas em hospital de dia por
regiao NUTS II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1 Despesa trimestral com medicamentos nos hospitais do SNS da Area Metropolitana de
Lisboa entre janeiro de 2012 e marco de 2015 . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Cronograma da previsao da despesa trimestral (e) realizada pelo modelo Lisboa.T1 . . . 43
4.3 Cronograma da previsao despesa trimestral (e) realizada pelo modelo Lisboa.T2 . . . . . 43
4.4 FAC amostral dos resıduos {εt} do modelo Lisboa.M1 . . . . . . . . . . . . . . . . . . . . 45
4.5 FACP amostral dos resıduos {εt} do modelo Lisboa.M1 . . . . . . . . . . . . . . . . . . . 45
4.6 Cronograma da previsao da despesa mensal (e) realizada pelo modelo Lisboa.M2 . . . . 45
4.7 Cronograma da previsao da despesa trimestral (e) realizada pelo modelo Norte.T . . . . 47
4.8 Cronograma da previsao da despesa mensal (e) realizada pelo modelo Norte.M . . . . . 48
4.9 Cronograma da previsao da despesa trimestral (e) realizada pelo modelo Centro.T . . . 49
4.10 Cronograma da previsao da despesa mensal (e) realizada pelo modelo Centro.M . . . . 50
4.11 Cronograma da previsao da despesa trimestral (e) realizada pelo modelo Alentejo.T . . . 51
4.12 Cronograma da previsao da despesa mensal (e) realizada pelo modelo Alentejo.M . . . 52
4.13 Cronograma da previsao da despesa trimestral (e) realizada pelo modelo Algarve.T . . . 53
4.14 Cronograma da previsao da despesa mensal (e) realizada pelo modelo Algarve.M . . . . 54
4.15 Cronograma da previsao da despesa realizada pelo modelo Portugal.T . . . . . . . . . . 55
4.16 Cronograma da despesa e previsao realizada pelo modelo Portugal.M entre janeiro de
2012 e marco de 2016 (a), e entre janeiro de 2015 e marco de 2016 (b) . . . . . . . . . . 55
4.17 Despesa anual registada entre 2010 e 2015 e previsoes anuais realizadas pelos modelos
Portugal.M e Portugal.T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
xviii
4.18 Cronograma da previsao da despesa trimestral em Portugal realizada pelo modelo Por-
tugal.T(2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.19 Cronograma da previsao da despesa mensal em Portugal realizada pelo modelo Portu-
gal.M(2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.1 Ecra de Visualizacao da aplicacao de despesa hospitalar . . . . . . . . . . . . . . . . . . 60
5.2 Ecra de Previsao da aplicacao de despesa hospitalar . . . . . . . . . . . . . . . . . . . . 60
xix
xx
Glossario
AICc Criterio de Informacao de Aikake Corrigido.
APIFARMA Associacao Portuguesa da Industria Farmaceutica.
AR Autoregressivo.
ARIMA Integrada Mista Autoregressivo e Medias Moveis.
ARMA Mista Autoregressivo e Medias Moveis.
ATC Anatomical Therapeutic Chemical Code.
CHNM Codigo Hospitalar Nacional do Medicamento.
EAM Erro Absoluto Medio.
EPAM Erro Percentual Absoluto Medio.
EPAMediano Erro Percentual Absoluto Mediano.
EPM Erro Percentual Medio.
EQM Erro Quadratico Medio.
FAC Funcao de Autocorrelacao.
FACP Funcao de Autocorrelacao Parcial.
FACV Funcao de Autocovariancia.
MA Medias Moveis.
OMS Organizacao Mundial de Saude.
SARIMA Integrada Mista Autoregressivo e Medias Moveis Estritamente Sazonal.
SNS Servico Nacional de Saude.
STL Seasonal-Trend decomposition por Loess.
xxi
xxii
Capıtulo 1
Introducao
1.1 Motivacao e objetivo
O Servico Nacional de Saude portugues (SNS) proporciona aos seus cidadaos servicos de saude
tendencialmente livres de custo. Assim, ao assegurar o acesso geral a cuidados de saude e mitigar
os riscos financeiros para a populacao, o SNS desempenha um papel vital para o bem estar social
e economico da populacao. No entanto, a capacidade de fornecer servicos de saude de qualidade,
adequados e acessıveis e um desafio global cada vez mais difıcil, isto deve-se a multiplos fatores como
o envelhecimento contınuo da populacao, o aumento de doencas cronicas, o avanco da tecnologia
e frequentes restricoes orcamentais (WHO, 2009). Desta forma, torna-se cada vez mais importante
assegurar a eficacia de custo nas diversas despesas do SNS a fim de garantir a sua sustentabilidade.
A despesa com medicamentos representa uma parte significativa da despesa nos servicos de saude
em Portugal, contabilizando entre 22% a 29% do gasto total, entre 2010 e 2014 (Infarmed, 2014).
Esta despesa divide-se em encargos do SNS com medicamentos nos meios ambulatorio e hospital. No
meio ambulatorio inserem-se todos os medicamentos dispensados com comparticipacao nas farmacias
de oficina. Por outro lado, no meio hospitalar, estao todos os medicamentos utilizados no contexto
hospitalar. Estes medicamentos sao adquiridos pelos proprios hospitais.
Apesar de existirem alguns estudos sobre previsao e os motores da despesa de medicamentos (O’Neill
et al., 2013, Vivas-Consuelo et al., 2014, Wettermark et al., 2010, Keehan et al., 2011), estes sao
maioritariamente focados no meio ambulatorio e muito influenciados pela opiniao de especialistas far-
maceuticos e nao por uma analise quantitativa do comportamento passado. Uma possıvel justificacao
para este fenomeno e a geralmente fraca ou inexistente recolha dos dados necessarios para a realizacao
destes estudos.
Ao contrario de muitos outros paıses, Portugal, atraves do Infarmed (Autoridade Nacional do Medi-
1
camento e Produtos de Saude I.P.), tem realizado desde 2010 uma detalhada recolha de dados re-
lativos ao consumo de medicamentos pelos seus hospitais em gestao publica, possibilitando assim a
realizacao deste estudo: a criacao de um modelo preditivo para a despesa total com medicamentos
em hospitais publicos. A existencia deste modelo permite definir o orcamento que deve ser reservado
para este tipo de consumo, usando o historico de informacao de forma fundamentada. Esta abordagem
contribuiu para uma melhor alocacao de recursos e consequente eficacia de custo para as despesas
do SNS.
1.2 Contexto do problema
O objetivo desta tese e construir um modelo que permita descrever e prever a despesa com medica-
mentos nos hospitais do SNS, para tal e necessario compreender alguns aspetos do funcionamento do
mercado farmaceutico que tem impacto no nosso problema. Por um lado, temos as problematicas que
envolvem a industria farmaceutica, como o desenvolvimento de novos medicamentos, o fim de patentes
e a posterior possibilidade de producao de medicamentos genericos e consequente competitividade.
As patentes protegem novos farmacos de copias genericas por 15 a 20 anos apos a patente ser aceite,
mas devido ao longo processo de investigacao e desenvolvimento os medicamentos tem apenas cerca
de dez anos de exclusividade a partir do momento em que comecam a ser comercializados. No entanto,
existem condicoes que permitem as farmaceuticas pedir extensoes da validade da patente.
Uma vez expirada a patente, outros laboratorios podem produzir genericos do medicamento em questao
sem terem de suportar o custo de investigacao e desenvolvimento. Assim, uma vez autorizada a
producao de genericos, o preco comercial do medicamento tende a cair levando a potencial perda
de posicao de mercado pelo produtor original. No entanto, existem varios fatores que influenciam esta
competicao como a complexidade da producao do farmaco. Desta forma, e difıcil prever com exatidao
quando um medicamento ira perder a sua exclusividade de comercializacao e o consequente impacto
da introducao de genericos.
Durante os ultimos cinco anos, a maior disponibilidade de medicamentos genericos contribuiu para
conter a despesa com medicamento apesar de um aumento da procura. No entanto, esta tendencia
de diminuicao de precos nao se deve manter, uma vez que expiracao de patentes de medicamentos
muito vendidos atingiu um maximo em 2012. Assim, ate 2018 deverao existir menos oportunidades de
poupancas semelhantes (IMSHealth, 2015).
Por outro lado, temos os fatores que influenciam a procura destes medicamentos, como tendencias de
prescricao, guias de tratamento, restricoes orcamentais por parte dos hospitais e reformas legislativas
sobre polıticas de acesso ao medicamento. Note-se ainda que a despesa com medicamentos nos
sistema de saude publica europeus esta fortemente relacionada com o valor do PIB de cada paıs
(IMSHealth, 2015).
2
Por ultimo, e relevante consideramos a problematica do envelhecimento da populacao, um dos mai-
ores desafios sociais e economicos dos paıses da Uniao Europeia. Estima-se que a percentagem
da populacao com mais de 65 anos cresca dos 17.3% populacao para os 23.3% entre 2015 e 2050
(IMSHealth, 2015), ver Figura 1.1. Uma sociedade envelhecida aliada a um frequente estilo de vida
pouco saudavel conduzem a um aumento da incidencia de doencas cronicas e problemas cardiovas-
culares. Atualmente, as doencas cronicas sao responsaveis pela maioria das mortes por doenca e
consequentemente a despesa com este tipo de cuidados tem crescido continuamente, sendo assim
tambem um motor da despesa com medicamentos (S. Thompson et al., 2009).
2015 (F) 2050 (F)
População 65+ % of População 65+
0
50
100
150
200
250
10%
15%
20%
25%
30%
Milh
ões
Figura 1.1: Previsao do envelhecimento da populacao europeia ate 2050. (Fonte: IMS Institute report:Bringing Healthy Living to Ageing Citizens: The Role of Technology, Junho 2014)
1.3 Revisao bibliografica
1.3.1 Analise da despesa com medicamentos
A literatura internacional sobre previsao da despesa com medicamentos incluı diferentes horizontes de
previsao e abordagens que podem ser agrupadas em dois grandes tipos: top-down e bottom-up.
A abordagem top-down esta associada a previsoes a escalas temporais mais extensas e recorre a
dados demograficos e analises econometricas para prever a despesa. Os Centros para Medicare e
Medicaid (CMS) recorrem a esta abordagem para as previsoes a dez anos da despesa total em servicos
de saude nos Estados Unidos da America (EUA) que publicam regularmente. Keehan et al. (2011)
publicaram uma previsao ate 2020 onde a despesa com medicamentos em ambulatorio e uma das
componentes estimadas. Os principais indicadores utilizados foram as tendencias passadas desta
despesa e as estimativas da evolucao demografica e do PIB. No entanto, esta previsao e ajustada
de forma a incluir os efeitos da expiracao de patentes de medicamentos e reformas legislativas nos
3
sistemas de saude. De forma semelhante, Thiebaut et al. (2013) utilizaram tambem a abordagem
top-down recorrendo a indicadores demograficos como o crescimento da populacao e a incidencia de
doencas cronicas para prever a tendencia da despesa com medicamentos em ambulatorio em Franca
entre 2014 e 2029.
Por outro lado, a abordagem bottom-up e usualmente utilizada para previsoes com horizonte temporal
menor e analisa detalhadamente para cada grupo terapeutico, ou ate mesmo para cada grupo far-
macologico, o impacto da introducao de medicamentos inovadores, expiracao de patentes e possıvel
introducao de respetivos medicamentos genericos, tendencias de prescricao de medicamentos e de
tratamentos, e ainda reformas legislativas dos sistemas de saude e de acesso ao medicamento. O’Neill
et al. (2013) utilizam esta abordagem para prever a despesa a quatro anos com medicamentos no Na-
tional Healthcare System (NHS) no Reino Unido, no artigo publicado foram simulados quatro cenarios
futuros distintos e seguiu-se uma analise produto a produto.
Wettermark et al. (2010) realizam uma previsao da despesa anual na regiao metropolitana de Estocolmo
entre 2010 e 2011 recorrendo a dados do consumo anual entre 2006 e 2009 e utilizando uma regressao
linear em series temporais para modelar a despesa. Uma vez que sao utilizados dados anuais nao
e considerada a existencia de fenomenos sazonais e assim considera-se uma regressao linear com
erros independentes. Este modelo e posteriormente ajustado segundo a opiniao de especialistas para
alteracoes que advenham de fenomenos conhecidos como fim de patentes, novos medicamentos e
reformas legislativas
Por outro lado, Vivas-Consuelo et al. (2014) tentam modelar a despesa anual com medicamentos por
paciente em cada grupo de risco clınico. O modelo e uma regressao linear em que a variavel depen-
dente e a despesa anual e as variaveis preditoras incluem a classificacao da condicao cronica, estado
de saude e caracterizacao demografica (sexo, idade, altura, peso) do paciente. Esta estrategia por
paciente nao utiliza qualquer informacao temporal.
Estes artigos surgem maioritariamente de grupos de investigacao farmaceuticos e consequentemente,
excluindo os casos de Vivas-Consuelo et al. (2014) e Wettermark et al. (2010), existe uma grande
componente qualitativa nas previsoes publicadas. E tambem de realcar que e dado mais enfase ao
aspeto farmaceutico, sendo raro serem descritos os metodos e procedimentos analıticos estatısticos
que foram utilizados para obter as estimativas publicadas.
1.3.2 Series temporais
Os primeiros estudos realizados sobre series temporais consideravam uma abordagem determinıstica e
foi o trabalho de Yule (1927), Walker (1931) e Slutsky (1931) que introduziu pela primeira fez o conceito
de serie temporal como a realizacao de um processo estocastico e consequentemente o estudo de
modelos autoregressivos (AR) e de medias moveis (MA). No entanto foi Wold (1954) que demonstrou a
4
validade teorica destes modelos e desenvolveu os processos ARMA, as suas contribuicoes nesta area
foram assim de extrema importancia.
Durbin (1959, 1960) desenvolveu metodos eficientes para estimar os parametros de modelos AR e MA
e mais tarde Walker (1931) estendeu estes resultados para modelos mistos ARMA.
Box and Jenkins (1976) publicaram Time Series Analysis: Forecasting and Control onde reuniram os
avancos realizados ate a data e este tornou-se num dos livros mais influentes em series temporais.
Nesta publicacao foi introduzida a metodologia de Box-Jenkins que consiste em realizar iterativamente
os tres passos identificacao, estimacao de parametros e verificacao ate se atingir um modelo adequado
para representar os dados em estudo, este metodo tornou-se padrao em modelacao de series tempo-
rais. Os avancos tecnologicos que ocorreram nesta epoca e a consequente generalizacao do uso do
computador permitiram o amplo uso de modelos ARIMA que se tornaram extremamente populares em
diversas areas de aplicacao.
Existindo ainda a necessidade de incluir fatores externos a serie temporal em estudo, de forma a obter
modelos mais precisos, Box et al. (1994) desenvolveram a teoria de regressoes lineares em series
temporais, incluindo a possibilidade de modelar erros correlacionados. Este conceito foi generalizado
para a classe de modelos funcoes de transferencia, estes modelos permitem modelar de forma dinamica
a relacao entre a a serie dependente e as suas series regressoras.
Atualmente, as series temporais tem multiplas aplicacoes praticas em areas distintas como processa-
mento de sinais, econometria, matematica financeira, previsao meteorologica, previsao de terramotos,
astronomia, entre muitas outras. Em qualquer domınio da ciencia ou engenharia onde se recorra a
dados com alguma componente temporal, e comum utilizar-se analise de series temporais. Assim,
esta e uma area de estudo bastante ativa nos dias de hoje, sendo continuamente desenvolvidos no-
vos metodos e tecnicas para modelacao ARIMA. Ainda, e frequente a uniao com elementos de outras
areas de conhecimento, como por exemplo, a previsao de volatilidade em mercados financeiras apli-
cando multifratais (Calvet and Fisher, 2008).
1.4 Estrutura do trabalho
Esta dissertacao esta dividida em seis capıtulos. O capıtulo corrente e um capıtulo introdutorio que pre-
tende introduzir o tema em estudo e situar o problema no contexto de modelacao em series temporais
e de previsao de despesa com medicamentos. O Capıtulo 2 faz uma revisao de conceitos e metodos
em series temporais que sao necessarios para a compreensao dos temas desenvolvidos nos capıtulos
subsequentes. Sao abordadas questoes como a estacionaridade, as funcoes de autocovariancia e
autocorrelacao e os modelos estacionarios e nao estacionarios, com o intuito que conduzir a analise do
metodo de regressao linear com erros SARIMA.
5
No Capıtulo 3 realiza-se uma analise descritiva das series temporais em estudo, desde a serie da
despesa total as series das varias variaveis de regressao. De seguida, no Capıtulo 4 e descrito o
processo de modelacao e previsao realizado, sao abordados os modelos para cada uma das regioes
NUTS II e os modelos final para a despesa total em Portugal. O quinto capıtulo e uma descricao
da aplicacao interativa R Shiny (Chang et al., 2016) desenvolvida para o Infarmed, com o objetivo
de facilitar as tarefas de visualizacao e previsao da despesa futura. Por fim, no sexto capıtulo sao
apresentadas as conclusoes finais deste estudo.
6
Capıtulo 2
Metodos Estatısticos em Series
Temporais
2.1 Introducao
Nos metodos estatısticos mais convencionais um dos requisitos mais frequentes para a sua aplica-
bilidade e que as observacoes da amostra em estudo sejam independentes. Esta e uma condicao
que nem sempre e possıvel comprovar. Alias, existem conjuntos de dados para os quais, dada a sua
propria natureza, nao e plausıvel assumir tal hipotese. Consideremos, a tıtulo de exemplo, o conjunto
de dados da precipitacao mensal registada entre o anos de 1940 e 1950 no estado de Filadelfia nos
Estados Unidos da America (EUA), Figura 2.1. O instante em que foi registada cada observacao e uma
componente crucial da analise, e fundamental considerarmos que a precipitacao registada no mes de
janeiro de um determinado ano esta claramente correlacionada com a registada neste mesmo mes em
anos anteriores. Esta dependencia introduzida pela amostragem de pontos subsequentes no tempo e
a origem da area de estudo em series temporais.
Uma serie temporal e um conjunto de observacoes {x1, x2, ...}, cada uma registada num instante de
tempo distinto: x1 e o valor da observacao registado no instante inicial, x2 e o valor da observacao
no segundo instante e assim sucessivamente. De forma a considerarmos a natureza imprevisıvel de
futuras observacoes, podemos considerar que cada observacao xt e a realizacao de uma determinada
variavel aleatoria Xt. Assim, uma serie temporal {xt : t ∈ T0} e a realizacao de uma famılia de
variaveis aleatorias {Xt : t ∈ T0}. Desta forma, o termo serie temporal e tambem utilizado para
designar um processo estocastico com as suas realizacoes. Neste trabalho iremos considerar apenas
series temporais onde T0 e um conjunto discreto, isto e em tempo discreto.
A metodologia para o estudo de series temporais seguida nesta tese e composta por quatro fases, (Pa-
7
0
50
100
150
200
250
1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950
Ano
Per
cipi
taçã
o m
édia
(m
m)
Figura 2.1: Cronograma da precipitacao mensal (mm) no estado de Filadelfia nos EUA entre Janeiro de1940 e Dezembro de 1950.
checo, 2000). Em primeiro lugar temos a fase de descricao dos dados, onde sao calculadas estatısticas
sumarias que permitem uma melhor compreensao dos dados. A observacao da sua representacao
grafica, chamada de cronograma, permite identificar alguns comportamentos irregulares da serie e
possıveis observacoes atıpicas que indicam a necessidade de uma analise mais cuidada. De seguida
procede-se a modelacao da serie temporal que consiste na criacao de um modelo de probabilidade
adequado para representar os dados. Apos ser identificada uma famılia de potenciais modelos, sao
estimados os seus parametros e e avaliado o ajustamento do modelo obtido. Uma vez encontrado um
modelo satisfatorio para descrever os dados, podemos utiliza-lo para prever valores futuros, muitas
vezes o objetivo ultimo do estudo. Esta analise e seguida por uma fase de controlo onde se continua-
mente verifica se o modelo continua ajustado aos dados ou se as suas caraterısticas se alteraram e e
necessario voltar a fase de modelacao.
2.1.1 Metodos descritivos
Tal como foi referido na seccao anterior, em combinacao com o calculo de algumas estatısticas descri-
tivas como media, mediana e quartis de distribuicao, a analise da representacao grafica de uma serie
temporal e um passo importante para compreendermos o seu comportamento e algumas das suas ca-
racterısticas. Por exemplo, ao observarmos a Figura 2.1 e visıvel que existe um padrao que se repete
anualmente.
Assim, um passo importante do estudo de series temporais consiste em compreender a sua estrutura
subjacente atraves da analise das suas varias componentes:
• Tendencia: Uma serie temporal tem tendencia quando existe comportamento crescente ou de-
8
crescente a longo prazo dos valores observados.
• Sazonalidade: Uma serie temporal tem sazonalidade quando e influenciada por fenomenos que
causem a presenca de padroes de perıodo fixo nas observacoes.
• Ruıdo: Quando as componentes anteriores sao retiradas a serie temporal, o resultante e cons-
tituıdo por resıduos aleatorios, chamados ruıdo.
A abordagem classica para o estudo de uma serie temporal {Xt : t ∈ T0} consiste em encontrar a sua
seguinte decomposicao em termos aditivos,
Xt = mt + st + εt, t ∈ T0, (2.1)
onde mt e a funcao que descreve a componente da tendencia, st e uma funcao de perıodo fixo que
descreve o comportamento sazonal e, por fim, εt e o ruıdo aleatorio.
Existem diversos metodos como a regressao por mınimos quadrados, a regressao por splines (Brockwell
and Davis, 1991, pg. 14), ou o metodo STL (Seasonal-Trend decomposition por Loess) (Cleveland et al.,
1990), que permitem estimar as varias componentes da decomposicao. Na Figura 2.2 estao represen-
tadas as componentes sazonal, tendencia e ruıdo, obtidas pelo metodo STL, da serie temporal da
precipitacao mensal registada entre o anos de 1940 e 1950 no estado de Filadelfia (Figura 2.1).
Sazonal Tendência Ruído
Figura 2.2: Decomposicao STL da serie temporal da figura 2.1.
2.1.2 Estacionaridade e medidas de dependencia
Sempre que lidamos com um conjunto de variaveis aleatorias e relevante considerar possıveis de-
pendencias entre elas, usualmente isto e feito analisando as respetivas matrizes de covariancias e
correlacoes. Naturalmente, quando consideramos uma serie temporal queremos compreender as de-
pendencias temporais existentes, no entanto, o facto de estarmos a lidar com um numero nao finito
de variaveis aleatorias implica que as abordagens convencionais nao sao adequadas. A funcao de
autocovariancia (FACV), representada por γX(·, ·), permite-nos efetuar esta analise e e definida da
seguinte forma para uma serie temporal {Xt : t ∈ T0} tal que V ar(Xt) <∞,
γX(s, r) = Cov(Xs, Xr) = E[(Xs − µX(s))(Xr − µX(r))] (2.2)
9
De forma semelhante e definida a funcao de autocorrelacao (FAC), representada por ρX(·, ·), para
series temporais,
ρX(s, r) = Cor(Xs, Xr) =E[(Xs − µX(s))(Xr − µX(r))]
σsσr(2.3)
Em ambos os casos temos r, s, t ∈ Z e µX(t) = E[Xt] e a funcao valor esperado da serie.
Informalmente, temos que uma serie temporal e estacionaria quando as suas propriedades, tais como
media, variancia, autocorrelacao e autocovariancia nao dependem dos instantes em que a serie foi
observada (Figura 2.3). Assim, se existir um padrao sazonal que nao seja constante ao longo do tempo
ou uma tendencia na serie, como acontece no caso da serie da Figura 2.4, diz-se que a serie nao e
estacionaria. Seja {Xt : t ∈ Z} uma serie temporal, consideremos as duas seguintes definicoes de
estacionaridade:
Definicao 2.1. Uma serie temporal diz-se fortemente estacionaria se para todo h, t1, ..., tn ∈ Z e n ≥
1, a distribuicao conjunta de {Xt1 , Xt2 , ..., Xtn} e igual a distribuicao conjunta de {Xt1+h, Xt2+h, ..., Xtn+h}.
Isto e,
(Xt1 , Xt2 , ..., Xtn)d= (Xt1+h
, Xt2+h, ..., Xtn+h
). (2.4)
Definicao 2.2. Uma serie temporal diz-se estacionaria de ordemm, com m ∈ N, se para todo n ≤ m,
h, t1, t2, ..., tn ∈ Z e m1,m2, ...,mn ∈ N tais que m1 + ...+mn ≤ m, a seguinte condicao e verdadeira,
E
[n∏i=1
Xmiti
]= E
[n∏i=1
Xmi
ti+h
]
Muitas vezes nao e possıvel verificar se uma serie temporal e fortemente estacionaria, uma vez que
esta e uma propriedade extremamente exigente. Assim, no seguimento deste trabalho quando referir-
mos que uma serie temporal e estacionaria estamos a afirmar que a serie e estacionaria de 2a ordem
(m = 2), ou fracamente estacionaria.
Quando uma serie temporal {Xt : t ∈ Z} e estacionaria existem duas propriedades importantes de
realcar: a funcao valor esperado µt e constante e independente de t; a funcao de autocovariancia
γX(s, t) apenas depende da diferenca entre s e t, (Wei, 2005, pg. 10). Assim, e conveniente redefinir
as funcoes de autocovariancia e autocorrelacao para series temporais estacionarias,
γX(h) ≡ γX(h, 0) = Cov(Xt+h, Xt) para todo t, h ∈ Z, (2.5)
ρX(h) ≡ γX(h)
γX(0)= Cor(Xt+h, Xt) para todo t, h ∈ Z. (2.6)
10
−20
−10
0
10
20
30
1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
Ano
Tem
pera
tura
(ºC
)
Figura 2.3: Temperatura media mensal em Lon-dres entre Janeiro 1983 e Abril 1994.
20.0
22.5
25.0
27.5
30.0
1950 1951 1952 1953 1954 1955 1956 1957 1958 1959
Ano
Figura 2.4: Nascimentos mensais em Nova Ior-que entre Janeiro de 1950 e Janeiro e 1960.
Podemos agora definir tambem a funcao de autocorrelacao parcial (FACP), representada por αX(·),
de um processo estacionario {Xt}. Para um determinado desfasamento temporal de ordem k, lag(k),
esta funcao mede a relacao entre Xt e Xt−k apos se remover os efeitos das variaveis dos lags in-
termedios, Xt−1, Xt−2, ..., Xt−k+1. Assim, temos que αX(k) = φkk, o ultimo coeficiente no seguinte
modelo regressao linear,
Xt+k = φk1Xt+k−1 + φk2Xt+k−2 + ...+ φkkXt + εt+k. (2.7)
com εtiid∼ N(0, σ2
ε ) e εt+k independente de {Xt+k−j : j ≥ 1}. Veja-se Brockwell and Davis (1991,
pg. 102) para o calculo de φkk.
Exemplo 2.1. Ruıdo Branco
A serie temporal {εt} e considerada ruıdo branco com valor esperado igual a zero, ∀t, e variancia σ2ε , o
que se escreve {εt} ∼ RB(0, σ2ε ), se e so se E[εt] = 0 e {εt} tem a seguinte funcao de autocovariancia,
γε(h) =
σ2ε , se h = 0
0 , se h 6= 0.
(2.8)
Um processo de ruıdo branco e claramente estacionario. Este e possivelmente um dos modelo mais
simples para series temporais, uma vez que nao existe qualquer dependencia entre as variaveis. Neste
caso, o facto de conhecermos os valores que ε1, ε2, ..., εn tomam nao nos da qualquer ajuda para prever
o valor que Xn+h ira tomar. No entanto, apesar do ruıdo branco ser um processo pouco interessante
do ponto de vista da previsao, este desempenha um papel importante em modelos mais complexos em
series temporais. 4
11
Exemplo 2.2. Passeio Aleatorio
Seja X1, X2, ... uma sequencia de variaveis aleatorias independentes, identicamente distribuıdas, com
variancia igual a σ2 e tais que E[Xt] = 0 (denomidado ruıdo iid). Definimos a serie temporal {St : t ∈
N}, tal que St = X1+X2+ ...+Xt para t = 1, 2, .. e S0 = 0, e a qual damos o nome de passeio aleatorio.
Vamos analisar a sua funcao de autocovariancia, para h > 0,
γS(t, t+ h) = Cov(St, St+h)
= Cov
t∑i=1
Xi,
t+h∑j=1
Xj
= V ar
(t∑i=1
Xi
), uma vez que Cov(Xi, Xj) = 0 para i 6= j.
= tσ2
Como podemos ver, a funcao de autocovariancia para um passeio aleatorio depende do tempo t. As-
sim, podemos concluir que esta e uma serie temporal nao estacionaria. 4
Vimos no Exemplo 2.2 como calcular a funcao de autocorrelacao para uma serie temporal simples. No
entanto, na pratica inicialmente nao temos um modelo que descreve a serie mas sim um conjunto de
observacoes {x1, x2, ..., xn}. De forma a medir as dependencias existentes nos dados observados e es-
colher o melhor modelo para representa-los, recorremos as funcoes de autocorrelacao e autocorrelacao
parcial amostrais. Uma vez que estas funcoes sao calculadas a partir da funcao de autocovariancia ire-
mos apresentar apenas a formula para a funcao de autocovariancia amostral. Assim temos que,
para um conjunto de observacoes {x1, x2, ..., xn}, a media amostral e
µ =1
n
n∑t=1
xt (2.9)
e a FACV amostral e dada por
γ(h) =1
n
n−|h|∑t=1
(xt+|h| − µ)(xt − µ), −n < h < n e h ∈ Z. (2.10)
Se suspeitarmos que as observacoes sao a realizacao de um certo processo estacionario {Xt}, entao
a FAC amostral devera ser uma estimativa da FAC de {Xt}. Esta estimativa podera ajudar-nos a decidir
qual o melhor modelo para representar as dependencias existentes nos dados.
12
Exemplo 2.3. Ruıdo iid
Consideremos uma realizacao de 200 valores de um processo {Xt : t ∈ Z} iid∼ N(0, 1). Na Figura
2.5 esta representada a funcao de autocorrelacao amostral, ρ, dos dados simulados para lags h ate
40. Uma vez que ρ(h) = 0 para h > 0 seria de esperar que as correlacoes amostrais estivessem
proximas de 0. Por Brockwell and Davis (1991, pg. 222) temos que para h > 0, ρ(h)iid∼ N(0, 1/200),
logo aproximadamente 95% das autocorrelacoes amostrais devem estar entre ±1.96/√
200 (1.96 e o
quantil 0.975 da distribuicao normal). Assim, na Figura 2.5 esperarıamos encontrar dois valores fora
dos limites assinalados, como e observavel nenhuma das autocorrelacoes ultrapassa os valores limites.
No decorrer deste trabalho, vamos considerar que valores de autocorrelacao entre os limites±1, 96/√n,
onde n e o tamanho da amostra, sao desprezaveis.
−0.2
0.0
0.2
0 5 10 15 20
Lag
AC
F
Figura 2.5: Funcao de autocorrelacao amostral ate lag 40 do ruıdo iid N(0, 1) simulado.
2.2 Series estacionarias
Os metodos de identificacao, modelacao e previsao que iremos abordar referem-se a series esta-
cionarias. Assim, quando a serie temporal em questao nao goza da propriedade da estacionaridade,
iremos aplicar-lhe transformacoes de forma a obter uma serie estacionaria com que possamos traba-
lhar.
Como vimos na seccao anterior, uma serie e estacionaria se a sua media, variancia, autocorrelacao e
autocovariancia nao se alteram ao longo do tempo. Embora nao existam metodos desenvolvidos para a
estabilizacao da estrutura de autocorrelacao e autocovariancia, e possıvel aplicar transformacoes para
estabilizar a variancia e a media. A estabilizacao da media pode ser conseguida pela remocao da sua
tendencia e sazonalidade. Recomenda-se que se comece por estabilizar a variancia e so de seguida
se proceda a estabilizacao da sua media.
13
2.2.1 Estabilizacao de variancia
O metodo mais utilizado na pratica para estabilizar a variancia de uma serie temporal e a utilizacao de
transformacoes de Box-Cox. Seja {Xt : t ∈ T0} uma serie temporal, a sua transformacao de Box-Cox
de parametro λ e dada por
Tλ(Xt) =
λ−1(Xλ
t − 1) Xt ≥ 0, λ 6= 0
ln(Xt) Xt > 0, λ = 0.
(2.11)
No caso de series nao positivas e ainda possıvel a aplicacao de uma transformacao de Box-Cox, para
tal basta adicionar uma constante positiva aos valores observados da realizacao da serie de forma a
que os valores resultantes sejam todos positivos.
2.2.2 Eliminacao de tendencia e sazonalidade
Como foi referido na subseccao 2.1.1, e comum considerar a decomposicao Xt = mt + st +Yt, t ∈ T0de uma serie temporal {Xt : t ∈ T0}, onde mt e a funcao que descreve a componente da tendencia, st
e uma funcao de perıodo fixo que descreve o comportamento sazonal e, por fim, Yt e ruıdo aleatorio
estacionario. Numa abordagem classica, sao estimadas as componentes {mt} e {st} para que estas
possam ser extraıdas a serie original de forma a obter apenas os resıduos {Yt} que devem ser um
processo aleatorio e estacionario. De seguida pretende-se encontrar um modelo probabilıstico que
descreva {Yt} recorrendo aos metodos que iremos estudar nas seccoes seguintes. Uma vez modelada
a serie {Yt}, juntamente com as estimacoes de {mt} e {st}, obtemos um modelo que descreve a serie
{Xt}.
Por outro lado, Box e Jenkins (1970) desenvolveram uma abordagem alternativa para este estudo que
ira ser usada no decorrer deste trabalho e consiste em utilizar diferenciacao sobre a serie {Xt : t ∈
Z}. O objetivo deste processo e que apos a aplicacao da diferenciacao se obtenha um processo
estacionario {Wt : t ∈ Z}. Assim, ja sera possıvel aplicar metodos para processos estacionarios para
modelar e fazer previsoes sobre {Wt} e consequentemente sobre a serie original.
O operador diferenca ∇ e definido da seguinte forma:
∇Xt = (1−B)Xt = Xt −Xt−1, t ∈ Z, (2.12)
onde o operador atraso B e tal que BXt = Xt−1.
Seja mt = at + b uma funcao linear de tendencia, ao aplicarmos o operador ∇ obtemos a funcao
constante ∇mt = a. De forma semelhante, podemos aplicar este operador k vezes para remover
14
tendencias polinomiais de ordem k, isto e, se {Xt} apresenta uma tendencia polinomial de ordem k
entao ao aplicarmos uma diferenciacao da mesma ordem obtemos {∇kXt}, que e livre de tendencia.
Assim, dado um conjunto {xt : t = 1, ..., n} de observacoes, podemos aplicar repetidamente o operador
∇ ate obtermos uma sequencia {∇kxt : t = k, ..., n} que pode ser modelada como a realizacao de uma
serie estacionaria.
No caso da presenca de uma componente sazonal de perıodo d, tambem e possıvel remove-la atraves
de diferenciacao aplicando o operador de diferenca de lag(d), representado por ∇d e definido da se-
guinte forma,
∇dXt = Xt −Xt−d = (1−Bd)Xt. (2.13)
Suponhamos agora que a serie temporal {Xt} e da forma Xt = mt + st + Yt, onde mt e a funcao da
tendencia e st e a componente sazonal de perıodo d. Ao aplicarmos o operador ∇d obtemos
∇dXt = mt −mt−d + Yt − Yt−d. (2.14)
Como podemos observar ∇dXt tem componente de tendencia igual a (mt −mt−d) e de ruıdo igual a
(Yt − Yt−d), mas ja nao tem componente sazonal. Se pretendermos obter um processo estacionario,
podemos aplicar o processo de diferenciacao simples com o operador ∇ definido anteriormente de
forma eliminarmos tambem a tendencia.
2.2.3 Modelos ARMA
Vamos agora enunciar uma importante famılia de modelos parametricos para series temporais, os pro-
cesso mistos autoregressivos de medias moveis, ou ARMA. Estes processos desempenham um papel
extremamente importante na modelacao e predicao de series temporais estacionarias. Como se pode
perceber pelo proprio nome, as series ARMA resultam da combinacao de dois tipos de processos mais
simples, os processos de medias moveis e os processos autoregressivos.
Uma serie {Xt : t ∈ Z} e um processo autoregressivo de ordem p ou simplesmente {Xt} ∼ AR(p),
se verificar
Xt = φ1Xt−1 + φ2Xt−2 + ...+ φpXt−p + εt, t ∈ Z, (2.15)
onde p e um inteiro nao negativo, φ1, φ2, ..., φp sao os parametros do modelo e {εt} ∼ RB(0, σ2) e a
serie dos resıduos aleatorios. Neste modelo o valor presente do processo e definido em funcao de uma
15
combinacao linear de valores passados e de um termo de ruıdo banco que representa fenomenos nao
correlacionados que atuam sobre o sistema. Por vezes e mais conveniente usar a seguinte formulacao
alternativa de (2.15),
φ(B)Xt = εt, (2.16)
onde φ(z) = 1− φ1z − φ2z2 − ...− φpzp.
Diz-se que uma serie e invertıvel se tiver representacao autoregressiva AR(∞), isto e, uma serie
{Xt : t ∈ Z} e invertıvel se
εt =
∞∑j=0
πjXt−j , t ∈ Z, (2.17)
onde {εt} ∼ RB(0, σ2) e∑∞j=0 |πj | <∞.
Uma serie {Xt : t ∈ Z} e um processo de medias moveis de ordem q ou simplesmente {Xt} ∼ MA(q),
se verificar
Xt = εt − θ1εt−1 − ...− θqεt−q, t ∈ Z, (2.18)
onde q e um inteiro nao negativo, θ1, θ2, ..., θq sao os parametros do modelo e {εt} ∼ RB(0, σ2) e a
serie dos resıduos aleatorios. Nas series MA(q), o valor presente e definido em funcao da combinacao
linear do processo de ruıdo branco. Mais uma vez, consideramos a formulacao de (2.18) recorrendo ao
operador atraso B,
Xt = θ(B)εt, (2.19)
onde θ(z) = 1 − θ1z − θ2z2 − ... − θpzp. A serie e invertıvel se e so se θ(z) 6= 0 para |z| ≤ 1 (Brockwell
and Davis, 2010, pg. 85).
Diz-se que uma serie e causal se tiver representacao de medias moveis MA(∞), isto e, uma serie
{Xt : t ∈ Z} e causal se
Xt =
∞∑j=0
ψjεt−j , t ∈ Z, (2.20)
onde {εt} ∼ RB(0, σ2) e∑∞j=0 |ψj | <∞.
16
Tabela 2.1: Condicoes para estacionaridade e invertibilidade em series ARMA
AR(p) MA(q) ARMA(p, q)
Causalidade φ(z) 6= 0 para |z| ≤ 1 Sempre φ(z) 6= 0 para |z| ≤ 1
Invertibilidade Sempre θ(z) 6= 0 para |z| ≤ 1 θ(z) 6= 0 para |z| ≤ 1
Uma serie AR(p) e causal se o seu polinomio autoregressivo verificar φ(z) 6= 0 para |z| ≤ 1 (Brockwell
and Davis, 2010, pg. 85).
Por fim, estamos agora em condicoes de definir os modelos ARMA. Uma serie {Xt : t ∈ Z} e um
processo misto autoregressivo e medias moveis de ordens p e q, {Xt} ∼ ARMA(p, q), se verificar
φ(B)Xt = θ(B)εt, t ∈ Z, (2.21)
onde {εt} ∼ RB(0, σ2) e os polinomios φ(z) = 1− φ1z − ...− φpzp e θ(z) = 1− θ1z − ...− θqzq nao tem
raızes comuns. Podemos afirmar que a serie e causal se e so se φ(z) 6= 0 para |z| ≤ 1 e e invertıvel se
e so se θ(z) 6= 0 para |z| ≤ 1.
Uma serie {Xt : t ∈ Z} e um processo ARMA(p, q) com media µ se {Xt − µ : t ∈ Z} e um processo
ARMA(p, q). Naturalmente, um processo ARMA(0, q) tem φ(B) = 1 e corresponde a um processo
MA(q), analogamente um processo ARMA(p, 0) tem θ(B) = 1 e corresponde a um processo AR(p).
A tabela 2.1 resume as condicoes para a invertibilidade e estacionariedade nos varios tipos de series
ARMA.
FAC e FACP de processos ARMA
Vamos agora ver o comportamento das funcoes de autocorrelacao e autocorrelacao parcial dos varios
tipos de series ARMA. O calculo destas duas funcoes e feito com recurso a FACV, que e dada por
γ(h) = E(Xt+hXt) = σ2∑∞j=0 ψjψj+|h| para series ARMA causais (Brockwell and Davis, 2010, pg. 88).
Como iremos analisar melhor na subseccao 2.4, o passo de identificacao do modelo utiliza a FAC
e a FACP amostrais de uma realizacao {Xt : t = 1, ..., n} para identificar as ordens p e q tais que
{xt : t ∈ Z} ∼ ARMA(p, q). Para tal, pretende-se encontrar um modelo ARMA(p, q) cujas FAC e FACP
apresentem um comportamento semelhante ao das FAC e FACP amostrais da realizacao.
Em particular se tivermos ρ(h) significativamente diferente de zero para 0 ≤ h ≤ q e desprezavel para
h > q, como na Figura 2.6 (com q = 2), entao um modelo MA(q) podera ser apropriado. Por outro lado,
se α(h) e significativamente diferente de zero para 0 ≤ h ≤ p e desprezavel para h > p, como na Figura
2.7 (com p = 3), devemos considerar um serie AR(p) para descrever {Xt} (Brockwell and Davis, 2010,
pg. 94).
17
−0.2
0.0
0.2
0.4
5 10 15 20
Lag
FAC
Figura 2.6: FAC amostral de uma serie MA(2).
−0.50
−0.25
0.00
0.25
0.50
0.75
0 5 10 15
Lag
FACP
Figura 2.7: FACP amostral de uma serie AR(3).
2.3 Series nao estacionarias
Na subseccao 2.2 apresentamos a famılia de modelos ARMA, vimos tambem que quando a serie em
estudo nao e estacionaria podemos aplicar metodologias para a transformar previamente numa nova
serie estacionaria. Uma vez que a estabilizacao da media e frequentemente obtida por diferenciacao
simples ou sazonal, vamos considerar a classe de modelos ARIMA e a sua generalizacao, denominada
classe SARIMA.
2.3.1 Modelos ARIMA
Ja estabelecemos anteriormente a classe de modelos ARMA para representar series estacionarias. A
classe de modelos ARIMA e uma generalizacao das series ARMA que incluı tambem algumas series
nao estacionarias, aquelas que podem ser reduzidas a um processo ARMA apos serem diferenciadas
um numero finito de vezes.
Mais formalmente, dizemos que {Xt : t ∈ T0} e um processo integrado misto autoregressivo e
medias moveis de ordens p, d e q, isto e {Xt, t ∈ T0} ∼ ARIMA(p, d, q), se {Yt : t ∈ Z}, tal que
Yt = (1−B)dXt para t ∈ Z, e um processo ARMA(p, q) causal. Assim, temos que {Xt} satisfaz
φ∗(B)Xt ≡ φ(B)(1−B)dXt = θ(B)εt, t ∈ Z (2.22)
onde p, d, q ∈ N, {εt} ∼ RB(0, σ2), φ(z) e θ(z) sao polinomios de graus p e q, respetivamente, e φ(z) 6= 0
para |z| ≤ 1. O polinomio φ∗(z) tem uma raiz de ordem d em z = 1. A serie {Xt} e estacionaria se e so
se d = 0, caso em que reduz a um processo ARMA(p, q).
18
2.3.2 Modelos SARIMA
Vimos na seccao 2.2 que podemos aplicar diferenciacao de lag(s) a uma serie {Xt : t ∈ Z} de forma
a eliminar uma componente sazonal de perıodo s. A classe de modelos SARIMA e uma generalizacao
da classe ARIMA que permite modelar series com componente sazonal.
Dizemos que {Xt : t ∈ Z} e um processo SARIMA(p, d, q)× (P,D,Q)s se a serie diferenciada {Yt : t ∈
Z}, tal que Yt = (1−B)d(1−Bs)DXt para t ∈ Z, e um processo ARMA causal definido por
φ(B)Φ(Bs)Yt = θ(B)Θ(Bs)Zt, t ∈ Z, (2.23)
onde {εt} ∼ RB(0, σ2), φ(z) = 1−φ1z− ...−φpzp, Φ(z) = 1−Φ1z− ...−ΦP zP , θ(z) = 1+θ1z+ ...+θqz
q
e Θ(z) = 1 + Θ1z + ...+ ΘQzQ, tais que φ(z) 6= 0 e Φ(z) 6= 0 para |z| ≤ 1.
2.4 Identificacao de modelos
Dada uma realizacao parcial de uma serie temporal, pretendemos encontrar um modelo que a descreva.
O primeiro passo desta tarefa de modelacao consiste em identificar qual a classe de modelos indicada
para representar a serie em estudo. Caso a serie nao tenha variancia estacionaria, entao antes de
procedermos a identificacao do modelo devemos aplicar uma transformacao que estabilize a variancia,
como vimos na subseccao 2.2.1.
O seguinte procedimento e usado para para identificar qual o modelo SARIMA de uma serie temporal
{Xt : t ∈ N} a partir de observacoes de uma sua realizacao parcial {xt : t = 1, 2, ..., n}.
1. Representar graficamente {xt : t = 1, 2, ..., n} e identificar as transformacoes necessarias para
obter uma serie estacionaria.
1.1. Se for necessario estabilizar a variancia, entao aplicar a transformacao de Box-Cox apropri-
ada (ver subseccao 2.2.1).
1.2. Se existirem movimentos periodicos com perıodo S, entao aplicar diferenciacao de lag(S) a
serie obtida em 1.1 ate eliminar a componente sazonal (ver subseccao 2.2.2). D e o numero
de vezes que foi necessario aplicar a diferenciacao de lag(S), usualmente temos D ≤ 1.
1.3. Se existir tendencia, aplicar diferenciacao simples a serie obtida em 1.2 ate eliminar a tendencia
(ver subseccao 2.2.2). d e o numero de vezes que foi necessario aplicar a diferenciacao sim-
ples, usualmente d ≤ 2.
2. Seja {Yt : t = 1, 2, ..., n} a serie obtida de {xt : t = 1, 2, ..., n} apos as transformacoes do passo
1. Analisar as funcoes FAC e FACP amostrais de forma a identificar as ordens p, q, P,Q para o
modelo {Yt} ∼ ARMA(p, q)× (P,Q).
19
Tabela 2.2: Guia para identificar as ordens p, q, P,Q de um modelo ARMA(p, q)× (P,Q)
Serie FAC FACP
AR(p) Decresce exponencialmente ousinusoidal α(k) = 0, k > p
MA(q) ρ(k) = 0, k > qDecresce exponencialmente ousinusoidal
ARMA(p,q) Decresce exponencialmente ousinusoidal a partir do lag q + 1
Decresce exponencialmente ousinusoidal a partir do lag p+ 1
2.1. Analisar as funcoes FAC e FACP amostrais nos lags {kS : k ∈ N} para identificar as ordens
P e Q, de acordo com a Tabela 2.2.
2.2. Analisar as funcoes FAC e FACP amostrais nos lags 1, 2, ..., S − 1 para identificar as ordens
p e q, de acordo com a Tabela 2.2.
3. Estimar os parametros do modelo selecionado e realizar uma avaliacao de diagnostico (ver subseccao
2.5), caso nao exista um bom ajuste do modelo aos dados, voltar ao passo 1.
2.5 Estimacao e avaliacao de diagnostico
Uma vez identificando um potencial modelo para a serie temporal em estudo, e necessario estimar os
seus parametros. Como aplicamos transformacoes a serie de forma a obter uma serie estacionaria, os
parametros a estimar sao os da serie ARMA. Existem varios formas de estimar estes parametros como
o metodo de Durbin-Levinson, o metodo dos mınimos quadrados e o metodo da maxima verosimilhanca,
(Brockwell and Davis, 1991, pg. 250–261). Iremos fazer apenas uma breve revisao destes dos metodos
dos mınimos quadrados e da maxima verosimilhanca, uma vez que serao os utilizados no decorrer
deste trabalho.
Seja {Xt : t ∈ Z} ∼ ARMA(p, q) estacionaria e invertıvel. Consideremos a seguinte formulacao de Xt,
φ(B)Xt = θ(B)εt, t ∈ Z, (2.24)
onde {εt} ∼ RB(0, σ2), φ(B) = 1−φ1B− ...−φpBp e θ(B) = 1−θ1B− ...−θqBq. Pretendemos estimar
φ = (φ1, ..., φp), θ = (θ1, ..., θq) e σ2 a partir de uma realizacao parcial {xt : t = 1, ..., n} de {Xt}.
As estimativas dos parametros do modelo ARMA obtidas pelo metodo dos mınimos quadrados sao
os valores de φ, θ que minimizam a soma dos quadrados dos erros {εt},
20
SSE(φ,θ) =
n∑t=0
ε2t . (2.25)
No caso do metodo da maxima verosimilhanca, comecamos por supor que {Zt} ∼ N(0, σ2). As
estimativas dos parametros do modelo ARMA obtidas por este metodo sao os valores de φ, θ, σ2 que
maximizam a funcao de verosimilhanca,
L(φ,θ, σ2) = (2πσ2)−n/2 exp
(− 1
2σ2
n∑t=1
Z2t
). (2.26)
Os metodos numericos utilizados para o calculo destas estimativas podem ser consultados em Brockwell
and Davis (1991, pg. 256–258).
Uma vez estimados os parametros, passamos a fase de controlo do processo de modelacao. Nesta
fase queremos verificar o seu ajuste aos dados. De forma a testarmos se o modelo e bem ajustado
vamos analisar os resıduos do modelo, se o modelo for adequado para descrever a serie temporal em
estudo entao os resıduos devem ser ruıdo branco. Assim, vamos recorrer ao teste de Ljung-Box, um
teste de portmanteau, que aplicado a serie dos resıduos testa a nulidade de uma sequencia de lags
iniciais da FAC dos resıduos, isto e testamos H0 : ρ(1) = ρ(2) = ... = ρ(m) = 0 vs H1 :∼ H0. Vamos
utilizar a seguinte estatıstica de teste proposta por Ljung and Box (1978), onde admitindo a veracidade
de H0,
Q = n(n− 2)
m∑k=1
ˆρ(k)2
n− k∼ χ2
m−p−q, (2.27)
Se identificarmos que ainda existem dependencias significativas, isto e se rejeitarmos a hipotese nula,
entao devemos rever o modelo pois ainda existe informacao nos resıduos que deve ser modelada
usando uma serie estacionaria mais complexa.
Quando temos varios modelos que passam a fase de controlo e descrevem corretamente a serie em
estudo, e necessario ter um criterio para escolher qual desses modelos e o mais apropriado. Durante
este trabalho, utilizamos dois criterios para decidir entre modelos, a qualidade das previsoes de cada
modelo (ver subseccao 2.6) e o criterio da informacao de Akaike corrigido (AICc).
O AICc permite medir a relacao entre a verosimilhanca e o numero de parametros do modelo, de forma
a conseguirmos encontrar um compromisso entre uma maior verosimilhanca e um numero reduzido de
parametros. Seja m = p + q e VM a verosimilhanca do modelo ajustado, entao o criterio AICc e dado
por
21
AICc = AIC +2m(m+ 1)
n−m− 1= 2m− 2 ln(VM) +
2m(m+ 1)
n−m− 1= −2 ln(VM) +
2mn
n−m− 1. (2.28)
2.6 Previsao
Um dos principais objetivos da modelacao de uma serie temporal e a previsao de valores futuros dessa
serie, este e alias o proposito desta tese, uma vez que pretendemos prever a despesa com medica-
mentos em hospitais publicos portugueses.
2.6.1 Metodos dos mınimos quadrados
Nesta seccao iremos analisar como podemos fazer previsoes de modelos ARIMA utilizando o metodo
dos mınimos quadrados. Vamos comecar por ver o caso mais simples, o da previsao de valores futuros
de uma serie ARMA (Wei, 2005, pg. 89). Suponhamos que temos uma realizacao {xt : t = 1, ..., n} de
uma serie {Xt : t ∈ N} ∼ ARMA(p, q) causal e pretendemos prever o valor de Xn+h. Como vimos na
Subseccao 2.2.3, se {Xt} e um processo causal entao podemos rescrever Xn+h na forma
Xn+h =
∞∑j=0
ψjεn+h−j . (2.29)
Seja Xn(h) a previsao de Xn+h que pretendemos estimar a partir das observacoes Xn, Xn−1, Xn−2, ....
Uma vez que todas as observacoes Xt para t = n, n − 1, n − 2, ... podem ser escritas da forma 2.29,
podemos definir a previsao por mınimos quadrados Xn(h) de Xn+h como,
Xn(h) = ψ∗hεn + ψ∗h+1εn−1 + ... , (2.30)
onde os coeficientes ψ∗h, ψ∗h+1, ... tem ainda de ser determinados. Entao o valor esperado do quadrado
do erro da previsao e
E(Xn+h − Xn(h))2 = σ2h−1∑j=0
ψ2j + σ2
∞∑j=0
(ψh+j − ψ∗h+j)2 , (2.31)
que e minimizado quando temos ψ∗h+j = ψh+j . Assim a previsao de Xn+h pelo metodo dos mınimos
quadrados e dada dada por
Xn(h) = ψhεn + ψh+1εn−1 + ... . (2.32)
22
Pela equacao (2.29) e sabendo que
E(εn+j |Xn, Xn−1, ...) =
0, j > 0
εn+j , j ≤ 0.
(2.33)
Temos E(Xn+h|Xn, Xn−1, ...) = ψhεn + ψh+1εn−1 + ... e entao Xn(h) = E(Xn+h|Xn, Xn−1, ...).
O erro da previsao e dado por en(h) = Xn+h − Xn(h) =∑h−1j=0 ψjεn+h−j , logo temos E[en(h)] = 0, o
que significa que a previsao Xn(h) e centrada. A variancia do erro e V ar(en(h)) = σ2∑h−1j=0 ψ
2j , o que
nos permite concluir que aumenta com numero de passos a prever.
Como vimos, foi utilizada a representacao MA(∞) para determinar o preditor de mınimos quadrados
de Xn+h bem como o respetivo erro da previsao. No caso de uma serie ARIMA, para descrever os
preditores de mınimos quadrados associados a serie e conveniente utilizar a sua representacao AR(∞),
∞∑j=0
πjXt−j = εt, t ∈ Z. (2.34)
O processo para obter Xn(h) neste caso e semelhante ao que acabamos de ver para series ARMA e
pode ser consultado em Wei (2005, pg. 90). Temos que para h ∈ N, a previsao de mınimos quadrados
de Xn+h a partir de {Xt : t = 1, ..., n} e o seu erro associado sao:
Xn(h) =
∞∑j=1
π(l)j Xn−j+1 e en(h) =
h−1∑j=0
ψjεn+h−j
com ψj =
j−1∑k=0
ψkπj−k e π(l)j =
h−1∑k=0
ψkπh−1+j−k.
(2.35)
Como E[en(h)] = 0, temos que a previsao de Xn(h) e centrada.
Relativamente a series SARIMA, o processo e analogo, deve apenas comecar-se por expandir o ope-
rador (1−B)d(1−Bs)D nas potencias de B.
2.6.2 Qualidade das previsoes
Como vimos na Seccao 2.5 podemos obter varios modelos adequados para descrever a serie em
estudo. A escolha do modelo final e feita considerando o criterio AICc e a qualidade preditora do
modelo, vamos ver como podemos medir esta qualidade preditora.
23
Seja {xt : t = 1, ..., n} uma realizacao do serie {Xt : t ∈ Z} que pretendemos modelar. Suponhamos
que utilizamos a serie {Xt : t = 1, ..., k} tal que k < n, para as fases de identificacao e estimacao.
Vamos utilizar o modelo encontrado para prever os valores observados de Xk+1, Xk+2, ..., Xn. Sejam
{ej(1) : j = k+ 1, k+ 2, ..., n} os erros das previsoes a um passo. Os quatro criterios seguintes medem
a qualidade da previsao realizada pelo modelo ajustado a partir de {xt : t = 1, ..., k}:
1. Erro Quadratico Medio:
EQM =1
n− k
n∑j=k+1
e2j (1). (2.36)
2. Erro Absoluto Medio:
EAM =1
n− k
n∑j=k+1
|ej(1)|. (2.37)
3. Erro Percentual Absoluto Medio:
EPAM =1
n− k
n∑j=k+1
|ej(1)||Xj+1|
. (2.38)
O modelo com maior qualidade de previsao e aquele que minimiza os valores destes criterios.
2.7 Regressao com erros SARIMA
As series temporal descritas nas seccoes anteriores permitem descrever um instante do processo em
funcao da informacao dos seus instantes anteriores, mas nao possibilitam a inclusao de outro tipo de
dados que pode ser relevante. Por exemplo, se pretendermos modelar a serie temporal da taxa de de-
semprego num determinado paıs, e relevante considerarmos tambem, por exemplo, o clima economico
e as alteracoes da legislacao nesse mesmo paıs, uma vez que estes dados adicionais podem ajudar a
explicar e prever os valores da serie em estudo.
Nesta seccao vamos ver como e possıvel alargar a classe de modelos SARIMA de forma a permi-
tir incluir no modelo dados de outras series temporais. Seja {Yt : t ∈ Z} a serie temporal em es-
tudo e {X1t, ..., Xkt : t ∈ Z} um conjunto de series temporais que queremos usar para explicar {Yt}.
Comecamos por construir uma regressao linear de {Yt} em funcao de {X1t, ..., Xkt},
Yt = β0 + β1X1t + ...+ βkXkt +Nt, t ∈ Z (2.39)
Numa regressao linear normal, assume-se que os resıduos {Nt : t ∈ Z} sao ruıdo branco. No entanto,
vamos considerar que estes podem ser autocorrelacionados e vamos utilizar um modelo SARIMA para
os descrever.
24
Exemplo 2.4. Regressao linear com erros ARIMA(1, 1, 1)
Suponhamos que a serie {Yt : t ∈ N} e funcao linear de {X1t, ..., Xkt : t ∈ N} e que os resıduos desta
regressao sao {Nt} ∼ ARIMA(1, 1, 1). Entao a partir de equacao (2.39), obtemos o seguinte modelo de
regressao com erros ARIMA
Yt = β0 + β1X1t + ...+ βkXkt +Nt t ∈ N
tal que (1− φ1B)(1−B)Nt = (1 + θ1B)εt, {εt} ∼ RB(0, σ2)(2.40)
Note-se que temos dois termos de resıduos: {Nt} da regressao linear e {εt} do modelo ARIMA. Apenas
exigimos que {εt} seja ruıdo branco. 4
2.7.1 Identificacao do modelo
Os coeficientes β0, ..., βk sao estimados de forma a minimizar a soma dos quadrados dos valores de
{εt} (Hyndman and Athanasopoulos, 2003).
De forma a identificar a estrutura SARIMA apropriada para descrever os resıduos da regressao temos
de obter {Nt}. No entanto, nao e possıvel obter {Nt} sem primeiro estimar os coeficientes β0, ..., βk
e para estimarmos estes coeficientes temos de primeiro ter uma estrutura SARIMA para os erros da
regressao. Entramos assim num ciclo em que a estimacao de cada parte do modelo exige que a outra
seja conhecida. A solucao para este problema consiste em comecar por considerar que os resıduos da
regressao seguem um modelo ARIMA(2, d, 0). Embora este nao seja o melhor modelo para descrever
{Nt}, a sua escolha e comum pois explica grande parte das autocorrelacoes existentes nos resıduos.
Assim, segue-se o procedimento para obter um modelo de regressao com erros SARIMA:
1. Verificar se tanto {Yt} como {X1t, ..., Xkt} sao estacionarias. Caso contrario, aplicar as trans-
formacoes apropriadas (deve usar-se a mesma diferenciacao para todas as varaveis de forma a
preservar a interpretabiliadade do modelo).
2. Fixar {Nt} ∼ AR(2) e estimar os coeficientes β0, ..., βk da regressao.
3. Calcular {Nt} a partir da regressao linear com os coeficientes β0, ..., βk obtidos no passo 2 e
identificar um modelo SARIMA adequado.
4. Voltar a estimar os coeficientes β0, ..., βk da regressao, assumindo agora que {Nt} segue o mo-
delo encontrado no passo 3.
5. Realizar a avaliacao de diagnostico definida na Seccao 2.5 para o modelo encontrado no passo 3.
Caso o modelo nao passe a avaliacao, voltar ao passo 3 e escolher outro modelo SARIMA para
25
{Nt}.
As previsoes num modelo de regressao com erros SARIMA resultam da combinacao da previsao da
regressao linear com a previsao obtida do modelo SARIMA (ver Seccao 2.6).
26
Capıtulo 3
Analise Preliminar dos Dados
Como foi referido anteriormente, o objetivo deste trabalho e a modelacao e previsao da serie temporal
da despesa com medicamentos nos hospitais publicos portugueses. Neste capıtulo vamos realizar uma
analise dos dados utilizados para este fim.
Os dados utilizados neste trabalho foram fornecidos pelo Infarmed - Autoridade Nacional dos Medica-
mentos e Produtos de Saude I.P (denominado apenas por Infarmed no decorrer deste documento),
com a excecao dos dados da populacao residente e do variacao do produto interno bruto (PIB), que
estao disponıveis na base de dados online do Instituto Nacional de Estatıstica (INE).
3.1 Despesa com medicamentos
Aos medicamentos utilizados nos hospitais e atribuıdo um Codigo Hospitalar Nacional do Medica-
mento (CHNM), este sistema de codificacao e atribuıdo pelo Infarmed a todos os medicamentos com
autorizacao de introducao no mercado nacional ou com autorizacao especial de utilizacao e e dispo-
nibilizado aos hospitais. Adicionalmente, existe ainda a classificacao ATC ou Anatomical Therapeutic
Chemical Code utilizada internacionalmente e adotada pela Organizacao Mundial de Saude (OMS).
A classificacao ATC e hierarquica e classifica os farmacos em diferentes grupos e subgrupos de acordo
com o orgao ou sistema sobre o qual atuam e segundo as suas propriedades quımicas, farmacologicas
e terapeuticas. A cada medicamento e atribuıdo um codigo ATC formulado de acordo com o diagrama
da Figura 3.1. Na Tabela A.2, estao apresentadas as descricoes de cada grupo principal ATC.
Os dados fornecidos pelo Infarmed consistem nas observacoes mensais do consumo de 4795 codigos
CHNM, cujo valor e diferente de zero, por cada um dos 47 hospitais pertencentes ao SNS entre janeiro
de 2010 e marco de 2016.
27
{
{
{
{
{
Grupo Anatómico1 letra
Grupo Terapêutico2 dígitos
Grupo Farmacológico1 letra
Grupo Químico1 letra
Substância Química2 dígitos
Figura 3.1: Codigo ATC para o farmaco Brufen.
Vamos comecar por analisar a serie que pretendemos modelar, a serie da despesa total com farmacos
nos hospitais publicos em Portugal. Esta serie e obtida somando os gastos totais de cada hospital com
farmacos para cada mes observado.
Notamos que existe um aumento muito significativo da despesa a partir de abril de 2015 que atinge o
valor maximo em julho desse mesmo ano. Uma analise detalhada desta situacao permitiu identificar
que o drastico aumento da despesa se deve ao consumo de medicamentos com codigo ATC contido
no subgrupo J05AX, indicados para o tratamento da Hepatite C.
Os cronogramas da serie original da despesa, da serie da despesa com farmacos do subgrupo J05AX
e ainda o valor do aumento registado, nao podem ser apresentados por motivos de confidencialidade
dos dados da despesa com medicamentos para o tratamento da Hepatite C.
3.1.1 Tratamento da Hepatite C
O aumento substancial da despesa verificado a partir de abril de 2015 deve-se ao consumo de farmacos
do subgrupo J05AX. Esta situacao deve-se ao facto de em fevereiro de 2015, o Ministerio da Saude
ter decidido comparticipar a 100% medicamentos inovadores nesta area, iniciando uma nova estrategia
nacional para o tratamento da Hepatite C.
O custo elevado destes medicamentos teve um impacto notorio na despesa registada. No entanto,
devido a elevada taxa de sucesso deste farmaco (cerca de 95% de todos os pacientes submetidos ao
tratamento no ano de 2015 ficaram curados (Infarmed, 2016)), a tendencia e que os doentes de Hepatite
C sejam curados e a procura destes medicamentos diminua. Uma vez curada a populacao infetada com
este vırus, apenas novos casos diagnosticados irao recorrer a estes tratamentos, estimando-se assim
que esta despesa estabilizara em valores significativamente inferiores ao gasto registado.
Para se poder modelar adequadamente esta serie da despesa com medicamentos do grupo ATC
J05AX, e necessario utilizar dados relativos ao numero de doentes infetados, curados, em tratamento,
entre outros. Uma vez que nao nos foi possıvel obter estes dados e devido ao cariz temporario desta
situacao, a modelacao desta serie nao foi realizada e a despesa com estes medicamentos foi retirada
28
da serie da despesa total. Assim, apos retirados os dados da despesa com medicamentos do subgrupo
J05AX a serie original, obtemos a serie temporal que pretendemos modelar, representada na Figura
3.2.
7.5e+07
8.0e+07
8.5e+07
9.0e+07
9.5e+07
2010 2011 2012 2013 2014 2015 2016
Ano
Des
pesa
(€)
Figura 3.2: Despesa com farmacos nao pertencentes ao grupo ATC J05AX nos hospitais do SNS entrejaneiro de 2010 e marco de 2016.
3.1.2 Acordos entre Industria Farmaceutica e o Estado Portugues
Em seguimento da analise realizada na subseccao 3.1.1, foram removidos os dados dos medicamentos
para o tratamento da Hepatite C e procedeu-se a uma analise mais detalhada da serie resultante. A
analise dos cronogramas das series da despesa de cada um dos 47 hospitais permitiu identificar que
existem hospitais que apresentam valores extremamente baixos nos meses de outubro, novembro e/ou
dezembro. Tome-se o exemplo do hospital 30 (Figura 3.3), a despesa apresentada para o mes de
dezembro de 2013 e de 6.07× 105e, apenas 44% do valor apresentado para este mesmo mes no ano
anterior. Note-se que nos meses de dezembro posteriores a 2013 este fenomeno mantem-se, apesar
de este comportamento nao se estender aos restantes meses do ano.
Esta situacao e, em grande parte, explicada pelos acordos celebrados anualmente a partir de maio de
2012 entre o Ministerio da Saude e a APIFARMA (Associacao Portuguesa da Industria Farmaceutica),
que visam contribuir para a sustentabilidade do SNS e garantir o acesso ao medicamento. Nestes
acordos e estabelecido uma meta para o valor anual da despesa com medicamentos no SNS (hospitalar
e ambulatorio) e a industria farmaceutica assume um contributo financeiro com o estado portugues
de forma a cooperar neste objetivo. Este contributo financeiro assume a forma de notas de credito
que sao aplicadas pelas empresas farmaceuticas aderentes aos hospitais publicos, estes creditam as
notas de credito durante o ano aquando da compra de farmacos. Existem tambem outros acordos de
29
500000
1000000
1500000
2010 2011 2012 2013 2014 2015 2016
Ano
Des
pesa
(€)
Figura 3.3: Despesa total no hospital 30.
500000
1000000
1500000
2010 2011 2012 2013 2014 2015 2016
Ano
Des
pesa
(€)
Figura 3.4: Despesa total corrigida no hospital 30.
financiamento de medicamentos entre hospitais e alguns laboratorios que tambem assumem a forma
de notas de credito.
Como podemos observar nos dados, alguns hospitais, como o caso do hospital 30, optam por refletir
o valor das notas de credito na despesa dos ultimos meses do ano, resultando em valores nao consis-
tentes para a despesa nestes meses, uma vez que ao valor real foi subtraıdo o valor creditado pelas
farmaceuticas para a totalidade do ano. Assim, considera-se que estas observacoes nao sao validas.
Dado que nao existe um registo que pudesse ser consultado de quando cada hospital utiliza uma nota
de credito, nem do seu respetivo valor, recorremos ao Algoritmo 1, (Hyndman) para tratar estes dados.
O algoritmo utiliza a distancia interquartil dos resıduos para identificar as observacoes afetadas por este
fenomeno e interpolacao linear para imputar as observacoes removidas. Note-se que, dada a natureza
do problema, apenas pretendemos encontrar observacoes cujo valor seja irrealisticamente baixo.
Algoritmo 1 Tratamento de observacoes de notas de credito
1: {xt : t = 1, ..., n} ← serie da despesa do hospital em estud.o
2: {εt : t = 1, ..., n} ← serie dos resıduos de {xt} obtida pelo metodo de decomposicao STL.
3: IQR← distancia interquartis da serie {εt}.4: for t > junho de 2012 do
5: score← xt − (Q1 − 2× IQR), onde Q1 e o valor do 1o quartil da distribuicao de {εt}.6: if score < 0 then
7: xt ← NA
8: Os valores omissos da serie {xt : t = 1, ..., n} sao imputados por interpolacao linear simples.
Optou-se por considerar o limiteQ1−2×IQR em vez doQ1−1.5×IQR, usualmente utilizado na detecao
de observacoes anomalas. Este ajuste foi realizado uma vez que se considerou que, previamente a esta
alteracao, o algoritmo detetava muitos falsos positivos, isto e, observacoes regulares eram consideradas
30
anomalas.
O algoritmo identificou e tratou observacoes anomalas deste tipo em 19 dos 47 hospitais em estudo. A
serie resultante do hospital 30 esta representada na Figura 3.4.
3.1.3 Analise descritiva da despesa
Tabela 3.1: Estatısticas sumarias da serie da despesa total ao longo das duas fases de tratamento dedados.
Min (×107) 1oQ (×107) Mediana (×107) Media (×107) 3oQ (×107) Max (×107)
Sem dados do grupoATC J05AX
7.27 7.96 8.35 8.28 8.60 9.43
Serie final 7.35 7.99 8.37 8.32 8.60 9.43
Pelos motivos apresentados na Subseccao 3.1.1 optamos por retirar da analise os dados dos medica-
mentos para o tratamento da Hepatite C. De seguida aplicamos o procedimento descrito na Subseccao
3.1.2 para tratar as observacoes onde foram aplicadas notas de credito. Na Tabela 3.1 estao apresen-
tadas algumas estatısticas sumarias sobre a serie da despesa total ao longo do processo de tratamento
dos dados. Sao omitidas as estatısticas da serie original por motivos de confidencialidade dos dados
dos medicamentos do grupo ATC J05AX.
Nesta subseccao vamos analisar a serie tratada resultante. Como e observavel na Figura 3.2 e con-
firmado na Figura 3.5, existiu um aumento da despesa entre janeiro de 2010 e marco de 2011 que
foi seguido por um perıodo de decrescimento ate janeiro 2014. Entre fevereiro de 2014 e marco 2016
esta tendencia inverte-se e existe um crescimento monotono e significativo, com a despesa a atingir em
marco de 2016 o valor maximo registado durante todo o intervalo em estudo.
7.8e+07
8.1e+07
8.4e+07
8.7e+07
9.0e+07
2010 2011 2012 2013 2014 2015 2016
Des
pesa
(€)
Jan,2014
Mar,2011
Figura 3.5: Tendencia da serie representada na Figura 3.2, obtida pelo metodo STL.
31
Apesar das limitacoes resultantes do reduzido numero de observacoes para cada mes, os diagramas
em caixa da Figura 3.6 permitem uma melhor compreensao do comportamento da despesa ao longo
do ano. Note-se que apenas temos 6 observacoes para cada um dos primeiros tres meses do ano
e 5 observacoes para os restantes. O mes de marco tende a ser o mes mais dispendioso, mas e
tambem o que apresenta maior variancia. Por outro lado os meses de abril e julho apresentam menor
variabilidade.
Jan Feb Mar Apr Mai Jun Jul Ago Set Out Nov Dec
7.5e
+07
8.0e
+07
8.5e
+07
9.0e
+07
9.5e
+07
Des
pesa
(€)
Figura 3.6: Diagramas em caixa das despesas totais mensais entre janeiro de 2010 e marco de 2016.
De seguida vamos analisar o comportamento da despesa por cada grupo principal ATC e posteri-
ormente por cada regiao geografica, de forma a podermos identificar e compreender os diferentes
fenomenos que atuam na despesa, a uma escala mais pequena.
Grupos ATC
Vamos agora analisar as series da despesa entre janeiro de 2010 e marco de 2016 dos grupos ATC
principais (Figuras 3.7 e 3.8), as estatısticas descritivas destas series podem ser consultadas na Tabela
A.2.
Os grupos ATC B, J e L sao os mais dispendiosos, enquanto que os grupos D, G e P sao os que apre-
sentam uma despesa inferior. O gasto com medicamentos dos grupos A, L, R, S e V tem aumentado,
por outro lado a despesa com medicamentos ATC B, G e M tem vindo a decrescer, estabilizando no
final do perıodo em observacao.
Como podemos observar nao existe nem uma tendencia unica nem um comportamento sazonal seme-
lhante para todos os grupos, o que revela que diversos fenomenos influenciam cada grupo de forma
diferente. Por exemplo, consideremos os medicamentos para o sistema cardiovascular (grupo ATC C),
esta despesa pode ser explicada pelo aumento da prevalencia das doencas cardiovasculares e das pa-
32
tologias associadas como a obesidade e a diabetes mellitus, ou tambem por um melhor e mais precoce
diagnostico (Furtado, 2012).
3000000
3500000
4000000
4500000
2010 2011 2012 2013 2014 2015 2016
Des
pesa
(€)
A
9.0e+06
1.0e+07
1.1e+07
1.2e+07
1.3e+07
2010 2011 2012 2013 2014 2015 2016
B
1600000
1800000
2000000
2200000
2010 2011 2012 2013 2014 2015 2016
C
210000
240000
270000
2010 2011 2012 2013 2014 2015 2016
Des
pesa
(€)
D
3e+05
4e+05
5e+05
6e+05
2010 2011 2012 2013 2014 2015 2016
G
1600000
1700000
1800000
1900000
2000000
2010 2011 2012 2013 2014 2015 2016
H
20000000
22500000
25000000
27500000
2010 2011 2012 2013 2014 2015 2016
Des
pesa
(€)
J
2.7e+07
3.0e+07
3.3e+07
3.6e+07
3.9e+07
2010 2011 2012 2013 2014 2015 2016
L
600000
800000
1000000
1200000
2010 2011 2012 2013 2014 2015 2016
M
Figura 3.7: Cronogramas das series da despesa por grupo principal ATC (A a M).
A serie dos medicamentos do grupo ATC N (Figura 3.8), indicados para o tratamento de doencas do
sistema nervoso, revela um subito aumento da variabilidade da despesa a partir de junho de 2012.
Esta situacao resulta da decisao do Ministerio da Saude de comparticipar o farmaco Tafamidis indicado
para o tratamento da doenca dos pezinhos ou paramiloidose, este farmaco que comecou a ser comer-
cializado em maio de 2012 tem um custo extremamente elevado comparativamente com os restantes
medicamentos do grupo ATC N.
Assim, decisoes como a comparticipacao de novos medicamentos, como o caso do Tafamadis, ou
acordos para a introducao de medicamentos inovadores como o caso do tratamento da Hepatite C,
tem um impacto enorme na despesa dos respetivos grupos. Estas decisoes sao muitas vezes conheci-
das pouco tempo antes de entrarem em vigor e consequente e difıcil anteceder o seu respetivo impacto.
33
0e+00
2e+06
4e+06
6e+06
2010 2011 2012 2013 2014 2015 2016
Des
pesa
(€)
N
70000
80000
90000
100000
110000
2010 2011 2012 2013 2014 2015 2016
P
700000
800000
900000
1000000
1100000
2010 2011 2012 2013 2014 2015 2016
R
500000
750000
1000000
1250000
2010 2011 2012 2013 2014 2015 2016
Des
pesa
(€)
S
1600000
2000000
2400000
2010 2011 2012 2013 2014 2015 2016
V
Figura 3.8: Cronogramas das series da despesa por grupo principal ATC (N a V).
Regioes NUTS II
Vamos agora descrever as series da despesa entre janeiro de 2010 e marco de 2016 das regioes NUTS
II de Portugal continental, Algarve, Alentejo, Area Metropolitana de Lisboa, Centro e Norte (Figura 3.9).
As estatısticas descritivas destas series podem ser consultadas na Tabela A.1.
2400000
2800000
3200000
3600000
2010 2011 2012 2013 2014 2015 2016
Des
pesa
(€)
Algarve
2100000
2200000
2300000
2400000
2500000
2600000
2010 2011 2012 2013 2014 2015 2016
Alentejo
32500000
35000000
37500000
40000000
2010 2011 2012 2013 2014 2015 2016
Área Metropolidata de Lisboa
1.4e+07
1.5e+07
1.6e+07
1.7e+07
2010 2011 2012 2013 2014 2015 2016
Des
pesa
(€)
Centro
22500000
25000000
27500000
30000000
2010 2011 2012 2013 2014 2015 2016
Norte
Figura 3.9: Cronogramas das series da despesa por regiao NUTS II.
34
Apesar de ate 2013 as tendencias das diferentes regioes apresentarem comportamentos ligeiramente
diferentes, desde janeiro de 2014 que existe uma acentuada tendencia positiva em todas as regioes.
Por outro lado pode observar-se que a serie da despesa na regiao do Alentejo apresenta uma maior
variancia apesar de ter uma tendencia mais estavel ao longo do perıodo em estudo.
Na Figura 3.10 podemos observar a evolucao da despesa total anual entre os anos de 2010 e 2015
segmentada por regioes NUTS II. Assim, podemos efetuar uma analise de extrema importancia para
o decorrer deste trabalho: a Area Metropolitana de Lisboa representa quase metade da despesa to-
tal. Assim, a correta modelacao e previsao desta regiao tem um impacto marcante no resultado das
previsoes finais que pretendemos obter para Portugal.
As regioes mais dispendiosas que se seguem sao as regioes Norte e Centro, enquanto que por outro
lado as regioes do Algarve e Alentejo apresentam uma despesa consideravelmente inferior e menos
importante no valor total.
0.0e+00
2.5e+08
5.0e+08
7.5e+08
1.0e+09
2010 2012 2014
Ano
Des
pesa
Anu
al (€
)
Alentejo
Algarve
Centro
Lisboa
Norte
2011 2013 2015
Figura 3.10: Despesa anual entre 2010 e 2015 segmentada por regiao geografica NUTS II.
Ao contrario do que verificamos nas series dos grupos ATC, nao e tao notorio o efeito de alteracoes
legislativas ao acesso ao medicamento nem de introducao de farmacos genericos ou inovadores. Uma
possıvel justificacao para este facto e o impacto destes eventos se dissipar pelas cinco regioes.
Como ja havia sido referido na Seccao 1.2 e difıcil prever com exatidao quando um medicamento ira
perder a exclusividade de comercializacao e qual o impacto da introducao dos respetivos genericos.
Ainda, verificamos que alteracoes a comparticipacao de medicamentos e lancamentos de farmacos
inovadores podem causar alteracoes consideraveis as series da despesa nos respetivos grupos te-
rapeuticos ATC. Uma vez que para modelar estes fenomenos seria necessario recorrer a especialistas
farmaceuticos e dados que nao nos sao acessıveis, optou-se por seguir uma abordagem top-down,
focada nas diferentes regioes geograficas e considerando o impacto de variaveis demograficas, macro-
35
economicas e de indicadores de utilizacao dos servicos de saude.
3.2 Variaveis explicativas
Nesta seccao vamos analisar as series temporais, de frequencia trimestral, dos indicadores que iremos
utilizar no Capıtulo 4 como variaveis explicativas de forma a modelar a despesa em cada regiao.
• Populacao residente: Estes dados (in INE.pt) referem-se a populacao residente por regiao NUTS
II desde janeiro de 2011 ate marco de 2016.
440.0
442.5
445.0
447.5
2011 2013 2015
Pop
ulaç
ão r
esid
ente
(N
º m
ilhar
es) Algarve
720
730
740
750
2011 2013 2015
Alentejo
2800
2810
2820
2011 2013 2015
Lisboa
2250
2275
2300
2325
2011 2013 2015
Centro
3600
3625
3650
3675
2011 2013 2015
Norte
Figura 3.11: Cronogramas das series temporais da populacao por regiao NUTS II.
Como e observavel na Figura 3.11, a populacao decresceu ao longo de todo o perıodo em estudo
excepto nas regioes do Algarve e Area Metropolitana de Lisboa, onde esta tendencia se inverte a
partir do ano de 2015.
• Taxa de variacao do PIB: Estes dados (in INE.pt) referem-se a taxa de variacao do Produto In-
terno Bruto (PIB) entre janeiro de 2011 e marco de 2016.
−4
−2
0
2
2011 2012 2013 2014 2015 2016
Taxa
de
Var
iaçã
o do
PIB
(%
)
Figura 3.12: Cronogramas da serie temporal da taxa de variacao do PIB.
O PIB portugues decresceu ao longo do ano 2012 e inıcio do ano 2013, registando o valor mınimo
em marco de 2013. Este perıodo foi seguido de uma tendencia crescente ate 2015 e posterior-
mente de uma tendencia ligeiramente decrescente que se prolonga ate ao final do perıodo em
estudo.
• Numero de Internamentos: Estes dados, fornecidos pelo Infarmed, referem-se ao numero de
internamentos por instituicao de servicos de saude entre janeiro de 2011 e junho de 2016. Os
36
dados das instituicoes foram agrupados por regiao NUTS II (vide Figura 3.13).
60000
70000
80000
2011 2013 2015
Inte
rnam
ento
s (N
º)
Alentejo
Algarve
4e+05
5e+05
6e+05
2011 2013 2015
Centro
Lisboa
Norte
Figura 3.13: Cronogramas das series temporais do numero de internamentos por regiao NUTS II.
Notamos que as series do numero de internamentos apresentam um comportamento bastante
estavel, com a excecao das series das regioes Area Metropolitana de Lisboa, Centro e Norte
durante o ano de 2011 que apresentam maior variabilidade.
• Numero de Atendimentos de Urgencias: Estes dados, fornecidos pelo Infarmed, referem-se ao
numero de atendimentos de urgencia por instituicao de servicos de saude entre janeiro de 2011 e
junho de 2016. Os dados das instituicoes foram agrupados por regiao NUTS II (vide Figura 3.14).
50000
100000
150000
2011 2013 2015
Ate
ndim
ento
s U
rgên
cia
(Nº)
Alentejo
Algarve
3e+05
4e+05
5e+05
6e+05
7e+05
8e+05
9e+05
2011 2013 2015
Centro
Lisboa
Norte
Figura 3.14: Cronogramas das series temporais do numero de atendimentos de urgencia porregiao NUTS II.
O numero de atendimentos de urgencia aumentou de forma rapida e significativa de 2012 para
2013 em todas as regioes, mantendo-se estavel ate ao fim do perıodo em analise. No entanto,
para o caso da regiao algarvia, temos que o perıodo de estabilizacao apenas se inicia em 2014.
• Numero de Sessoes de Hospital de Dia: Estes dados, fornecidos pelo Infarmed, referem-se ao
numero de sessoes em hospital de dia por instituicao de servicos de saude entre janeiro de 2011
e junho de 2016. Os dados das instituicoes foram agrupados por regiao NUTS II (vide Figura 3.15).
37
12000
16000
20000
24000
2011 2013 2015
Con
sulta
s H
ospi
tal d
e D
ia (
Nº)
Alentejo
Algarve
100000
150000
2011 2013 2015
Centro
Lisboa
Norte
Figura 3.15: Cronogramas das series temporais do numero de consultas em hospital de dia porregiao NUTS II.
Notamos que nao e observavel uma tendencia significativamente crescente ou decrescente em
qualquer das regioes em estudo.
38
Capıtulo 4
Modelacao e Previsao
4.1 Introducao
Neste capıtulo vamos descrever o procedimento seguido para modelar a despesa com medicamentos
nos hospitais do SNS e serao tambem apresentados os resultados das previsao realizadas. Pelos mo-
tivos discutidos no Capıtulo 3, optou-se por seguir uma abordagem top-down, focada nas cinco regioes
NUTS II de Portugal continental. Inicialmente tentou-se modelar a despesa em cada regiao recorrendo
apenas a modelos SARIMA, no entanto esta abordagem embora capaz de produzir modelos que pre-
viam corretamente o comportamento sazonal das series, estes nao conseguiam prever corretamente a
tendencia positiva que e registada entre 2015 e 2016.
Assim, surgiu a necessidade de incorporar informacao adicional que permitisse ajudar a explicar e
prever a tendencia da despesa em cada regiao. Desta forma, para cada regiao foi desenvolvido um
modelo de regressao linear com erros SARIMA que descreve a despesa com medicamentos em cada
instante t em funcao dos valores registados para os respetivos indicadores demograficos, economicos
e de utilizacao dos servicos de saude no instante t− f , onde f e a frequencia das series temporais.
De forma a podermos estabelecer a regressao linear entre cada uma das series da despesa com me-
dicamentos e as respetivas series das variaveis explicativas, e necessario que tenham todas a mesma
frequencia. Assim, temos duas alternativas, ou agregamos a serie da despesa de forma a obtermos
uma serie trimestral a semelhanca dos indicadores, ou, por outro lado, podemos estimar valores men-
sais a partir de observacoes trimestrais das series explicativas. Ambas as abordagens tem vantagens
e desvantagens como iremos ver nas seccoes seguintes.
No processo de modelacao foi definido o perıodo de treino entre janeiro de 2012 e marco de 2015 e de
teste entre abril de 2015 e marco de 2016. Esta escolha foi determinada pela necessidade de prever a
despesa anual e pelo facto de apenas termos dados dos indicadores de utilizacao de servicos de saude
39
Tabela 4.1: Sumario das transformacoes aplicadas as series temporais.
Series TemporaisDespesa A. Urgencia Internamentos C. Hospital de Dia Populacao PIB
÷103 ÷104 ÷104 ÷104 ×102 ×102
a partir do primeiro trimestre de 2011. A metodologia seguida esta descrita na Seccao 2.7 e a escolha
entre modelos concorrentes e feita pelos criterios da qualidade das previsoes e AICc.
O modelo que descreve a despesa total em Portugal resulta da soma dos modelos obtidos para cada
regiao, os respetivos resultados estao apresentados na Seccao 4.3.
Iremos assim comecar por descrever os modelos (mensal e trimestral) desenvolvidos e as respetivas
previsoes realizadas para cada regiao NUTS II. De seguida, sao apresentados ambos os modelos re-
sultantes para Portugal, as respetivas previsoes para o perıodo de teste e sao analisados os resultados
obtidos.
No decorrer deste capıtulo utilizamos a notacao DCr,t para denominar a despesa no instante t dada por
um modelo ajustado, onde r ∈ {Algarve , Alentejo , Lisboa , Centro , Norte} e a regiao para a qual o
modelo e valido e C ∈ {T,M} representa a frequencia do modelo (T = Trimestral; M = Mensal).
4.2 Regioes NUTS II
Nesta seccao vamos apresentar o processo de modelacao conduzido para cada uma das regioes NUTS
II. Analisamos em maior detalhe, de forma a facilitar a compreensao do leitor, os varios passos da
metodologia para o caso da regiao da Area Metropolitana de Lisboa e apresentaremos os resultados e
uma descricao mais breve para as restantes regioes.
Devido as limitacoes computacionais existentes foi necessario alterar a escala das series da despesa,
de forma a tornar possıvel a realizacao dos calculos necessarios para a criacao dos modelos. De forma
a uniformizar as ordens de grandeza das series temporais envolvidas, alteramos tambem as escalas
das series temporais explicativas. A Tabela 4.1 descreve as transformacoes realizadas.
Note-se que o criterio AICc depende da cardinalidade do conjunto de treino que utilizamos para cons-
truir o modelo, pelo que nao pode ser utilizado como criterio de comparacao da qualidade entre modelos
mensais e trimestrais. Ainda, as diferentes ordens de grandeza das series mensais e trimestrais im-
plicam que nao podemos utilizar medidas de erro que sejam dependentes da escala. Assim, para
comparar estes dois conjuntos de modelos utilizados as seguintes medidas de erro percentuais que
sao calculadas para os intervalos de treino e teste:
40
• Erro Percentual Medio (EPM):
EPM =1
n
n∑t=1
At − FtAt
× 100 (%), (4.1)
onde n e o numero observacoes, At e o valor observado no instante t e Ft e o valor previsto pelo
modelo para o mesmo instante.
Nesta medida, os erros por sobrestimacao e por subestimacao compensam-se mutuamente, nao
permitindo, por vezes, avaliar a verdadeira qualidade do modelo. No entanto, e uma forma de
concluir se na generalidade o modelo tende a sobre- ou subestimar, o que nos e util uma vez que
um dos objetivos e prever a despesa total anual.
• Erro Percentual Absoluto Medio (EPAM):
EPAM =1
n
n∑t=1
∣∣∣∣At − FtAt
∣∣∣∣ × 100 (%), (4.2)
onde n e o numero observacoes, At e o valor observado no instante t e Ft e o valor previsto pelo
modelo para o mesmo instante.
Em resposta as limitacoes da medida EPM, temos o Erro Percentual Absoluto Medio. Uma vez
que neste caso estamos a medir o erro absoluto em cada instante e depois a calcular a media,
temos uma melhor percecao da qualidade das estimacoes pontuais do modelo.
• Erro Percentual Absoluto Mediano (EPAMediano)
Esta metrica e a mediana dos erros percentuais absolutos (EPA(t)) calculados para cada instante
t previsto.
EPA(t) =
∣∣∣∣At − FtAt
∣∣∣∣ × 100 (%), (4.3)
onde At e o valor observado no instante t e Ft e o valor previsto pelo modelo para o mesmo
instante.
Embora o EPAM seja um boa ferramenta para medir a qualidade das estimacoes do modelo, o
facto de estarmos a calcular a media do erro absoluto instantaneo tem consequentes limitacoes.
Assim, calculamos tambem a mediana, menos sensıvel a casos de erros extremos em determi-
nados instantes.
41
4.2.1 Area Metropolitana de Lisboa
O nosso objetivo nesta seccao e identificar e estimar um modelo que descreva a despesa com medica-
mentos nos hospitais do SNS na regiao de Lisboa em cada instante t,
DLisboa,t = β0 + β1XL1,t−f + β2XL2,t−f + β3XL3,t−f + β4XL4,t−f + β5X5,t−f +Nt (4.4)
onde {DLisboa,t} e a serie temporal da despesa na regiao da Area Metropolitana de Lisboa, em milhares
de euros, {XL1} e a serie no numero de atendimentos de urgencias (em dezenas de milhares), {XL2}
e a serie do numero de internamentos (em dezenas de milhares), {XL3} e a serie do numero de
sessoes em hospital de dia (em dezenas de milhares), {XL4} e a serie da populacao residente (em
centenas de milhares), X5 e a serie do valor (em centenas) da taxa de variacao do PIB e {Nt} ∼
SARIMA(p, d, q)(P,D,Q)f .
Modelo Trimestral
Em primeiro lugar comecamos por agregar as observacoes mensais da despesa com medicamentos
nos hospitais do SNS na regiao de Lisboa de forma a obtermos uma serie de frequencia trimestral
(f = 4). Note-se que ao realizarmos este procedimento passamos considerar agora uma serie com 13
observacoes trimestrais obtidas a partir das 39 observacoes mensais, Figura 4.1.
1.05e+08
1.10e+08
1.15e+08
1.20e+08
2012 2013 2014 2015 2016
Ano
Des
pesa
(€)
Figura 4.1: Despesa trimestral com medicamentos nos hospitais do SNS da Area Metropolitana deLisboa entre janeiro de 2012 e marco de 2015.
Seguindo o metodo de modelacao descrito na Seccao 2.7, em primeiro lugar analisamos a estaciona-
ridade das series temporais envolvidas. Comecamos por analisar esta propriedade na serie referente
ao perıodo de treino da despesa, para tal recorremos ao teste de Kwiatkowski–Phillips–Schmidt–Shin
42
(KPSS), Kwiatkowski et al. (1992), que testa a hipotese nula de que uma serie e estacionaria na
tendencia. Uma vez que o valor-p do teste para esta serie e 0.03, rejeitamos a hipotese nula de que a
serie temporal e estacionaria para a tendencia. Assim, diferenciamos a serie da despesa e as restantes
series explicativas. De seguida voltamos a realizar o teste para todas as series temporais diferenciadas
e verificamos que todas obtem valor-p superior a 0.05 pelo que nao deve ser rejeitada a hipotese nula
a um nıvel de significancia de 5%.
Assim, podemos passar ao passo seguinte do processo de identificacao de modelo e fixar que os
resıduos da regressao {Nt} sao uma serie ARIMA(2, 1, 0) de forma a podermos estimar os coeficien-
tes β0, ..., β5 da regressao linear. Uma vez obtidos β0, ..., β5, queremos verificar o seu ajuste aos dados,
para tal, vamos analisar os resıduos do modelo {εt} recorrerendo ao teste de Ljung-Box. Uma vez que
obtemos valor-p igual a 0.49, nao rejeitamos a hipotese nula, isto e nao identificamos ainda existirem
dependencias significativas e consideramos que o modelo, a que damos o nome de Lisboa.T1, e bem
ajustado. Caso existissem ainda dependencias nos dados, deverıamos seguir a metodologia descrita
na subseccao 2.4 de analise das funcoes FAC e FACP amostrais de forma a identificar ordens que
conduzam a um modelo que melhor se ajuste aos dados.
O valor de AICc do modelo Lisboa.T1 e 270.89 e o EPAM para o perıodo de treino e 0.82%. Dada a na-
tureza deste problema e necessario tambem medir a qualidade das previsoes realizadas pelo modelo,
assim utilizamos o modelo obtido para prever o valor da despesa nos quatro trimestres do perıodo de
teste. Na Figura 4.2 esta representada o cronograma da serie prevista e os respetivos intervalos de
previsao a 80% e 95%. O EPAM e o EPA das previsoes para o perıodo de teste sao 3.39%, e como
podemos verificar pela observacao da Figura 4.2, a qualidade da previsao fica aquem do pretendido.
Assim, regressamos ao processo de modelacao escolhendo um modelo ARIMA diferente para {Nt} de
forma a encontrarmos um modelo mais adequado.
Figura 4.2: Cronograma da previsao despesa tri-mestral (e) realizada pelo modelo Lisboa.T1 comintervalo de previsao a 80% e 95%.
Figura 4.3: Cronograma da previsao despesa tri-mestral (e) realizada pelo modelo Lisboa.T2 comintervalo de previsao a 80% e 95%.
43
Apos alguma experimentacao identificou-se que o melhor modelo para descrever e prever a despesa
trimestral em milhares de euros com medicamentos na regiao de Lisboa e o modelo ajustado Lisboa.T2,
descrito em seguida:
DTLisboa,t = 158.07XL1,t−4 − 202.85XL2,t−4 + 671.43XL3,t−4 − 0.65XL4,t−4 + 18.44X5,t−4 + Nt
tal que Nt ∼ SARIMA(0, 1, 0)(0, 0, 2)4 com Θ1 = −0.01 e Θ2 = −0.99.(4.5)
Embora este modelo tenha AICc igual a 282.59, superior ao do modelo Lisboa.T1, o EPAM e o EPA de
teste sao 1.06% e 0.32%, respetivamente, pelo que apresenta previsoes de maior qualidade. Ainda,
por indicacao do Infarmed, temos que no contexto do problema a subestimacao e mais indesejada que
a sobrestimacao, pelo que optamos pelo modelo Lisboa.T2
Modelo Mensal
Neste caso, optamos pela estrategia oposta para resolver o problema das diferentes frequencias das
series temporais utilizadas, assim para as series temporais de frequencia trimestral (variaveis explica-
tivas) vamos estimar observacoes mensais. Como o objetivo da inclusao das series temporais expli-
cativas e permitir uma melhor descricao e previsao da tendencia da serie da despesa, optou-se por
uma abordagem naive em que o valor de cada um dos tres meses de um trimestre e x/3, onde x e a
observacao do trimestre em questao. Assim, e possıvel utilizar a tendencia destas series a longo prazo
para melhor prever a despesa. A grande vantagem desta abordagem e que nos permite utilizar as 51
observacoes mensais da despesa como 51 instantes distintos no conjunto de treino e assim recorrer a
mais informacao para construir o modelo.
O processo de modelacao e igual ao que utilizamos para o caso trimestral, no entanto vamos descrever
tambem os varios passos tomados. A semelhanca da serie da despesa trimestral, no teste KPSS rejei-
tamos a hipotese da serie ser estacionaria (valor-p< 0.01 ) pelo que foi necessario aplicar diferenciacao
a todas as series utilizadas. De seguida, fixamos {Nt} ∼ ARIMA(2, 1, 0) e estimamos os coeficientes
β1, ..., β5 da regressao linear obtendo o modelo Lisboa.M1.
Mais uma vez, testamos o ajuste do modelo aos dados atraves do teste de Ljung-Box, neste caso o
valor-p e 6.25×10−4 pelo que rejeitamos a hıpotese de que os resıduos do modelo {εt} sao ruıdo branco.
Assim, observamos nas Figuras 4.4 e 4.5 as funcoes FAC e FACP amostrais de {εt}, respetivamente.
Uma vez que a observacao da funcao FAC amostral indica dependencias significativas a lags periodicos,
vamos fixar {Nt} ∼ SARIMA(2, 1, 0)(0, 0, 1) e voltar a estimar os coeficientes. Uma vez estimados os
coeficientes testamos o ajuste do modelo aos dados com o teste de Ljung-Box, desta vez temos valor-p
igual a 0.236 pelo que nao rejeitamos a hipotese de {εt} ser ruıdo branco.
44
−0.25
0.00
0.25
12 246 18
Lag
FAC
Figura 4.4: FAC amostral dos resıduos {εt} domodelo Lisboa.M1.
−0.2
0.0
0.2
12 246 18
Lag
FAC
P
Figura 4.5: FACP amostral dos resıduos {εt} domodelo Lisboa.M1.
O AICc deste modelo a que chamamos Lisboa.M2, e 677.22 e o EPAM para o perıodo de treino e
1.92%. Vamos agora analisar a qualidade das previsoes realizadas por este modelo para os 12 me-
ses do perıodo de teste: o EPAM de teste e 2.98% e o EPAM de teste para as previsoes agregadas
trimestralmente e 1.85%, na Figura 4.6 estao representadas a serie da despesa registada e a serie da
despesa prevista pelo modelo.
Figura 4.6: Cronograma da previsao despesa mensal (e) realizada pelo modelo Lisboa.M2 com inter-valo de previsao a 80% e 95%.
Foram ainda experimentadas outras combinacoes de ordens para {Nt} ∼ SARIMA(p, 1, q)(P, 0, Q), de
forma a tentar encontrar o melhor modelo possıvel para descrever e prever a despesa com medicamen-
tos nos hospitais do SNS na regiao de Lisboa. No entanto, o modelo que obteve melhores resultados
nestas condicoes foi o modelo estimado Lisboa.M2, descrito em seguida:
45
DMLisboa,t = 229.04XL1,t−12 − 916.63XL2,t−12 + 1492.28XL3,t−12 − 0.98XL4,t−12 + 25.82X5,t−12 + Nt
tal que Nt ∼ SARIMA(2, 1, 0)(0, 0, 1)12 com φ1 = −1.11 , φ2 = −0.63 e Θ1 = 1.00.
(4.6)
Embora o EPAM das previsoes deste modelo seja superior ao das realizadas pelo modelo ajustado
Lisboa.T2, e importante notar que este modelo alem de acompanhar a tendencia positiva, consegue
tambem reproduzir o comportamento sazonal registado. Os valores das varias medidas de erro para
os intervalos de treino e teste dos modelos mensal e trimestral selecionados podem ser consultados na
Tabela B.1.
Apesar de para a construcao deste modelo de frequencia mensal termos utilizado estimativas mensais
das series explicativas em vez de valores observados, notamos que o modelo consegue obter um ajuste
bastante satisfatorio aos dados da despesa. Ainda, do ponto de vista das necessidades do Infarmed, a
possibilidade de realizarmos previsoes mensais adequadas e uma mais-valia importante.
4.2.2 Norte
De seguida apresentamos os modelos trimestrais e mensais selecionados para a regiao Norte apos a
aplicacao da metodologia descrita na Subseccao 2.4 e exemplificada na Subseccao 4.2.1.
Modelo Trimestral
O modelo ajustado Norte.T, formula (4.7), e o melhor modelo trimestral encontrado para descrever e
prever a despesa em milhares de euros com medicamentos nos hospitais do SNS da regiao Norte,
DTNorte,t = 144.35XL1,t−4 − 202.03XL2,t−4 + 1665.17XL3,t−12 − 0.93XL4,t−4 + 9.51X5,t−4 + Nt
tal que Nt ∼ SARIMA(0, 0, 1)(1, 1, 0)4 com θ1 = −1.00 e Φ1 = 0.45(4.7)
O valor-p do teste de Ljung-Box aplicado a este modelo e 0.61, pelo que o modelo e bem ajustado aos
dados. O valor de EPAM para a regiao de treino e 0.86%.
46
Figura 4.7: Cronograma da previsao da despesa trimestral (e) realizada pelo modelo Norte.T comintervalo de previsao a 80% e 95%.
Uma analise da Figura 4.7 permite-nos concluir que o modelo consegue prever com bastante precisao
nao so a tendencia crescente da despesa como tambem as variacoes sazonais verificadas no perıodo
de teste. Assim, as previsoes sao de bastante boa qualidade, com EPM de apenas 0.2% e EPAM e
EPAMediado de 1.37% e 1.16%, respetivamente.
Modelo Mensal
Relativamente aos modelos de frequencia mensal para a regiao Norte, foi selecionado o modelo ajus-
tado Norte.M, descrito em seguida.
DMNorte,t = 178.28XL1,t−12 − 147.18XL2,t−12 + 1168.19XL3,t−12 − 0.61XL4,t−12 + 10.89X5,t−12 + Nt
tal que Nt ∼ SARIMA(2, 0, 0)(0, 1, 0)12 com φ1 = −0.57 e φ2 = −0.32.
(4.8)
O valor de AICc e 479.27 e o valor-p do teste de Ljung-Box e 0.79 pelo que o modelo e bem ajustado aos
dados. Relativamente as previsoes, como podemos verificar na Figura 4.8, estas conseguem descrever
corretamente a tendencia crescente e o comportamento sazonal mensal da serie. Embora o EPAM de
teste seja 2.87%, o EPAMediano e 1.49%, apenas ligeiramente superior ao obtido no modelo trimestral.
Os valores das varias medidas de erro para os intervalos de treino e teste dos modelos mensal e
trimestral selecionados podem ser consultados na Tabela B.2.
47
Figura 4.8: Cronograma da previsao da despesa mensal (e) realizada pelo modelo Norte.M com inter-valo de previsao a 80% e 95%.
4.2.3 Centro
Os modelos trimestrais e mensais selecionados para a regiao Centro apos a aplicacao da metodologia
anteriormente descrita sao agora apresentados.
Modelo Trimestral
O modelo estimado Centro.T (ver (4.9)) descreve a despesa trimestral, em milhares de euros, nos
hospitais do SNS da regiao centro.
DTCentro,t = 83.79XL1,t−4 − 168.19XL2,t−4 + 7.71X5,t−4 + Nt
tal que Nt ∼ SARIMA(2, 0, 0)(1, 1, 0)4 com φ1 = −0.53 , φ1 = −0.64 e Φ1 = −0.31(4.9)
Este modelo tem AICc igual a 267.06 e e bem ajustado aos dados uma vez que o valor-p do teste
de Ljung-Box e 0.98. Embora o EPAM na regiao de treino seja consideravelmente baixo, 0.72%, a
qualidade das previsoes realizadas por este modelo sao claramente fracas. Como podemos observar
na Figura 4.9, o modelo nao e capaz de prever na totalidade a brusca tendencia crescente registada na
primeira metade do perıodo de teste, o que condiciona a qualidade da previsao. Note-se, em particular,
que valor observado para o primeiro instante previsto esta fora dos intervalos de previsao do modelo.
Esta previsao tem EPAM e EPAMediano de 5.42% e 4.55%, respetivamente.
Embora a presenca das variaveis explicativas tenha ajudado a prever a tendencia crescente registada,
48
Figura 4.9: Cronograma da previsao da despesa trimestral (e) realizada pelo modelo Centro.T comintervalo de previsao a 80% e 95%.
nao foi suficiente para conseguir estimar o acentuado crescimento na totalidade. No entanto, e impor-
tante notar que esta tendencia e bastante acentuada e contrasta com o comportamento anteriormente
registado da serie, o que torna este caso particularmente difıcil de prever com o limitado conjunto de
treino disponıvel.
Modelo Mensal
O modelo ajustado Centro.M que descreve a despesa mensal na regiao Centro e dado por,
DMCentro,t = 84.70XL1,t−12 − 206.36XL2,t−12 − 59.34XL3,t−12 + 8.11X5,t−12 + Nt
tal que Nt ∼ SARIMA(2, 0, 1)(0, 1, 0)12 com φ1 = 0.07 , φ2 = −0.26 e θ1 = −1.00(4.10)
O AICc deste modelo e 437 e o EPAM na regiao de treino e 1.87%, o que indica que, a partida,
este modelo seria menos adequado para descrever os dados do que o modelo Centro.T. No entanto,
o principal objetivo deste trabalho centra-se na previsao da despesa e como podemos observar na
Figura 4.10, o modelo Centro.M apesar de tambem ter dificuldade em estimar corretamente a tendencia,
consegue reproduzir o comportamento sazonal. O EPAM e EPAMediano da previsao mensal no perıodo
de teste sao 5.50% e 4.63%, respetivamente.
A regiao do Centro foi particularmente difıcil de modelar, embora ambos os modelos tenham um bom
ajuste aos dados de treino, nao foi possıvel alcancar boas previsoes. Uma possıvel justificacao para
este facto e, alem do ja referido acentuado crescimento da despesa, tambem uma menor capacidade
dos indicadores escolhidos explicarem a despesa nesta regiao em particular.
49
Figura 4.10: Cronograma da previsao da despesa mensal (e) realizada pelo modelo Centro.M comintervalo de previsao a 80% e 95%.
Os valores das varias medidas de erro para os intervalos de treino e teste dos modelos mensal e
trimestral selecionados podem ser consultados na Tabela B.3.
4.2.4 Alentejo
De seguida, sao apresentados os resultados do processo e modelacao e previsao da despesa com
medicamentos na regiao do Alentejo.
Modelo Trimestral
O modelo estimado Alentejo.T, definido em (4.11), e o melhor modelo trimestral encontrado para des-
crever e prever a despesa em milhares de euros com medicamentos nos hospitais do SNS do Alentejo.
DTAlentejo,t = −16.27XL1,t−4 + 260.89XL2,t−4 − 70.35XL3,t−4 − 0.18XL4,t−4 + 1.04X5,t−4 + Nt
tal que Nt ∼ SARIMA(0, 0, 1)(0, 1, 1)4 com θ1 = −1.00 com Θ1 = 0.16(4.11)
O valor-p do teste de Ljung-Box aplicado a este modelo e 0.41, pelo que o modelo e bem ajustado aos
dados. O valor de EPAM para a regiao de treino e de apenas 0.53%.
Uma analise da Figura 4.11 permite-nos concluir que o modelo subestima os dois primeiros trimestre
previstos e sobrestima os ultimos dois, pelo que o EPM de teste e de apenas -0.47% apesar de o EPAM
e o EPAMediano serem de 3.63% e 3.43%, respetivamente. Embora as previsoes estejam dentro dos
50
intervalos de previsao, o modelo nao conseguiu prever corretamente nem a variacao sazonal da des-
pesa no perıodo de teste, nem a tendencia.
Figura 4.11: Cronograma da previsao da despesa trimestral (e) realizada pelo modelo Alentejo.T comintervalo de previsao a 80% e 95%.
Modelo Mensal
O modelo ajustado Alentejo.M que descreve a despesa mensal com medicamentos na regiao do Alen-
tejo e dado pela formula (4.12).
DMAlentejo,t = 0.94XL1,t−12 + 480.91XL2,t−12 − 122.71XL3,t−12 − 0.28XL4,t−12 + 0.99X5,t−12 + Nt
tal que Nt ∼ SARIMA(2, 0, 1)(0, 1, 1)12 com φ1 = −0.22 , φ2 = −0.39 , θ1 = −1.00 e Θ1 = −0.29
(4.12)
O valor de AICc e 348.76 e o valor-p do teste de Ljung-Box e 0.12 pelo que o modelo e ajustado aos
dados. Relativamente as previsoes realizadas, apesar de ate junho de 2015 estas nao acompanharem
a sazonalidade da serie, a partir de julho seguem corretamente o comportamento registado. Note-
se que apesar das mas previsoes para os primeiros valores do intervalo de teste, no inıcio de 2016
os valores previstos estao muito proximos dos registados. O EPAM de teste e 6.18%, no entanto o
EPAMediano e consideravelmente mais baixo, 4.62%, e o EPM e de apenas -0.89%.
51
Figura 4.12: Cronograma da previsao da despesa mensal (e) realizada pelo modelo Alentejo.M comintervalo de previsao a 80% e 95%.
Os valores das varias medidas de erro para os intervalos de treino e teste dos modelos mensal e
trimestral selecionados podem ser consultados na Tabela B.4.
4.2.5 Algarve
Os modelos trimestrais e mensais selecionados para a regiao algarvia apos a aplicacao da metodologia
anteriormente descrita sao agora apresentados.
Modelo Trimestral
O modelo estimado Algarve.T, dado por (4.13), descreve a despesa trimestral em milhares de euros
nos hospitais do SNS da regiao algarvia.
DTAlgarve,t = 102.28XL1,t−4 − 95.81XL2,t−4 + 1.47XL4,t−4 + 0.16X5,t−4 + Nt
tal que Nt ∼ SARIMA(0, 1, 0)(0, 0, 1)4 com Θ1 = −1.00(4.13)
O AICc deste modelo e 199.71, o EPAM na regiao de treino e 1.97% e o modelo e bem ajustado aos
dados uma vez que o valor-p do teste de Ljung-Box e 0.59.
52
Figura 4.13: Cronograma da previsao da despesa trimestral (e) realizada pelo modelo Algarve.T comintervalo de previsao a 80% e 95%.
Como podemos observar na Figura 4.13 e verificar pelo valor de 2.82% do EPM, o modelo subestima
a despesa no intervalo de teste. No entanto, note-se a previsao do ultimo instante registado esta
consideravelmente proxima do valor real. O EPAM e EPAMediano das previsoes sao 3.10% e 2.39%,
respetivamente.
Modelo Mensal
O modelo ajustado Algarve.M que descreve a despesa mensal na regiao algarvia e dado pela formula
(4.14).
DMAlgarve,t = 135.01XL1,t−12 − 3069.83XL2,t−12 + 1.45XL4,t−12 + 1.29X5,t−12 + Nt
tal que Nt ∼ SARIMA(1, 0, 1)(0, 1, 0)12 com φ1 = 0.53 e θ1 = −1.00(4.14)
O AICc deste modelo e 398.05 valor-p do teste de Ljung-Box e 0.81 pelo que o modelo e bem ajustado
aos dados. Ao analisarmos a Figura 4.14 notamos que este modelo, a semelhanca de Algarve.T,
subestima a despesa no inicio do intervalo de teste. No entanto, a partir de julho de 2015 as previsoes
sao significativamente mais adequadas. Note-se ainda que este modelo mensal e capaz de prever
corretamente todo o comportamento sazonal registado, apesar de ter EPAM e o EPAMediano de teste
de 5.35% e 4.91% respetivamente.
Os valores das varias medidas de erro para os intervalos de treino e teste dos modelos mensal e
trimestral selecionados podem ser consultados na Tabela B.5.
53
Figura 4.14: Cronograma da previsao da despesa mensal (e) realizada pelo modelo Algarve.M comintervalo de previsao a 80% e 95%.
4.3 Portugal
Uma vez desenvolvidos os modelos e previsoes para as cinco regioes NUTS II em estudo, podemos
agora construir um modelo para descrever e prever a despesa com medicamentos nos hospitais de todo
o SNS. Nesta seccao vamos apresentar e analisar as vantagens e desvantagens dos dois modelos
finais desenvolvidos: Portugal.T, o modelo trimestral dado por (4.15); Portugal.M, o modelo mensal
dado por (4.16).
DTPortugal,t = DT
Norte,t + DTCentro,t + DT
Lisboa,t + DTAlentejo,t + DT
Algarve,t. (4.15)
Ambos os modelos conseguem realizar previsoes bastante satisfatorias para o intervalo de teste. Na
Figura 4.15 esta representada a previsao realizada pelo modelo trimestral Portugal.T e como podemos
verificar pela analise da figura, os valores previstos estao bastante proximos dos registados, espe-
cialmente as previsoes para o segundo e o terceiro trimestres do intervalo de teste. O EPAM e o
EPAMediano de teste sao 1.36% e 1.32%, respetivamente, o que confirma a qualidade das previsoes.
DMPortugal,t = DM
Norte,t + DMCentro,t + DM
Lisboa,t + DMAlentejo,t + DM
Algarve,t. (4.16)
Por outro lado, na Figura 4.16 estao representadas as previsoes realizadas pelo modelo mensal Por-
tugal.M. A analise da figura permite mais uma vez concluir que os modelos mensais sao capazes de
54
Figura 4.15: Cronograma da previsao da despesa realizada pelo modelo Portugal.T com intervalo deprevisao a 80% e 95%.
prever com bastante precisao o comportamento sazonal registado. A tendencia crescente tambem foi
corretamente prevista embora exista uma ligeira subestimacao da despesa ao longo de todo o intervalo
de teste, isto e refletido pelo EPM de 1.98%. O EPAM e o EPAMediado sao 2.67% e 2.01%, repetiva-
mente. Se agregarmos trimestralmente estas previsoes mensais e calcularmos estas medidas de erro,
obtemos um EPAM de 2.04%.
(a) (b)
Figura 4.16: Cronograma da despesa e previsao realizada pelo modelo Portugal.M entre janeiro de2012 e marco de 2016 (a), e entre janeiro de 2015 e marco de 2016 (b) com intervalo de previsao a80% e 95%.
4.3.1 Discussao de resultados
O grande objetivo deste trabalho e desenvolver um modelo capaz de modelar e prever a despesa
com medicamentos nos hospitais do SNS. Devido as competencias do Infarmed e fundamental que
55
se consiga realizar uma estimativa anual para esta despesa, uma vez que esta e necessaria para a
elaboracao de orcamentos mais precisos e uma consequente melhor alocacao de recursos. Assim,
analisamos se os modelos que desenvolvemos sao adequados para responder a esta necessidade.
Na Figura 4.17 esta representada a despesa anual registada entre abril de um ano e marco do ano
seguinte desde 2010 a 2015, e ainda as previsoes obtidas pelos modelos Portugal.M e Portugal.T para
a despesa total entre abril de 2015 e marco de 2016.
2010 2011 2012 2013 2014 2015
9.50
e+08
1.00
e+09
1.05
e+09
1.10
e+09
Des
pesa
Tot
al A
nual
(€)
T
M
Figura 4.17: Despesa anual registada entre 2010 e 2015, previsoes anuais realizadas pelos modelosPortugal.M e Portugal.T e respetivos intervalos de previsao.
Ambos os modelos subestimam o valor registado, o trimestral por 1.36% e o modelo mensal por 2.04%
da despesa anual observada. Assim, concluımos que ambos os modelos foram capazes de realizar
uma boa previsao de despesa anual e de antever em grande parte o acentuado crescimento registado.
Em ambos os casos o valor da despesa total observada esta dentro do intervalo de previsao a 85%.
Mais uma vez, confirmamos que o modelo trimestral obtem melhores e mais precisos resultados: alem
da previsao media estar mais proxima do valor observado, temos tambem intervalos de previsao mais
estreitos.
Desta forma, confirmamos a qualidade de ambos os modelos. Uma vez que o modelo trimestral obtem
previsoes mais precisas, este e indicado para a elaboracao de previsoes a longo prazo. No entanto com
o modelo mensal Portugal.M conseguimos obter previsoes com granularidade mensal, sendo assim
uma boa ferramenta para uma visao mais detalhada da despesa e do seu respetivo comportamento
sazonal ao longo do ano.
A Tabela 4.2 apresenta um sumario das medidas de erro calculadas e a percentagem de valores ob-
servados fora dos intervalos de previsao para os modelos desenvolvidos para as diferentes regioes
NUTS II e para Portugal. Como podemos analisar, as regioes Norte e Area Metropolitana de Lisboa fo-
ram as que obtiveram melhores previsoes, em termos dos indicadores em EPM, EPAM e EPAMediano,
enquanto que os modelos para as restantes regioes obtiveram resultados menos satisfatorios.
56
Tabela 4.2: Sumario das medidas de erro calculadas e percentagem de valores observados fora dosintervalos de previsao para os varios modelos selecionados. A coluna M representa os modelos defrequencia mensal, Magr os modelos resultantes de agregar trimestralmente o respetivo modelo M, e acoluna T representa os modelos trimestrais.
EPM EPAM EPAMediano Fora dos Limites (%)
M Magr T M Magr T M Magr T M Magr T
Algarve 4.21 4.27 2.81 5.34 5.15 3.10 4.91 4.37 2.40 0.00 0.00 0.00Alentejo -0.89 -0.63 -0.47 6.18 4.28 3.64 4.62 4.06 3.43 0.08 0.00 0.00
Lisboa 1.70 1.79 0.32 2.98 1.85 1.06 1.91 1.84 0.81 0.08 0.00 0.00Centro 5.50 5.53 5.43 5.50 5.53 5.43 4.63 4.63 4.55 0.25 0.25 0.25Norte -0.04 0.04 0.21 2.86 1.85 1.37 1.50 1.85 1.17 0.00 0.00 0.00
Portugal 1.98 2.04 1.36 2.66 2.04 1.36 2.01 2.03 1.33 0.00 0.00 0.00
No Capıtulo 3 analisamos a distribuicao da despesa com medicamentos pelas varias regioes e con-
cluımos que as regioes do Norte e da Area Metropolitana de Lisboa representam quase 75% da des-
pesa total. Assim, uma vez que o processo de modelacao e previsao destas duas influentes regioes foi
bastante bem sucedido, conseguimos obter modelos para Portugal que sao bem ajustados e capazes
de realizar previsoes adequadas.
A superioridade dos modelos para as regioes onde a despesa tem maior dimensao, comparativamente
com as restantes, e notoria. Uma possıvel justificacao para este fenomeno e que as regioes Algarve,
Alentejo e Centro, devido a sua menor dimensao, sao mais sensıveis as alteracoes da situacao macroe-
conomica e ao impacto de outros possıveis fatores externos a analise conduzida. Assim, consideramos
que, para realizar uma modelacao mais correta destas regioes, sera necessario realizar um estudo de-
dicado a determinar os outros motores da despesa que devem ser considerados e nao foram utilizados
nesta analise.
A dimensao intervalo de treino utilizado foi um fator que condicionou negativamente a qualidade dos
modelos desenvolvidos. Uma vez que era necessario realizar uma previsao anual definimos o perıodo
entre janeiro de 2012 e marco de 2015 para treinar os modelos, e o perıodo de abril de 2015 a marco
de 2016 para testar as respetivas qualidades preditivas. Isto significa que recorremos a apenas 13
observacoes no caso trimestral e 39 no caso mensal (76.5% da das observacoes) para treinar cada
um dos modelos regionais. O fim do perıodo de treino em marco de 2015 implica que os modelos nao
aprendem a acentuada tendencia positiva que comeca a existir, pelo que foi desafiante para os modelos
estimar este fenomeno.
Apesar dos resultados positivos obtidos pelo modelo, decidimos verificar qual o impacto de aumentar a
dimensao do intervalo de treino na qualidade das previsoes. Assim, voltamos a reproduzir a metodo-
logia de modelacao e previsao utilizando agora o intervalo de treino de janeiro de 2012 a setembro de
2015 e realizando previsoes sobre o perıodo de outubro de 2015 a marco de 2016, o que representa um
aumento de 15% da dimensao do conjunto de treino. As Figuras 4.18 e 4.19 apresentam os cronogra-
mas das previsoes realizadas pelos dois novos modelos Portugal.T(2) e Portugal.M(2), respetivamente.
57
Figura 4.18: Cronograma da previsao da despesaem Portugal realizada pelo modelo Portugal.T(2)com intervalo de previsao a 80% e 95%.
Figura 4.19: Cronograma da previsao da despesaem Portugal realizada pelo modelo Portugal.M(2)com intervalo de previsao a 80% e 95%.
De acordo com o esperado, existe uma significativo melhoramento da qualidade das previsoes, desta
vez obtemos um EPAM de apenas 0.83% e o EPM e de 0.81%, no caso trimestral. No caso mensal,
temos EPAM e EPM de 0.99% e 0.95%, respetivamente. Nao so as previsoes melhoraram significati-
vamente como o modelo mensal obteve erros mais proximos do trimestral.
Desta forma, acreditamos que apesar de termos conseguido obter resultados bastante satisfatorios no
contexto do trabalho desenvolvido neste capıtulo, estamos confiantes que no futuro, com a possibilidade
de usar cada vez mais dados para atualizar o modelo, seja possıvel realizar previsoes cada vez mais
proximas da realidade.
Em suma, os modelos desenvolvidos conseguem descrever adequadamente a despesa com medi-
camentos nos hospitais publicos portugueses e tambem realizar boas previsoes sobre a despesa fu-
tura. Este modelo vem substituir a abordagem naive que era utilizada ate agora pelo Infarmed para a
realizacao de previsoes utilizadas na elaboracao de orcamentos, permitindo assim realizar uma mais
adequada gestao de recursos.
Todo o trabalho de desenvolvimento e analise dos modelos foi realizado utilizando a linguagem (R
Development Core Team, 2016), tendo sido utilizados os pacotes forecast (Hyndman, 2016, Hyndman
and Khandakar, 2008), tseries (Trapletti and Hornik, 2016) e astsa (Stoffer, 2016).
No entanto, uma vez que o grande objetivo deste trabalho era permitir ao Infarmed realizar previsoes
sobre a despesa com medicamentos que pudessem ser utilizadas no decorrer das suas funcoes, foi
ainda criada uma aplicacao em R Shiny (Chang et al., 2016) e dygraphs (Vanderkam et al., 2016) que
permite ao utilizador realizar mais facilmente estas tarefas atraves de uma interacao mais intuitiva com
o modelo e com os dados. No proximo Capıtulo 5 iremos descrever a aplicacao desenvolvida e as suas
funcionalidades.
58
Capıtulo 5
Desenvolvimento de Aplicacao
5.1 Introducao
Neste capıtulo e descrita a aplicacao desenvolvida em R Shiny (Chang et al., 2016) para permitir uma
facil visualizacao e exploracao dos dados da despesa registada, e tambem a realizacao de previsoes
da despesa futura com medicamentos em hospitais publicos em Portugal e em cada uma das regioes
NUTS II. Com esta aplicacao pretende-se facilitar a experiencia do utilizador (possivelmente nao expe-
riente com o software ) atraves de uma interface simples e intuitiva.
Nas seccoes que se seguem serao descritas as diversas funcionalidades implementadas. Em primeiro
lugar na Seccao 5.2 analisamos o Ecra de Visualizacao e por ultimo na Seccao 5.3 descrevemos o Ecra
de Previsao e as suas potencialidades .
5.2 Visualizacao
Uma das funcionalidades desta aplicacao e possibilitar ao utilizador explorar visualmente as series
da despesa registada em cada uma das regioes NUTS II e tambem para Portugal continental. Ao
apresentar os dados atraves de visualizacoes, a aplicacao permite ao utilizador extrair rapidamente
informacao que de outra forma exigiria uma analise mais demorada.
O objetivo do Ecra de Visualizacao desenvolvido (ver Figura 5.1), e possibilitar uma facil visualizacao
dos cronogramas das series temporais da despesa. A importancia da observacao do cronograma para
uma analise descritiva dos dados foi referida na Subseccao 2.1.1. O utilizador pode escolher na caixa
de filtro, area 1 da Figura 5.1, os parametros de definicao da serie temporal que pretende visualizar:
intervalo de tempo, regioes NUTS II (Portugal; Norte; Centro; Area Metropolitana de Lisboa; Alentejo;
Algarve) e ainda se pretende ou nao incluir os dados relativos a medicamentos para o tratamento da
59
Hepatite C. Uma vez acionado o botao Submeter surge na area 2 da Figura 5.1 o cronograma da
serie selecionada. Assim, o utilizador consegue interagir com os dados disponıveis de forma intuitiva,
conseguindo obter maxima informacao sem ter de ser experiente na linguagem .
De forma a permitir a longevidade da utilizacao desta aplicacao, e possıvel adicionar novos dados da
despesa registada atraves da caixa de carregamento de dados, identificada por 3 na Figura 5.1. Estes
dados sao carregados e utilizados na analise. Caso se pretenda, estes podem tambem ser guardados
para futuras utilizacoes da aplicacao.
3
214
Figura 5.1: Ecra de Visualizacao da aplicacao de despesa hospitalar.
5
1 2
4
3
6
Figura 5.2: Ecra de Previsao da aplicacao de despesa hospitalar.
60
5.3 Previsao
No Ecra de Previsao da aplicacao, o utilizador pode obter previsoes, calculadas recorrendo aos modelos
desenvolvidos no Capıtulo 4, sobre o comportamento futuro da serie da despesa total por regiao NUTS
II. Para obter uma previsao, o utilizador usa a caixa identificada por 1 na Figura 5.2 para selecionar o
horizonte da previsao e uma vez acionado o botao Prever os resultados surgem no ecra: na area 2 da
Figura 5.2 aparecem os cronogramas da serie original, da serie prevista pelo modelo e dos intervalos
de previsao a 80% e 95%; nas caixas de valores (area 3 da Figura 5.2) e apresentado o valor total da
despesa prevista para o intervalo de tempo selecionado e os respetivos intervalos de previsao a 95%.
Uma vez obtida uma previsao e possıvel filtra-la por regiao NUTS II e descarregar os valores previstos
para um ficheiro .csv (area 4 da Figura 5.2). De forma semelhante ao Ecra de Visualizacao, e tambem
possıvel carregar e guardar novos dados, desta vez relativos as variaveis explicativas, para tal apenas
e necessario carregar a informacao pretendida na caixa de introducao de dados, identificada por 5 na
Figura 5.2. A navegacao entre os dois ecras e realizada atraves do menu lateral esquerdo (area 6 da
Figura 5.2 e area 4 da Figura 5.1).
Dada a preferencia do Infarmed de poder observar a serie com maior granularidade e compreender
melhor o comportamento sazonal mensal da despesa, optamos por recorrer aos modelos de frequencia
mensal para as previsoes realizadas pela aplicacao.
Desta forma, e possıvel que um utilizador que nao conheca os detalhes dos modelos consiga facil-
mente realizar previsoes sobre a despesa futura e consequentemente explorar e exportar os resultados
obtidos.
61
62
Capıtulo 6
Conclusoes
Este estudo, proposto pelo Infarmed, surgiu da necessidade de compreender melhor a despesa com
medicamentos nos hospitais do SNS em Portugal continental, de forma a realizar previsoes sobre o
seu comportamento futuro. Estas previsoes permitem fundamentar e suportar decisoes relativas a
elaboracao de orcamentos e alocacao de recursos, contribuindo assim para uma maior eficiencia de
custo nas despesas do SNS. Desta forma, o principal objetivo deste estudo foi a modelacao e previsao
da despesa total com medicamentos nos hospitais publicos de Portugal continental.
A elaboracao deste trabalho iniciou-se com uma analise descritiva dos dados da despesa com farmacos
nos hospitais publicos de Portugal continental entre janeiro de 2010 e marco de 2016, onde foram iden-
tificadas duas situacoes que necessitaram de uma analise mais cuidada. Em primeiro lugar foi reco-
nhecido o impacto do investimento em tratamentos inovadores para o vırus da Hepatite C na despesa
em estudo. Consequentemente, a falta de meios adequados para estudar corretamente este caso e o
seu cariz temporario levou a que estes dados fossem retirados da analise (ver Subseccao 3.1.1).
Em segundo lugar, analisaram-se as consequencias dos acordos entre a Industria Farmaceutica e o
Ministerio da Saude, onde a industria farmaceutica assume um contributo financeiro na forma de notas
de credito aos hospitais publicos. Identificou-se que alguns hospitais refletiam os valores anuais destas
notas de credito apenas nos ultimos meses do ano resultado em valores irreais para a despesa nestes
meses. Assim, procedeu-se ao tratamento dos dados de forma a remover e imputar observacoes
pontuais irrealistas da despesa. Uma vez tratados os dados procedeu-se a analise detalhada da serie
resultante (ver Subseccao 3.1.2).
A analise desenvolvida permitiu concluir que seria necessario incluir variaveis explicativas que permitis-
sem modelar corretamente a tendencia da despesa, para tal inclui-se na analise as series da variacao
do PIB, da populacao e de indicadores de utilizacao de servicos de saude (numero de internamentos,
atendimentos de urgencia e consultas de hospital de dia). Os dados foram agrupados por regioes NUTS
II e procedeu-se a modelacao e previsao por agrupamento.
63
Tabela 6.1: Sumario das medidas de erro para os modelos finais mensal e e trimestral para Portugalcontinental.
EPM EPAM EPAMediano
Trimestral 1.36 1.36 1.33Mensal 1.98 2.66 2.01
De forma a podermos estabelecer a regressao linear entre cada uma das series da despesa com me-
dicamentos e as respetivas series das variaveis explicativas, e necessario que tenham todas a mesma
frequencia. No entanto, a serie das observacoes da despesa com farmacos tem frequencia mensal e
as series das variaveis explicativas tem todas frequencia trimestral. Foram utilizados duas estrategias
distintas para resolver este problema que conduziram a dois modelos distintos.
Por um lado optou-se por agregar trimestralmente a serie da despesa e desenvolver um modelo tri-
mestral. Por outro lado, realizaram-se estimativas mensais a partir das series trimestrais das variaveis
explicativas, que permitiu assim modelar a despesa mensal com medicamentos nos hospitais do SNS
em Portugal continental (ver Capıtulo 4).
Os modelos obtidos conseguiram previsoes de elevada qualidade no intervalo de teste, como podemos
comprovar pelas medidas de erro apresentadas na Tabela 6.1. Destacamos ainda que relativamente
ao objetivo de prever a despesa anual, as previsoes dos modelos mensal e trimestral ficaram a apenas
1.98% e 1.36%, respetivamente, do valor registado. Estes resultados sao bastante positivos e validam
a aplicabilidade dos modelos para realizar este tipo de previsoes.
Com o objetivo de facilitar a utilizacao futura do modelo desenvolvido, foi criada uma ferramenta de
visualizacao interativa que permite (i) manipular e visualizar os dados em estudo em todas as suas
vertentes e (ii) adicionar dados mais recentes da despesa e das varias variaveis explicativas e ainda
calcular novas previsoes. Assim, sera mais facil ao Infarmed o calculo de estimativas da despesa com
medicamentos nos hospitais do SNS, o que permite definir adequadamente o orcamento que deve ser
alocado para estes gastos. E importante realcar que novos dados conduzem a estimativas atualizadas
do parametros dos modelos propostos e respetivas previsoes, pelo que se espera que estas se irao
tornar cada vez mais precisas. No entanto o ajuste dos modelos atualizados deve ser monitorizado e
transformacoes no padrao das series exigem novas propostas de modelacao dos dados.
6.1 Conquistas
O trabalho desenvolvido conduziu a dois modelos que permitem descrever e prever de forma bastante
satisfatoria a despesa com medicamentos nos hospitais publicos portugueses e era este o principal
objetivo desta tese. O agrupamento dos hospitais por regiao NUTS II permitiu modelar cada um destes
agrupamentos em funcao de variaveis demograficas e de utilizacao dos servicos de saude de cada
64
regiao.
A aplicacao desenvolvida traz tambem grandes vantagens, uma vez que permite um analise mais
rapida, ajustavel e clara dos dados registados atraves de visualizacoes interativas. O processo de
realizacao de previsoes da despesa e facilitado atraves da interface simplificada, permitindo que utiliza-
dores sem experiencia na linguagem ou conhecimento detalhado sobre os modelos de regressao
linear com erros SARIMA possam utilizar a aplicacao e obter as respetivas previsoes. O acesso sim-
plificado e interativo da aplicacao desenvolvida permite assim ao Infarmed envolver-se nos aspetos
de interpretacao e exploracao dos resultados, sem ser necessario realizar o trabalho complexo de
modelacao estatıstica desenvolvido nem dominar o software estatıstico .
Assim, nos proximos anos o trabalho desenvolvido permitira contribuir para a construcao de um orcamento
fundamentado no historico da despesa hospitalar do SNS, permitido uma melhor alocacao de recursos
e consequente eficiencia de custo para as despesas do SNS.
6.2 Trabalho futuro
Com a contınua obtencao de novos dados da despesa com medicamentos nos hospitais publicos
e tambem dos diversos indicadores demograficos, macroeconomicos e de utilizacao de servicos de
saude que foram usados como variaveis explicativas sera possıvel e recomendavel realizar atualizacoes
periodicas aos modelos, repetindo o processo de modelacao apresentado e exemplificado neste traba-
lho. Desta forma sera possıvel ir continuamente melhorando a qualidade do ajuste do modelo e das
previsoes.
Futuramente, sera tambem interessante considerar uma modelacao da despesa com medicamentos
nos hospitais do SNS seguindo uma abordagem bottom-up, atraves de uma modelacao focada nos gru-
pos terapeuticos e ajustada para a introducao de novos medicamentos, validade de patentes e impacto
de genericos. Assim, complementando a metodologia desenvolvida por O’Neill et al. (2013) com uma
cuidada analise quantitativa das tendencias passadas, acreditamos que se podera obter um modelo ge-
ral mais robusto, onde cada modelo parcial e melhor ajustado a cada uma das areas terapeuticas. No
entanto, e de realcar que para o desenvolvimento deste trabalho sera necessario obter fontes para os
diversos dados explicativos de cada area terapeuticas e ainda pareceres e validacoes de especialistas
que permitam estimar o impacto de alteracoes ao mercado farmaceutico.
65
66
Bibliografia
G. Box and G. Jenkins. Time series analysis: Forecasting and control. San Francisco: Holden-Day, 2nd
edition, 1976.
G. Box, G. Jenkins, and G. Reinsel. Time series analysis: Forecasting and control. Prentice Hall, 3rd
edition, 1994.
P. Brockwell and R. Davis. Time Series: Theory and Methods. Springer, 2nd edition, 1991.
P. Brockwell and R. Davis. Introduction to Time Series and Forecasting. Springer, 2nd edition, 2010.
L. Calvet and A. Fisher. Multifractal Volatility: Theory, Forecasting, and Pricing. Academic Press, 1st
edition, 2008.
W. Chang, J. Cheng, J. Allaire, Y. Xie, and J. McPherson. shiny: Web Application Framework for R,
2016. URL https://CRAN.R-project.org/package=shiny. R package version 0.13.2.
R. Cleveland, W. Cleveland, J. McRae, and I.Terpenning. STL: A Seasonal-Trend Decomposition Pro-
cedure Based on Loess. Journal of Official Statistics, 6(1):3–73, 1990.
J. Durbin. Efficient estimation of parameters in moving-average models. Biometrica, 46:306–316, 1959.
J. Durbin. Estimation of parameters in time-series regression models. Journal of the Royal Statistical,
22:139–153, 1960.
C. Furtado. Medicamentos do Aparelho Cardiovascular: Uma analise dos padroes de utilizacao e
despesa em Portugal Continental entre 2000 e 2011. Technical report, Infarmed, Autoridade Nacional
do Medicamento e Produtos de Saude I.P., 2012.
R. Hyndman. Simple algorithm for online outlier detection of a generic time series. Cross Validated.
URL http://stats.stackexchange.com/a/1153. (version: 2016-05-01).
R. Hyndman. forecast: Forecasting functions for time series and linear models., 2016. URL http:
//github.com/robjhyndman/forecast. R package version 7.2.
R. Hyndman and G. Athanasopoulos. Forecasting: Principles and Practice. OTexts, 2003.
R. Hyndman and Y. Khandakar. Automatic time series forecasting: the forecast package for R. Journal
of Statistical Software, 26(3):1–22, 2008.
67
IMSHealth. The Role of Generic Medicines in Sustaining Healthcare Systems: A European Perspective.
Technical report, IMS Health, 2015.
Infarmed. Estatısica do Medicamento e Produtos de Saude. Technical report, Infarmed, Autoridade
Nacional do Medicamento e Produtos de Saude I.P., 2014.
Infarmed. Hepatite C - Monitorizacao dos Tratamentos. Technical report, Infarmed, Autoridade Nacional
do Medicamento e Produtos de Saude I.P., 2016.
S. Keehan, A. Sisko, C. Truffer, J. Poisal, G. Cuckler, A. Madison, J. Lozonitz, and S. Smith. National
health spending projections through 2020. Health Affairs, 8(30):1594–1605, 2011.
D. Kwiatkowski, P. C. Phillips, P. Schmidt, and Y. Shin. Testing the null hypothesis of stationarity against
the alternative of a unit root: How sure are we that economic time series have a unit root? Journal of
Econometrics, 54(1–3):159–178, 1992.
G. Ljung and G. Box. On a measure of lack of fit in time series models. Biometrika, 65(2):297–303,
1978.
P. O’Neill, J. Mestre-Ferrandiz, R. Puig-Peiro, and J. Sussex. Projecting Expenditure on Medices in the
NHS. PharmacoEconomics, 31:933, 2013.
A. Pacheco. Notas de Series Temporais. Instituto Superior Tecnico, 2000.
R Development Core Team. R: A Language and Environment for Statistical Computing. R Foundation
for Statistical Computing, Vienna, Austria, 2016. URL http://www.R-project.org.
T. S. Thompson, Foubister, and E. Mossialos. Financing Health Care in The European Union. Technical
report, European Observatory on Health Systems and Policies, 2009.
E. Slutsky. The summation of random causes as the source of cyclic processes. Econometrica, 5:
105–146, 1931.
D. Stoffer. astsa: Applied Statistical Time Series Analysis, 2016. URL https://CRAN.R-project.org/
package=astsa. R package version 1.5.
S. Thiebaut, T. Barnay, and B. Ventelou. Ageing, chronic conditions and the evolution of future drugs
expenditure. Applied Economics, 45(13):1663–1672, 2013.
A. Trapletti and K. Hornik. tseries: Time Series Analysis and Computational Finance, 2016. URL
http://CRAN.R-project.org/package=tseries. R package version 0.10-35.
D. Vanderkam, J. Allaire, J. Owen, D. Gromer, P. Shevtsov, and B. Thieurmel. dygraphs: Interface
to ’Dygraphs’ Interactive Time Series Charting Library, 2016. URL https://CRAN.R-project.org/
package=dygraphs. R package version 1.1.1-1.
D. Vivas-Consuelo, R. Uso-Talamantes, J. Trillo-Mata, M. Caballer-Tarazona, I. Barrachina-Martinez, and
L. Buigues-Pator. Predictability of pharmaceutical spending in primary health services using Clinical
Risk Groups. Health Policy, 116:188–195, 2014.
68
A. Walker. On the periodicity in series of related terms. Proceedings of the Royal Society of London, A
(131):518–532, 1931.
W. Wei. Time Series Analysis: Univariate and Multivariate Methods. Pearson, 2nd edition, 2005.
B. Wettermark, M. Persson, N. Wilking, M. Kalin, S. Korkmaz, P. Hjerndahl, B. Godman, M. Petzal, and
L. Gustafson. Forecasting drug utlization and expenditure in a metropolitan health region. BMC Health
Services Research, 10:128, 2010.
WHO. The Financial Crisis and Global Health. Technical report, World Health Organization, 2009.
H. Wold. A Study in the Analysis of Stationary Time Series. Almqrist Wiksell, 1954.
G. Yule. On the method of investigating periodicities in disturbed series, with special reference to Wolfer’s
sunspot numbers. Philosophical Transactions, A(226):267–298, 1927.
69
70
Apendice A
Estatısticas Descritivas
De seguida estao apresentadas as estatısticas sumarias para os agrupamentos por grupo ATC e por
regioes NUTS II da despesa total registada em Portugal entre janeiro de 2010 e marco de 2016.
Regiao NUTS II Min (×106) 1oQ (×106) Mediana (×106) Media (×106) 3oQ (×106) Max (×106)
Algarve 2.46 2.91 3.04 3.05 3.20 3.79
Alentejo 2.12 2.28 2.39 2.38 2.47 2.64
Area Metropolitanade Lisboa
32.42 35.81 37.97 37.44 39.09 41.63
Centro 14.07 15.07 15.64 15.69 16.36 17.47
Norte 20.91 23.72 24.72 24.72 25.69 30.06
Tabela A.1: Estatısticas sumarias das series temporais da despesa total com medicamentos nas regioesNUTS II.
71
Grupo
ATCD
escricaoM
ınimo(×
105)
1o
Quartil(×
105)
Mediana
(×105)
Media
(×105)
3o
Quartil(×
105)
Maxim
o(×
105)
AA
parelhodigestivo
em
etabolismo
28.0336.31
39.8938.83
41.7048.69
BS
anguee
orgaoshem
atopoieticos85.93
95.60101.60
103.80113.20
128.10
CA
parelhocardiovascular
15.7317.65
18.8718.94
20.0822.05
DM
edicamentos
dermatologicos
1.932.31
2.452.42
2.552.95
GA
parelhogenito-urinario
ehorm
onassexuais
3.094.08
4.984.79
5.406.25
HP
reparacoeshorm
onaissistem
icas15.27
17.0917.88
17.8718.73
20.04
JA
nti-infecciososgerais
parauso
sistemico
202.60223.90
244.40242.30
258.30286.20
LA
gentesantineoplasicos
eim
unomoduladores
274.70302.50
318.80319.20
332.80389.80
MS
istema
musculo-
esqueletico4.59
6.048.49
8.7211.53
13.24
NS
istema
nervoso-3.79
28.3931.86
33.5237.98
61.54
PP
rodutosantiparasitarios,
inseticidase
repelentes0.70
0.860.90
0.900.95
1.15
RA
parelhorespiratorio
6.287.46
8.178.20
8.8810.79
SO
rgaosdos
sentidos3.17
5.516.33
6.737.60
12.19
VV
arios13.42
15.9117.88
18.3120.07
27.24
TabelaA
.2:E
statısticassum
ariasdas
seriesda
despesados
gruposATC
principais
72
Apendice B
Medidas de Erro
De seguida sao aprentadas as tabelas sumarias das medidas de erro calculadas para os modelos men-
sal e trimestral selecionados para cada uma das regioes NUTS II.
Tabela B.1: Sumario das medidas de erro calcula-das para os modelos selecionados para a regiaodo Lisboa.
EPM EPAM EPAMediano
Treino Teste Treino Teste Treino Teste
Trimestral -0.26 0.32 1.10 1.06 1.02 0.81Mensal -0.41 1.70 1.92 2.98 1.61 1.91
Tabela B.2: Sumario das medidas de erro calcula-das para os modelos selecionados para a regiaodo Norte.
EPM EPAM EPAMediano
Treino Teste Treino Teste Treino Teste
Trimestral -0.08 0.21 0.85 1.37 0.81 1.17Mensal -0.16 -0.04 2.78 2.87 1.82 1.50
Tabela B.3: Sumario das medidas de erro calcula-das para os modelos selecionados para a regiaodo Centro.
EPM EPAM EPAMediano
Treino Teste Treino Teste Treino TesteTrimestral 0.11 5.42 0.73 5.43 0.44 4.55Mensal 0.13 5.50 1.87 5.50 1.79 4.63
Tabela B.4: Sumario das medidas de erro calcula-das para os modelos selecionados para a regiaodo Alentejo.
EPM EPAM EPAMediano
Treino Teste Treino Teste Treino TesteTrimestral -0.02 -0.47 0.53 3.64 0.28 3.43Mensal -0.04 -0.89 1.94 6.18 1.03 4.62
Tabela B.5: Sumario das medidas de erro calculadas para os modelos selecionados para a regiao doAlgarve.
EPM EPAM EPAMediano
Treino Teste Treino Teste Treino Teste
Trimestral -0.24 2.82 1.97 3.10 1.50 2.40Mensal 0.15 4.21 4.89 5.35 2.65 4.91
73
74
Top Related