medidasrep2

5
Modelos Lineares Mistos Fernando Lucambio Departamento de Estat´ ıstica Universidade Federal do Paran´ a Curitiba/PR, 81531–990, Brasil email: [email protected] Setembro de 2008 1 Introdu¸c˜ ao O modelo de regress˜ao linear normal, descrito anteriormente,´ e da forma y i = β 1 x 1i + β 2 x 2i + ... + β p x pi + i i N (02 ), onde 1 ,..., n s˜ao vari´aveis aleat´orias independentes e igualmente distribu´ ıdas. Desta forma podemos perceber que este modelo tˆ em um efeito aleat´ orio, o termo de erro i . Os parˆametros do modelo s˜ao os coeficientes da regress˜ao β 1 2 ,...,β p e a variancia do erro σ 2 . Usualmente, x 1i = 1 e ent˜ ao β 1 ´ e uma constante ou o intercepto do modelo. Paraefeitos de compara¸c˜ ao com os modelos lineares mistos a serem definidos escreveremos o modelo anterior de maneira matricial na seguinte forma y = Xβ + N n (02 I n ), onde y =(y 1 ,y 2 ,...,y n ) ´ e o vetor de respostas, X a matriz de regressoras do modelo, β = (β 1 2 ,...,β p ) o vetor de coefficientes da regress˜ao e =( 1 ,..., n ) t op o vetor de erro. Tamb´ em, N n representa a distribui¸c˜ao normal n -variada, 0 o representa um vetor n × 1 de zeros e I n a matriz identidade de ´ordem n. Os chamados modelos lineares mistos incluem um termo adicional de efeitos aleat´orios e s˜ao apropriados para representar agrupamentos e, portanto, dados dependentes. Situa¸c˜ oes nas quais estesmodeloss˜ao ´ uteis incluem dados coletados hierarquicamente ou quando as observa¸ c˜oess˜ao obtidas de indiv´ ıduos relacionados, como irm˜aos ou outros tipos de parentes, ou quando os dados s˜ao obtidos ao longo de curtos per´ ıodos de tempo no mesmo inv´ ıduo. No R existem diversas bibliotecas para ajustar estes modelos, em particular trabalharemos com a fun¸c˜ ao lme no pacote nlme. Estes modelos foram propostos por Laird & Ware (1982) e por esse motivo tamb´ em costumam-se chamar de modelos Laird-Ware. Atualmente maiores detalhes podem ser consultados nos livros Vernables & Ripley (1999), Pinheiro & Bates (2000) e Raudenbush & Bryk (2002). A estima¸c˜ ao destes modelos ´ e extremamente complexa e somente faremos um estudo geral. 1

description

Medidas Repetidas

Transcript of medidasrep2

Page 1: medidasrep2

Modelos Lineares Mistos

Fernando Lucambio

Departamento de EstatısticaUniversidade Federal do ParanaCuritiba/PR, 81531–990, Brasil

email: [email protected]

Setembro de 2008

1 Introducao

O modelo de regressao linear normal, descrito anteriormente, e da forma

yi = β1x1i + β2x2i + . . .+ βpxpi + εi

εi ∼ N(0, σ2),

onde ε1, . . . , εn sao variaveis aleatorias independentes e igualmente distribuıdas. Desta formapodemos perceber que este modelo tem um efeito aleatorio, o termo de erro εi. Os parametrosdo modelo sao os coeficientes da regressao β1, β2, . . . , βp e a variancia do erro σ2. Usualmente,x1i = 1 e entao β1 e uma constante ou o intercepto do modelo.

Para efeitos de comparacao com os modelos lineares mistos a serem definidos escreveremos omodelo anterior de maneira matricial na seguinte forma

y = Xβ + ε

ε ∼ Nn(0, σ2In),

onde y = (y1, y2, . . . , yn)> e o vetor de respostas, X a matriz de regressoras do modelo, β =(β1, β2, . . . , βp)

> o vetor de coefficientes da regressao e ε = (ε1, . . . , εn)top o vetor de erro.Tambem, Nn representa a distribuicao normal n-variada, 0 o representa um vetor n × 1 dezeros e In a matriz identidade de ordem n.

Os chamados modelos lineares mistos incluem um termo adicional de efeitos aleatorios e saoapropriados para representar agrupamentos e, portanto, dados dependentes. Situacoes nas quaisestes modelos sao uteis incluem dados coletados hierarquicamente ou quando as observacoes saoobtidas de indivıduos relacionados, como irmaos ou outros tipos de parentes, ou quando os dadossao obtidos ao longo de curtos perıodos de tempo no mesmo invıduo.

No R existem diversas bibliotecas para ajustar estes modelos, em particular trabalharemoscom a funcao lme no pacote nlme. Estes modelos foram propostos por Laird & Ware (1982)e por esse motivo tambem costumam-se chamar de modelos Laird-Ware. Atualmente maioresdetalhes podem ser consultados nos livros Vernables & Ripley (1999), Pinheiro & Bates (2000)e Raudenbush & Bryk (2002). A estimacao destes modelos e extremamente complexa e somentefaremos um estudo geral.

1

Page 2: medidasrep2

2 O modelo linear misto

O modelo geral e da forma

yij = β1x1ij + β2x2ij + . . .+ βpxpij

+ γ1z1ij + γ2z2ij + . . .+ γqzqij + εij

γik ∼ N(0, ψ2k), Cov{γk, γk′} = ψkk′

εij ∼ N(0, σ2λijj), Cov{εij, εij′} = σ2λijj′ ,

onde

• yij e a valor da variavel resposta na j-esima de ni onbservacoes no i-esimo de M agrupa-mentos

• β1, . . . , βp sao os coeficientes dos efeitos fixos, que sao identicos para todos os grupos

• x1ij, . . . , xpij sao os valores das regressoras dos efeitos fixos para a j-esima observacao nogrupo i, a primeira destas regressoras e usualmente a constante, x1ij = 1

• γ1, . . . , γq sao os coeficientes das componentes de efeitos aleatorios

• ψ2 e a variancia e ψkk′ a covariancia entre os efeitos aleatorios, assume-se que e constanteatraves dos grupos.

• εij e o erro para a j-esima observacao no i-esimo grupo. O termo de erro para o grupo i econsiderado com distribuicao normal multivariada.

• σ2λijj′ e a covariancia entre os erros no i-esimo grupo.

Alternativamente, mas equivalentemente, em forma matricial

yi =Xiβ + Ziγi + εi

γi ∼Nq(0,Ψ),

εi ∼Nn(0, σ2Λi)

onde

• yi e o vetor ni × 1 de reposta para as observacoes no i-esimo grupo

• Xi a matrix ni × p do modelo para os efeitos fixos das observacoes no i-esimo grupo

• β o vetor p× 1 de coeficientes de efeitos fixos

• Zi a matriz ni × q do modelo de efeitos aleatorios das observacoes no i-esimo grupo

• γi o vetor q × 1 de coeficientes de efeitos aleatorios para o grupo i

• εi o vetor ni × 1 de erros das observacoes no i-esimo grupo

• Ψ a matriz q × q das covariancias dos efeitos aleatorios

• σ2Λi a matriz ni × ni das covariancias dos erros para o grupo i

2

Page 3: medidasrep2

3 Um exemplo ilustrativo da aplicacao destes modelos a

dados longitudinais

Para ilustrar a utilizacao e interpretacao dos resultados obtidos com estes modelos utilizare-mos os dados coletados por Blackmoor e Davis acerca do historico de 138 garotas adolescenteshospitalizadas por desordens alimentares e um grupo de 93 controles.

> library(car) # somente para ler os dados> library(relimp) # somente para mostrar os dados> library(nlme)> data(Blackmoor) # para ler os dados na libraria (pacote) car> showData(Blackmoor) # para mostrar os dados

As variaveis sao:

• subject: um codigo de identificacao, ha diversas observacoes para cada indivıduo mascomo as garotas foram hospitalizadas em diferentes idades, o numero de observacoes e aidade na ultima observacao variam.

• age: idade em anos no momento da observacao, as observacoes foram coletadas retrospec-tivamente a intervalos de dois anos cada,comecando ao 8 anos.

• exercice: a quantidade de exercıcio no qual cada garota esta engajada, e uma estimativaem horas por semana

• group: um fator indicativo se o indivıduo pertence ao grupo controle o paciente

3.1 Examinando os dados

Faremos uma amostragem de 20 indivıduos para mostrar o comportamento no perıodo, seraoselecionadois 20 indivıduos do grupo controle e 20 de pacientes e mostraremos a resposta, aquantidade de exercıcio em relacao a idade para cada um.

> pat = sample(unique(subject[group==’patient’]),20)> Pat.20 = groupedData(exercise~age|subject,data=Blackmoor[is.element(subject,pat),])

> plot(Pat.20,main=’Pacientes’,xlab="Idade",ylab=’Exerc~Acios’,layout=c(5,4),aspect=1.0,+ position=c(0,0.5,1,1))

> con = sample(unique(subject[group==’control’]),20)> Con.20 = groupedData(exercise~age|subject,data=Blackmoor[is.element(subject,con),])> plot(Con.20,main=’Controle’,xlab="Idade",ylab=’Exerc~Acios’,layout=c(5,4),aspect=1.0,+ position=c(0,0.5,1,1))

O resultado pode ser apreciado na Figura 1. Parece nao existir um padrao forte de compor-tamento em cada indivıduo. No entanto, parece que em geral a quantidade de exercıcio emaiorno grupo de pacientes do que no grupo controle. Observe que o limite superior do ixo verticalno grupo de pacientes e maior do que 10 e no grupo de controle o limite e 8.

3

Page 4: medidasrep2

Pacientes

Idade

Exe

rcíc

ios

0

5

10

8 10 12 14 16

120 128

8 10 12 14 16

323 195

8 10 12 14 16

327

154 329 341 173

0

5

10

1490

5

10

155 106 300 305 330

129

8 10 12 14 16

199 142

8 10 12 14 16

133

0

5

10

111

Controle

Idade

Exe

rcíc

ios

0

2

4

6

8

8 10 12 14 16

218 262

8 10 12 14 16

201 202

8 10 12 14 16

286

246 273b 268 273a

0

2

4

6

8207a

0

2

4

6

8211 280b 229b 233 220

223

8 10 12 14 16

214 204

8 10 12 14 16

238

0

2

4

6

8212

Figura 1: Comportamento da quantidade de exercıcio em relacao a idade para 20 indivıduosselecionados aleatoriamente do grupo de pacientes e 20 indivıduos selecionados tambem aleato-riamente do grupo controle.

3.2 Ajustando o modelo

Os dados originais reportam erro ao tentar ajustar o modelo, por isso transformamos a respostaa escala logaritmica de base 2 para manter a interpretabilidade e dado que alguns resultados daquantidade de exercıcio sao.zero acrescentamos 4 minutos para poder fazer o calculo.

> ajuste1 = lme(I(log(exercise+4/60,2))~I(age-8)*group, random=~I(age-8)|subject,data=Blackmoor)> summary(ajuste1)

Linear mixed-effects model fit by REMLData: Blackmoor

AIC BIC logLik3722.243 3761.018 -1853.121

Random effects:Formula: ~I(age - 8) | subjectStructure: General positive-definite, Log-Cholesky parametrization

StdDev Corr(Intercept) 1.5054864 (Intr)I(age - 8) 0.1703134 -0.295Residual 1.3132333

Fixed effects: I(log(exercise + 4/60, 2)) ~ I(age - 8) * groupValue Std.Error DF t-value p-value

(Intercept) -0.3339309 0.19093136 712 -1.748958 0.0807I(age - 8) 0.0630800 0.03285670 712 1.919853 0.0553grouppatient -0.3796954 0.24633086 229 -1.541404 0.1246I(age - 8):grouppatient 0.2474299 0.04127932 712 5.994040 0.0000Correlation:

(Intr) I(g-8) grpptnI(age - 8) -0.498grouppatient -0.775 0.386

4

Page 5: medidasrep2

I(age - 8):grouppatient 0.397 -0.796 -0.499

Standardized Within-Group Residuals:Min Q1 Med Q3 Max

-2.7787356 -0.4219295 0.1270321 0.5303071 2.5998477

Number of Observations: 945Number of Groups: 231

O coeficiente do grupo nao e significante indicando que o intercepto na idade de 8 anos esimilar para os dois grupos. Verifiquemos se o intercepto e inclinacao aleatorios fazem sentido,para isso procedemos da seguinte maneira para calcular a estatıstica da razao de verossmilhancascontrastando o modelo re-ajustado com o original.

> ajuste2 = update(ajuste1, random=~1|subject)> anova(ajuste1,ajuste2)

Model df AIC BIC logLik Test L.Ratio p-valueajuste1 1 8 3722.243 3761.018 -1853.121ajuste2 2 6 3735.114 3764.196 -1861.557 1 vs 2 16.87142 2e-04

e

> ajuste3 = update(ajuste1, random=~I(age-8)-1|subject)> anova(ajuste1,ajuste3)

Model df AIC BIC logLik Test L.Ratio p-valueajuste1 1 8 3722.243 3761.018 -1853.121ajuste3 2 6 3921.272 3950.354 -1954.636 1 vs 2 203.0294 <.0001

O teste e altamente significativo sugerindo que tanto o intercepto aleatorio quanto a inclinacaoaleatoria sao necessarios.

Referencias

Laird, N.M. & Ware, J.H. (1982). Random-effects models for longitudinal data. Biometrics , 38,963–974.

Pinheiro, J.C. & Bates, D.M. (2000). Mixed-effects models in S and S-PLUS . New York:Springer.

Raudenbush, S.W. & Bryk, A.S. (2002). Hierarchical linear models: applications and dataanalysis methods . Thousand Oaks CA: Sage, second edition.

Vernables, W.N. & Ripley, B.D. (1999). Modern Applied Statistics with S-PLUS . New York:Springer, third edition.

5