medidasrep2
-
Upload
flavio-mota -
Category
Documents
-
view
221 -
download
0
description
Transcript of medidasrep2
Modelos Lineares Mistos
Fernando Lucambio
Departamento de EstatısticaUniversidade Federal do ParanaCuritiba/PR, 81531–990, Brasil
email: [email protected]
Setembro de 2008
1 Introducao
O modelo de regressao linear normal, descrito anteriormente, e da forma
yi = β1x1i + β2x2i + . . .+ βpxpi + εi
εi ∼ N(0, σ2),
onde ε1, . . . , εn sao variaveis aleatorias independentes e igualmente distribuıdas. Desta formapodemos perceber que este modelo tem um efeito aleatorio, o termo de erro εi. Os parametrosdo modelo sao os coeficientes da regressao β1, β2, . . . , βp e a variancia do erro σ2. Usualmente,x1i = 1 e entao β1 e uma constante ou o intercepto do modelo.
Para efeitos de comparacao com os modelos lineares mistos a serem definidos escreveremos omodelo anterior de maneira matricial na seguinte forma
y = Xβ + ε
ε ∼ Nn(0, σ2In),
onde y = (y1, y2, . . . , yn)> e o vetor de respostas, X a matriz de regressoras do modelo, β =(β1, β2, . . . , βp)
> o vetor de coefficientes da regressao e ε = (ε1, . . . , εn)top o vetor de erro.Tambem, Nn representa a distribuicao normal n-variada, 0 o representa um vetor n × 1 dezeros e In a matriz identidade de ordem n.
Os chamados modelos lineares mistos incluem um termo adicional de efeitos aleatorios e saoapropriados para representar agrupamentos e, portanto, dados dependentes. Situacoes nas quaisestes modelos sao uteis incluem dados coletados hierarquicamente ou quando as observacoes saoobtidas de indivıduos relacionados, como irmaos ou outros tipos de parentes, ou quando os dadossao obtidos ao longo de curtos perıodos de tempo no mesmo invıduo.
No R existem diversas bibliotecas para ajustar estes modelos, em particular trabalharemoscom a funcao lme no pacote nlme. Estes modelos foram propostos por Laird & Ware (1982)e por esse motivo tambem costumam-se chamar de modelos Laird-Ware. Atualmente maioresdetalhes podem ser consultados nos livros Vernables & Ripley (1999), Pinheiro & Bates (2000)e Raudenbush & Bryk (2002). A estimacao destes modelos e extremamente complexa e somentefaremos um estudo geral.
1
2 O modelo linear misto
O modelo geral e da forma
yij = β1x1ij + β2x2ij + . . .+ βpxpij
+ γ1z1ij + γ2z2ij + . . .+ γqzqij + εij
γik ∼ N(0, ψ2k), Cov{γk, γk′} = ψkk′
εij ∼ N(0, σ2λijj), Cov{εij, εij′} = σ2λijj′ ,
onde
• yij e a valor da variavel resposta na j-esima de ni onbservacoes no i-esimo de M agrupa-mentos
• β1, . . . , βp sao os coeficientes dos efeitos fixos, que sao identicos para todos os grupos
• x1ij, . . . , xpij sao os valores das regressoras dos efeitos fixos para a j-esima observacao nogrupo i, a primeira destas regressoras e usualmente a constante, x1ij = 1
• γ1, . . . , γq sao os coeficientes das componentes de efeitos aleatorios
• ψ2 e a variancia e ψkk′ a covariancia entre os efeitos aleatorios, assume-se que e constanteatraves dos grupos.
• εij e o erro para a j-esima observacao no i-esimo grupo. O termo de erro para o grupo i econsiderado com distribuicao normal multivariada.
• σ2λijj′ e a covariancia entre os erros no i-esimo grupo.
Alternativamente, mas equivalentemente, em forma matricial
yi =Xiβ + Ziγi + εi
γi ∼Nq(0,Ψ),
εi ∼Nn(0, σ2Λi)
onde
• yi e o vetor ni × 1 de reposta para as observacoes no i-esimo grupo
• Xi a matrix ni × p do modelo para os efeitos fixos das observacoes no i-esimo grupo
• β o vetor p× 1 de coeficientes de efeitos fixos
• Zi a matriz ni × q do modelo de efeitos aleatorios das observacoes no i-esimo grupo
• γi o vetor q × 1 de coeficientes de efeitos aleatorios para o grupo i
• εi o vetor ni × 1 de erros das observacoes no i-esimo grupo
• Ψ a matriz q × q das covariancias dos efeitos aleatorios
• σ2Λi a matriz ni × ni das covariancias dos erros para o grupo i
2
3 Um exemplo ilustrativo da aplicacao destes modelos a
dados longitudinais
Para ilustrar a utilizacao e interpretacao dos resultados obtidos com estes modelos utilizare-mos os dados coletados por Blackmoor e Davis acerca do historico de 138 garotas adolescenteshospitalizadas por desordens alimentares e um grupo de 93 controles.
> library(car) # somente para ler os dados> library(relimp) # somente para mostrar os dados> library(nlme)> data(Blackmoor) # para ler os dados na libraria (pacote) car> showData(Blackmoor) # para mostrar os dados
As variaveis sao:
• subject: um codigo de identificacao, ha diversas observacoes para cada indivıduo mascomo as garotas foram hospitalizadas em diferentes idades, o numero de observacoes e aidade na ultima observacao variam.
• age: idade em anos no momento da observacao, as observacoes foram coletadas retrospec-tivamente a intervalos de dois anos cada,comecando ao 8 anos.
• exercice: a quantidade de exercıcio no qual cada garota esta engajada, e uma estimativaem horas por semana
• group: um fator indicativo se o indivıduo pertence ao grupo controle o paciente
3.1 Examinando os dados
Faremos uma amostragem de 20 indivıduos para mostrar o comportamento no perıodo, seraoselecionadois 20 indivıduos do grupo controle e 20 de pacientes e mostraremos a resposta, aquantidade de exercıcio em relacao a idade para cada um.
> pat = sample(unique(subject[group==’patient’]),20)> Pat.20 = groupedData(exercise~age|subject,data=Blackmoor[is.element(subject,pat),])
> plot(Pat.20,main=’Pacientes’,xlab="Idade",ylab=’Exerc~Acios’,layout=c(5,4),aspect=1.0,+ position=c(0,0.5,1,1))
> con = sample(unique(subject[group==’control’]),20)> Con.20 = groupedData(exercise~age|subject,data=Blackmoor[is.element(subject,con),])> plot(Con.20,main=’Controle’,xlab="Idade",ylab=’Exerc~Acios’,layout=c(5,4),aspect=1.0,+ position=c(0,0.5,1,1))
O resultado pode ser apreciado na Figura 1. Parece nao existir um padrao forte de compor-tamento em cada indivıduo. No entanto, parece que em geral a quantidade de exercıcio emaiorno grupo de pacientes do que no grupo controle. Observe que o limite superior do ixo verticalno grupo de pacientes e maior do que 10 e no grupo de controle o limite e 8.
3
Pacientes
Idade
Exe
rcíc
ios
0
5
10
8 10 12 14 16
120 128
8 10 12 14 16
323 195
8 10 12 14 16
327
154 329 341 173
0
5
10
1490
5
10
155 106 300 305 330
129
8 10 12 14 16
199 142
8 10 12 14 16
133
0
5
10
111
Controle
Idade
Exe
rcíc
ios
0
2
4
6
8
8 10 12 14 16
218 262
8 10 12 14 16
201 202
8 10 12 14 16
286
246 273b 268 273a
0
2
4
6
8207a
0
2
4
6
8211 280b 229b 233 220
223
8 10 12 14 16
214 204
8 10 12 14 16
238
0
2
4
6
8212
Figura 1: Comportamento da quantidade de exercıcio em relacao a idade para 20 indivıduosselecionados aleatoriamente do grupo de pacientes e 20 indivıduos selecionados tambem aleato-riamente do grupo controle.
3.2 Ajustando o modelo
Os dados originais reportam erro ao tentar ajustar o modelo, por isso transformamos a respostaa escala logaritmica de base 2 para manter a interpretabilidade e dado que alguns resultados daquantidade de exercıcio sao.zero acrescentamos 4 minutos para poder fazer o calculo.
> ajuste1 = lme(I(log(exercise+4/60,2))~I(age-8)*group, random=~I(age-8)|subject,data=Blackmoor)> summary(ajuste1)
Linear mixed-effects model fit by REMLData: Blackmoor
AIC BIC logLik3722.243 3761.018 -1853.121
Random effects:Formula: ~I(age - 8) | subjectStructure: General positive-definite, Log-Cholesky parametrization
StdDev Corr(Intercept) 1.5054864 (Intr)I(age - 8) 0.1703134 -0.295Residual 1.3132333
Fixed effects: I(log(exercise + 4/60, 2)) ~ I(age - 8) * groupValue Std.Error DF t-value p-value
(Intercept) -0.3339309 0.19093136 712 -1.748958 0.0807I(age - 8) 0.0630800 0.03285670 712 1.919853 0.0553grouppatient -0.3796954 0.24633086 229 -1.541404 0.1246I(age - 8):grouppatient 0.2474299 0.04127932 712 5.994040 0.0000Correlation:
(Intr) I(g-8) grpptnI(age - 8) -0.498grouppatient -0.775 0.386
4
I(age - 8):grouppatient 0.397 -0.796 -0.499
Standardized Within-Group Residuals:Min Q1 Med Q3 Max
-2.7787356 -0.4219295 0.1270321 0.5303071 2.5998477
Number of Observations: 945Number of Groups: 231
O coeficiente do grupo nao e significante indicando que o intercepto na idade de 8 anos esimilar para os dois grupos. Verifiquemos se o intercepto e inclinacao aleatorios fazem sentido,para isso procedemos da seguinte maneira para calcular a estatıstica da razao de verossmilhancascontrastando o modelo re-ajustado com o original.
> ajuste2 = update(ajuste1, random=~1|subject)> anova(ajuste1,ajuste2)
Model df AIC BIC logLik Test L.Ratio p-valueajuste1 1 8 3722.243 3761.018 -1853.121ajuste2 2 6 3735.114 3764.196 -1861.557 1 vs 2 16.87142 2e-04
e
> ajuste3 = update(ajuste1, random=~I(age-8)-1|subject)> anova(ajuste1,ajuste3)
Model df AIC BIC logLik Test L.Ratio p-valueajuste1 1 8 3722.243 3761.018 -1853.121ajuste3 2 6 3921.272 3950.354 -1954.636 1 vs 2 203.0294 <.0001
O teste e altamente significativo sugerindo que tanto o intercepto aleatorio quanto a inclinacaoaleatoria sao necessarios.
Referencias
Laird, N.M. & Ware, J.H. (1982). Random-effects models for longitudinal data. Biometrics , 38,963–974.
Pinheiro, J.C. & Bates, D.M. (2000). Mixed-effects models in S and S-PLUS . New York:Springer.
Raudenbush, S.W. & Bryk, A.S. (2002). Hierarchical linear models: applications and dataanalysis methods . Thousand Oaks CA: Sage, second edition.
Vernables, W.N. & Ripley, B.D. (1999). Modern Applied Statistics with S-PLUS . New York:Springer, third edition.
5