Post on 03-Oct-2018
ESTADISTICA ESPACIAL EN EPIDEMIOLOGIA Y MEDIO AMBIENTE
DOCTORADO EN ESTADISTICA E I.O.
Universitat de Valencia (Estudi General)
Burjassot, Primavera de 2004
MODELOS LINEALES GENERALIZADOS
Antonio Lopez
Dep. d’Estadıstica i Investigacio Operativa
Universitat de Valencia (Estudi General)
Antonio.Lopez@uv.es
1
GUION:
1 IntroduccionMotivacion. Mortalidad por cancer de prostata en Valencia. Regresion
lineal.
2 Modelo Lineal Generalizado (GLM)Definicion. Componentes. Funcion vınculo. Modelos de datos
continuos. Modelos de datos discretos. Parametro de dispersion.
Sobredispersion.
3 Estimacion de un GLMMaxima Verosimilitud. Metodo Scoring de Fisher. Estimacion del
parametro de dispersion.
4 Seleccion del mejor modeloDesviacion. Modelos encajados.
2
5 Analisis de residuosResiduos de Pearson. Residuos de desviacion. Residuos por exclusion.
6 Extensiones de los GLMQuasi-verosimilitud. Otras extensiones.
7 EjemploMortalidad por cancer de prostata en Valencia.
Bibliografıa
3
MORTALIDAD POR CANCER DE PROSTATA.
VALENCIA 1975-1980
01 a 5
6 a 10>10
numero de defunciones acumuladas para el perıodo
4
TASAS DE MORTALIDAD POR CANCER DE
PROSTATA. VALENCIA 1975-80
0]0,5[
[5,10[[10,150[
tasas por 10000 habitantes
5
CONCENTRACION DE NITRATOS EN AGUAS
POTABLES
[ 0,10[[10,30[
[30,90[[90,300[
Concentracion de nitratos en mg/litro, Llopis (1985)
6
MODELOS DE REGRESION
yi = f(xi) + εi i = 1, . . . , n indep.
atributo enestudio
=componentesistematica
+componenteerratica
Esperanza[yi] = f(x)
Varianza[yi] = Varianza[εi]
Regresion lineal simple:f(xi) = β0 + β1xi
Ej.: mortalidadi=tasa×poblacioni+εi
i:= ındice de municipio
7
MODELOS DE REGRESION
yi = f(xi) + εi i = 1, . . . , n indep.
atributo enestudio
=componentesistematica
+componenteerratica
Esperanza[yi] = f(x)
Varianza[yi] = Varianza[εi]
Regresion lineal multiple:f(xi) = β0 + β1x1i + . . . + βkxki
Ej.: mortalidadi=∑
j(tasaj×poblacionji) +εi
i:= ındice de municipioj:= ındice de grupo de edad
8
C. DE PROSTATA EN VALENCIA (cont.)
NOMBRE DEL cancer conc. edad:
MUNICIPIO habit. prostata nitr. % ≥ 40
Ademuz 1545 1 11 59.0
Ador 1256 5 16 49.4
Adzaneta de Albaida 1364 0 18 42.7
Agullent 2016 0 8 35.8
Alaquas 23728 5 78 32.4
Albaida 5573 3 8 38.7
Albal 8139 4 17 36.0
Albalat de la Ribera 3594 2 76 42.2
Albalat dels Sorells 567 8 60 41.4
Albalat dels Tarongers 3657 0 32 53.4
Alberique 8971 1 28 42.9
Alborache 821 0 12 43.9
Alboraya 10786 4 42 39.2
Albuixech 3005 0 66 47.0
. . . . . . . . . . . . . . .
Datos de nitratos extraıdos de (Llopis, 1985)
9
REGRESION LINEAL SIMPLE
yi ∼ N(β0 + β1xi︸ ︷︷ ︸media
, σ2︸︷︷︸varianza
) i = 1, . . . , n
independ.
A partir de los n datos se obtienen las estimaciones:
β1 =∑
i(yi − y)(xi − x)n
∑i(xi − x)2
β0 = y − β1x
y se contrasta la hipotesis H0 : β1 = 0
10
C. DE PROSTATA EN VALENCIA (cont.)
casosi = β0 + β1 × nitratosi + εi
Ajuste
σ2: 16.88 con 261 grados de libertad
Multiple R2: 0.00007167
Estadıstico F : 0.01871 con 1 y 261 gr. libertad,
(p-valor=0.8913) resultado no significativo
Coeficientes Valor Std.Err. estad.t p-valor
Intercept. 3.0091 1.4558 2.0669 0.0397
nitratos 0.0032 0.0234 0.1368 0.8913
11
C. DE PROSTATA EN VALENCIA (cont.)
Residuos:
Min 1Q Median 3Q Max
-3.534 -3.06 -2.102 -0.3581 265.9
12
C. DE PROSTATA EN VALENCIA (cont.)
oooo oo o ooooo o o ooo
o oo ooo o ooo oo
o ooo o oo ooo oo oo oooo ooo oooo ooo oo ooo oo ooo o ooo ooo ooooo oo ooo oo oooo oo o oooo ooo oooo oooo o ooo ooo o oooo o oooo oooo oo
oo oo oo o oooo ooooo oo ooo oo oo oooo o o o oo oo ooo ooooo o ooo o ooo oo o o ooo ooo o oo o oooo o o o oo oooo ooo o oo ooo
oo oo o oo ooo
ooo ooo
o o ooo oo oo
oooo o
o
oo o oo ooo o oo oo
nitratos
mor
talid
ad
0 50 100 150 200 250
050
100
200
ajuste de mortalidad vs. nitratos
13
C. DE PROSTATA EN VALENCIA (cont.)
o
o
oo
oooo
o
ooo
o
o
o
o
o
o
o
o
oo
oooooo
o
o
oo
oo
ooooooo
o
o
o
oooooo
o
oo
oooooo
o
ooooooooo
o
ooooooo
o
oo
o
o
o
oooooooooo
o
oooooo
o
o
oo
ooo
ooo
ooooooo
o
oooooooooooo
o
ooooooooooooo
o
o
o
ooooooooooo
o
oooo
ooo
oo
o
o
o
ooooooooo
o
oo
o
ooooo
ooo
oo
oo
o
ooooooo
o
ooooooo
o
oooooo
o
ooooooooo
o
oooo
o
o
o
o
ooooo
o
oooo
o
ooooooo
o
ooooo
municipios
resi
duos
0 50 100 150 200 250
05
1015
20residuos del ajuste eliminando municipio de Valencia
14
REGRESION LINEAL MULTIPLE
Aunque estemos interesados en un solo factor de riesgo, convieneincluir en el modelo todos aquellos cuya influencia se sospecha. Conello evitaremos estimaciones sesgadas del factor de interes yconclusiones posiblemente equivocadas.
Ajustandoyi = α0 + α1x1i + εi
y el modelo con factores de riesgo x2, . . . , xk adicionales
yi = β0 + β1x1i + . . . + βkxki + εi
en general se obtiene α1 6= β1
La tabla de ANOVA permite valorar la hipotesis de que todos loscoeficientes de regresion son nulos a la vez, ası como la coleccion dehipotesis de que cada uno de ellos es irrelevante una vez consideradoslos restantes.
15
C. DE PROSTATA EN VALENCIA (cont.)
casosi = β0 + β1 × poblacioni
+ β2 × envejecimientoi
+ β3 × nitratosi + εi
Ajuste
σ2: 2.058 con 259 grados de libertad
Multiple R2: 0.9852
Estadıstico F : 5765 con 3 y 259 grad. de lib,
(p-valor < 0,00005) muy significativo
16
C. DE PROSTATA EN VALENCIA (cont.)
Coefs. Estim. StdErr. estad.t p-valor
Intercept. -1.5897 0.8538 -1.8618 0.0638
poblacion 0.0004 0.0000 130.60 0.0000
envejec. 3.5904 1.7374 2.0665 0.0398
nitratos 0.0061 0.0030 2.0291 0.0435
Residuos
Min 1Q Median 3Q Max
-8.765 -0.7577 -0.3334 0.5301 11.65
Incremento R2 ≈ 0.9851
17
DIAGNOSTICO DEL MODELO
o
o
oo
o
ooo
o
ooooo
oo
o
ooo
oo
oo
oooo
o
oo
o
ooooooooo
o
oo
ooooooooooooooooo
ooooooooooooooooo
oooooo
o
ooooooo
o
o
ooo
o
oo
o
o
oo
o
oo
oo
o
o
oooo
oo
o
oooooooo
oooo
o
ooooooooooo
o
o
o
o
o
ooooooooooo
o
ooooo
oooo
o
oo
oooooo
ooo
o
oooo
o
ooo
o
ooooooo
ooo
oooo
oooooooo
o
o
ooooo
o
ooo
oooooo
o
oooo
o
oo
o
ooooo
o
oooooooooooo
o
o
ooooo
municipio
resi
duos
0 50 100 150 200 250
-50
510
ajuste de mortalidad vs. pobl., envej. y nitratos
18
DIAGNOSTICO DEL MODELO
o
o
oo
o
o o o
o
ooo o
o
o
o
o
o oooo
oo
ooo o
o
oo
o
o ooo o
oo
oo
o
oo
oooo
ooo
ooo
ooo ooo
ooo
oooo o ooo
ooo oooo
ooo oo
o
o
o ooo
o ooo
ooo
o
o
oo
o
o
oo
o
oo
o o
o
o
ooo
oo
oo
oo ooooo
oooo o
o
oo
oo
oo o ooooo
o
o
o
o
oooo
o oo
ooo
o
o
o o o oo
oo
o o
o
oo
oooo o ooo o
o
oo oo
o
o oo
o
oooo oo
o
ooo
o o oo
o
oo
ooo oo
o
o
ooooo
o
o o
o
o oo ooo
o
ooo
o
o
oo
o
oo oo o
o
ooooo
ooo o oo
o
o
oo o
o oo
nitratos
mor
talid
ad a
just
ada
0 50 100 150 200 250
-50
510
mortalidad ajustada para demografia vs. nitratos
19
Introduccion
Modelo Lineal General: datos independientes, y1, y2, . . . , yn,normalmente distribuidos.
yi ∼ N(β0 + β1x1i + . . . + βpx
pi , σ
2)
predictor lineal β′xi
varianza constante
E[y] = Xβ, V[y] = σ2I
Modelo Lineal Generalizado: datos independientes de unadistribucion de la familia exponencial (binomial, Poisson,gamma, . . .).
modeliza E[y] como una funcion no lineal de Xβ.
20
Introduccion
Analisis de un GLM:
calculo del estimador maximo verosımil
comparacion de modelos encajados
valoracion del ajuste del modelo a los datos
21
Definicion de GLM
Conjunto de variables aleatorias independientes y1, y2, . . . , yn confuncion de densidad, o funcion de probabilidad, que puede escribirsecomo:
p(yi | θi, φ) = exp{yiθi − b(θi)ai(φ)
+ c(yi, φ)}
donde:θi es el parametro natural o canonico
φ es un parametro adicional de escala o dispersion
ai(·), b(·) y c(·) son funciones especıficas
Si φ es conocido este es un modelo de la familia exponencial lineal
Si φ es desconocido es un modelo de dispersion exponencial
22
Definicion de GLM
Bibliografıa general:Nelder y Wedderburn (1972)McCullagh y Nelder (1989)Fahrmeir y Tutz (1994)Garthwaite et al. (1995)
23
Componentes del GLM
Queremos modelizar µi = E[yi] en terminos del predictor lineal β′xi
formado con un conjunto de p covariables
β′xi = β0 + β1x1i + . . . + βpx
pi
Componentes:
1 Conjunto de n variables respuesta independientes, de unadistribucion de la familia exponencial
2 Un vector de parametros β y una matriz del modelo X,determinando el predictor lineal de cada variable β′xi
3 Una funcion vınculo monotona y diferenciable que define larelacion entre µi y su predictor lineal
g(µi) = β′xi
24
Funcion vınculo
Permite modelizar distintas relaciones entre µ y el predictor lineal.
Vınculo natural o canonico:Aquel que es igual a la funcion que define el parametro natural ocanonico de esa distribucion. Por tanto, θ = β′x
25
Funcion vınculo
Vınculos mas usuales:
¦ logit log π1−π
¦ probit Φ−1(π)
¦ complementario
log-log log[− log(1− π)]
¦ identidad µ
¦ inverso −1/µ
¦ logaritmo log µ
¦ raiz cuadrada√
µ
Eleccion del vınculo: depende de la familia de distribuciones, deltipo de respuestas y de la aplicacion.
26
Modelos de datos continuos
Normal:
Distribucion N(µ, σ2)
E[y] = µ
vınculo g(µ) = µ (identidad)
b(θ) = θ2/2
a(φ) = σ2
Otros vınculos: logaritmo
raiz cuadrada
27
Modelos de datos continuos
Gamma:
Distribucion Gamma(λ, ν)
E[y] = λν
vınculo g(µ) = − 1µ = − ν
λ (inverso)
b(θ) = − log(−θ)
a(φ) = 1λ
Otros vınculos: identidad
logaritmo
28
Modelos de datos discretos
Binomial:
Distribucion Bi(n, π)
E[y] = nπ
vınculo g(µ) = log µn−µ = log π
1−π (logit)
b(θ) = n log(1 + eθ)
a(φ) = 1
Otros vınculos: probit
complementario log-log
29
Modelos de datos discretos
Poisson:
Distribucion Po(λ)
E[y] = λ
vınculo g(λ) = log λ (logaritmo)
b(θ) = eθ
a(φ) = 1
Otros vınculos: identidad
raiz cuadrada
30
Parametro de dispersion
Con frecuencia, el termino ai(φ) es de la forma φ/ωi, donde ωi es unpeso.
Si los datos no son agrupados, ωi = 1
Si las variables respuesta expresan promedios, ωi = ni
Si son la suma de ni respuestas individuales, ωi = 1/ni
31
Sobredispersion
Fenomeno que ocurre en aplicaciones con distribuciones con varianzapoco flexible, como Binomial y Poisson.
Al anadir un parametro de dispersion φ, se modifica la varianza
V[y] = a(φ)b′′(θ)
Puede representar una heterogeneidad no observada o una correlacionpositiva entre respuestas individuales.
Tambien se denomina extravarianza.
32
Maxima verosimilitud
El logaritmo de la verosimilitud de θ para las observaciones y es
l(θ | y) =n∑
i=1
yiθi − b(θi)ai(φ)
+n∑
i=1
c(yi, φ)
Nuestro principal interes es la estimacion de β. El estimadormaximo verosımil de cada βj anula la derivada de l
∂l
∂βj=
n∑
i=1
(yi − µi)xij
V[yi]g′(µi)
33
Maxima verosimilitud
En general, estas ecuaciones de estimacion no se pueden resolverdirectamente. Su solucion puede aproximarse por procedimientositerativos, empleando la esperanza de las segundas derivadas
E[
∂2l
∂βj∂βk
]=
n∑
i=1
xijxik
V[yi]g′(µi)2
34
Metodo Scoring de Fisher
Algoritmo de Newton-Raphson:Procedimiento iterativo a partir de una estimacion inicial β0:
βr+1 = βr − [D2βl(βr)]−1Dβl(βr)
donde Dβl(βr) es el vector de primeras derivadas de l, y D2βl(βr)
la matriz de segundas derivadas, evaluadas en βr.
Metodo Scoring de Fisher:Consiste en sustituir D2
βl(βr) por su valor esperado.
E[
∂2l
∂βj∂βk
]=
n∑
i=1
xijxik
V[yi]g′(µi)2
Equivale a resolver iterativamente un problema de mınimoscuadrados ponderados (Jorgensen, 1983).
La sucesion {βr} converge al estimador maximo verosımil de β.
35
Estimacion del
parametro de dispersion
Si φ no es conocido, es necesario usar una estimacion para el calculode V[yi] en el procedimiento anterior.
Cuando ai(φ) = φ/ωi, la expresion de la varianza
V[yi] = ai(φ)b′′(θi)
proporciona un estimador consistente de φ a partir de unaestimacion de β
φ =1
n− p− 1
n∑
i=1
ωi(yi − µi)2
b′′(θi)
36
Estimacion del
parametro de dispersion
Para la normal, el estimador de la varianza del modelo de regresionlineal es la suma de cuadrados residual
σ2 =1
n− p− 1
n∑
i=1
(yi − µi)2
37
Desviacion
Determinaremos la adecuacion del modelo comparandolo con elmodelo saturado.
El modelo saturado tiene la misma forma que el ajustado, perocon tantos parametros como observaciones.
Desviacion escalada: obtenida con el estadıstico cociente deverosimilitudes
S = −2[l(β | y, φ)− l(β | y, φ)]
con β el EMV del modelo saturado.
38
Desviacion
En terminos del parametro natural es
S = 2n∑
i=1
yi(θi − θi)− b(θi) + b(θi)ai(φ)
Cuando φ es conocido, la desviacion escalada mide cuanto se desvıael modelo de los datos.
Distribucion aproximada:Si el modelo se ajusta bien a los datos
S ∼ χ2(n− p− 1)
39
Desviacion
Desviacion (no escalada):Se define por
D(y, µ) = φS
Si ai(φ) = φ/ωi, equivale a
2n∑
i=1
ωi[yi(θi − θi)− b(θi) + b(θi)]
Descomposicion de la desviacion:La desviacion es la suma de las discrepancias para cada uno delos datos
D(y, µ) =n∑
i=1
di(yi, µi)
40
Desviacion
Estimacion de φ:La desviacion de un modelo razonable con q parametros permiteestimar φ mediante
φ = D/(n− q)
debido a que la esperanza aproximada de S es igual a n− q, losgrados de libertad de la distribucion χ2
41
Modelos encajados
La desviacion es util para comparar el ajuste de dos modelosencajados.
Un modelo M1 con q1 parametros esta encajado en otro M2 con q2
parametros (q1 < q2) si son de la misma forma y las covariablesde M1 estan contenidas en las de M2.
La necesidad de los q2 − q1 parametros adicionales se contrasta conun test χ2. Si D1 y D2 son las desviaciones de dos modelosencajados con buen ajuste,
(D1 −D2)/φ ∼ χ2(q2 − q1)
42
Modelos encajados
Si φ tiene que ser estimado, puede hacerse el contraste con un testF, usando
(D1 −D2)(n− q2)(q2 − q1)D2
∼ F(q2 − q1, n− q2)
43
Analisis de residuos
El residuo de cada dato mide la discrepancia entre el valor observadoy el pronosticado por el modelo.
Residuos de Pearson: Generalizacion inmediata de los residuoshabituales para datos normales
rPi =
yi − µi√b′′(θi)
Residuos de desviacion: Es la contribucion de esa observacion ala desviacion escalada
rDi = signo(yi − µi)
√di/φ
Residuos por exclusion: Es el residuo de ese punto para el modeloajustado al excluir esa observacion. Pueden calcularse residuospor exclusion de Pearson y de desviacion.
44
Quasi-verosimilitud
A veces no se conoce la forma de la distribucion de las variablesrespuesta, pero se dispone de la esperanza en funcion de β
E[yi] = µi(β)
y la formula de la varianza en su relacion con la esperanza
V[yi] = φV(µi)
Estimador por quasi-verosimilitudEs la solucion de
D′W (y − µ(β)) = 0
donde el elemento (i, j) de D es ∂µi
∂βjy W es la matriz diagonal
con elementos V(µi)−1.
Quasi-desviacionComo la desviacion, sustituyendo por la quasi-verosimilitud.
45
Otras extensiones
Modelos de regresion no linealEmpleando un predictor no lineal en los parametros β.
Modelos de regresion generalUtilizando distribuciones que no son de la familia exponencial.
Modelos de regresion multivarianteLa variable respuesta es un vector, introduciendo los GLMmultivariantes(Fahrmeir y Tutz, 1994).
O las respuestas no son independientes, como en el caso espacial,llevando a los modelos autoregresivos y a los jerarquicos.
46
Mortalidad por cancer de prostata en Valencia
Estimacion del modelo.
Parametros estimados
MODELO β0 β1 β2
tasas const. -7.172
edad -9.925 5.208
nitratos -7.876 1.23e-3
edad y nit. -10.152 5.539 2.09e-3
47
Mortalidad por cancer de prostata en Valencia
Diferencias entre las desviaciones de los modelos encajados.
const. edad nit. comp.
tasas const. 849.8
edad 488* 361.8
nitratos 443* — 406.8
edad y nit. 495.9* 7.9* 52.9* 353.9
Todas significativas con α = 0,01.
48
Bibliografıa
Fahrmeir, L. y Tutz, G. (1994). Multivariate statistical modelling based
on generalized linear models. Springer-Verlag, New York.
Ferrandiz, J., Lopez, A., Llopis, A., Morales, M., y Tejerizo, M. L.
(1995). Spatial interaction between neighbouring counties: cancer
mortality data in Valencia, (Spain). Biometrics, 51(2):665–678.
Garthwaite, P. H., Jolliffe, I. T. y Jones, B. (1995). Statistical Inference.
Prentice Hall, London.
Jorgensen, B. (1983). Maximum likelihood estimation and large-sample
inference for generalized linear and nonlinear regression models.
Biometrika, 70:19–28.
McCullagh, P. y Nelder, J.A. (1989). Generalized linear models, second
edition. Chapman and Hall, London.
Nelder, J.A. y Wedderburn, R.W.M. (1972). Generalized linear models.
Journal of the Royal Statistical Society, series A, 135:370–384.
49