Coeficiente de correlação Regressão múltipla linear n 1 n · coordenadas entre 0 e 1 e não...
Embed Size (px)
Transcript of Coeficiente de correlação Regressão múltipla linear n 1 n · coordenadas entre 0 e 1 e não...

1
Regressão múltipla linear
(Análise de superfícies de tendência)
1
Coeficiente de correlação linear produto momento, segundo Pearson (r)
SPXY = xy -(x y) / n;
SQX = x2 - (x)2 / n;
SQY = y2 - (y)22 / n
r: -1 à +1;
r: 0, não há correlação linear entre x e y.
1
)(.
1
)(
1
))((
)var()var(
),cov(22
n
yi
y
n
xi
x
n
yi
yxi
x
yx
yxr
SQYSQX
SPXYr
.
,21
2
r
nrt
2
Coeficiente de determinação
r2*100%: fração da variância total de x e y explicada pela relação linear; ajuste da distribuição dos pontos em relação à reta.
3
Regressão linear
Verificado pelo valor de r que ocorre uma significante correlação linear entre duas variáveis há necessidade de quantificar tal relação, o que é feito pela análise de regressão.
Modelo: equação de uma reta que, disposta num sistema de eixos cartesianos, com valores de yi (variável dependente) na ordenada e xi (variável independente) na abcissa, a soma dos quadrados dos desvios verticais dos pontos em relação a ela seja mínima.
4

2
Equação da reta: Y = a + bX
onde yi é o valor estimado para um específico valor xi;
“b” revela a inclinação da reta, ou seja o acréscimo ou decréscimo do valor de y em relação à x;
“a” localiza na ordenada o ponto de interseção da reta em relação ao sistema de coordenada retangulares.
Utilizando o método dos mínimos quadrados, os valores da equação da reta são determinados por:
SQX
SPXYb xbya
niy
y
n
ixx
5 6
Regressão curvilínea
potências crescentes de xi, variável independente e coeficientes
xi e xi2: parábola com um único ponto de inflexão com potências crescentes de xi, curva mais complexa para
ajuste processo por etapas (stepwise)
O modelo para a regressão polinomial de grau k é
...33
2210
* XaXaXaaY
ki
Xki
Xi
Xo
Y ...221
7
Função quadrática
8

3
Função cúbica
9
Extensão da regressão linear
Regressão linear:
bxay
x
y
Regressão múltipla linear :
ybxbbz 210
x
y
z
10
(regressão polinomial)
11
1 Grau 0
2 Grau 0
3 Grau 0
LINHA CURVA DE 3 GRAU 0
PARABOLA
VARIÁVEL 2
X X X
Y Y Y
Y Y Y
X X X
Z Z Z
PLANO PARABOLOIDE SUPERFÍCIE DE 3 GRAU 0
VARIÁVEL 3
Dados originais
Dados interpolados
12
Ajustando uma superfície de tendência de 1º grau

4
•O comportamento espacial de variáveis mapeáveis pode ser mostrado com os valores distribuindo-se segundo curvas de mesmo valor, também conhecidas como isopletas.
•Tais mapas, como os topográficos, fornecem importantes informações, porém, em algumas situações os padrões de variação não se mostram muito claros devido a flutuações locais ou a valores anômalos.
•É comum nessas circunstâncias falar-se em tendências regionais que são mascaradas por anomalias locais.
•Método da análise de superfícies de tendência: separação entre grandes e sistemáticas mudanças existentes na área e pequenas, aparentemente não ordenadas, que se impõem aos padrões mais gerais.
13
Regressão polinomial
Superfícies contínuas calculadas por critérios de regressão polinomial, onde Zi é a variável dependente em função linear das coordenadas X-Y dos pontos amostrados e irregularmente distribuídos
O modelo para a representação da superfície, pelo método dos polinômios não ortogonais, é:
onde zi(X,Y) é a variável mapeada em função das coordenadas xi e yi e ei representa os resíduos, ou seja, a fonte não-sistemática de variação.
),(...][),( 42
3210 iiiiiiiii yxeyxaxayaxaaYXz
14
Análise de superfícies de tendência
Separação entre o aspecto estrutural (determinístico) e o
aspécto errático (casual): tendências regionais e pequenas, aparentemente não ordenadas flutuações, que se impõem aos padrões mais gerais.
Detecção de anomalias: resíduos, positivos e negativos, de superfícies de baixo grau.
Modelagem por suavização: verificação da superfície de mais alto grau possível que se ajuste aos dados.
iii eyaxaaYXz 210),(
15
Representação de uma superfície linear (grau 1)
para o cálculo dos coeficientes ai, os dados são dispostos num sistema de equações normais
[A] = [XY]-1[Z]
ii
ii
i
iiii
iii
ii
yz
xz
z
a
a
a
yyxy
yxxix
yxn
2
1
0
2
2
16

5
Superfície de grau 2
ii
iii
ii
ii
ii
i
iiiiiiiii
iiiiiiiiiii
iiiiiiii
iiiiiiiii
iiiiiiii
iiiiii
zy
zyx
zx
zy
zx
z
yyxyxyyxy
yxyxyxyxi
yxyx
yxyxxi
yxxx
yyxyxyyxy
yxyxxi
yxxx
yyxxyxn
b
b
b
b
b
b
2
2
1
4322322
322322
2234232
3222
2232
22
5
4
3
2
1
0
17
Cuidados:
procurar tecer considerações apenas em relação à área coberta pelos pontos evitando as extremidades dos mapas, pois a extrapolação pode apresentar distorções;
o número de pontos deve ser maior que o número de coeficientes do polinômio a ser calculado;
o arranjo dos pontos, ainda que irregular, deve ser casual e razoavelmente bem distribuído, evitando agrupamentos;
18
Quando da inversão da matriz, por programas em microcomputador, podem ocorrer problemas com os resultados obtidos para superfícies de mais alto grau, isso porque em sistemas com valores de diversos dígitos, tipo UTM, a precisão computacional se deteriora exigindo formato de dupla precisão.
Mesmo assim podem ocorrer limitações e, então, a solução é a transformação das coordenadas xi e yi, conforme as equações, que fornecem valores para as coordenadas entre 0 e 1 e não modifica a forma das superfícies:
minmax
min*xx
xxx i
minmax
min*yy
yyy i
19 20

6
Verificação do ajuste das superfícies: coeficiente de determinação (R2)
Proporção da variação total da variável dependente “zi” que é explicada pela variação das variáveis independentes “xi” e “yi”
Variação total dos dados: SQT = Z2 – (Z)2/n Variação devido à superfície calculada: SQP = Z*2–
(Z*)2/n Variação devido aos resíduos: SQR = SQT - SQP
Porcentagem de ajuste da superfície: R2 = (SQP/SQT)100
O coeficiente de correlação “r” indica a relação entre
variáveis e “r2” indica o quanto uma variável “explica” a outra, ou quanto a superfície calculada se ajusta aos dados espaciais originais.
21
Superfícies de tendência
R2 = 45.42 %
R2 = 92.72 % R2 = 82.11 %
Linear
Quadratic Cubic
Superfície original com pontos de amostragem
22
Exemplo
23 Equação do plano: Yi = -621 – 4.78X1 – 1.96X2
Y1 = -621 -4.78(10.0 – 1.96(17.0) = -606.6
24

7
Superfície de grau 1
25
Resíduos positivos e negativos
26
Exemplos
27
Amostragem/Rio Paraiba: plancton
0 500 1000 1500 2000 2500
0
50
100
28

8
Superfície linear
0 500 1000 1500 2000 25000
50
100
0 500 1000 1500 2000 25000
50
100
29
Resíduos da superfície de tendência
0 500 1000 1500 2000 25000
50
100
30
Dengue na área urbana de Rio Claro/SP (1998-2002)
No município de Rio Claro/SP a incidência da dengue aumentou de menos que 5 casos por 100.000 habitantes nos anos de 1998 e 1999 para 349 casos/100.000 hab. no ano de 2002, num total de 588 casos confirmados
Entre as áreas com ocorrência da dengue destaca-se a região nas proximidades do cemitério público São João Baptista e nas proximidades da rodovia estadual Washington Luís
31
Área urbana de Rio Claro/SP
32

9
Foi verificado para o ano de 2002 um total de 598 notificações positivas com uma taxa de incidência da ordem de 349 casos/100.000 habitantes.
33
Superfície de tendência de 1o grau para incidência do dengue (casos por 10.000 habitantes)para 2002.
232000 234000 236000 238000 240000
7514000
7516000
7518000
7520000
7522000
7524000
7526000
-25
-20
-15
-10
-5 0 5 10
15
20
25
30
35
40
45
50
55
60
65
70
75
Km
Escala Gráfica
Superfície de tendência de 1o. grau (Incidência casos/10.000 hab)
Legenda
Cemitério
Rodovia
Área Urbana
0 1000 2000
34
Mapa de resíduos da superfície de tendência linear
232000 234000 236000 238000 240000
7514000
7516000
7518000
7520000
7522000
7524000
7526000
-15
0
0 15
0
30
0
45
0
60
0
75
0
Resíduos da superfície de tendência de 1o. grau
0 1000 2000 Km
Escala Gráfica
Legenda
Cemitério
Rodovia
Área Urbana
35
Regressão polinomial (SURFER)
Usar a matriz de dados do exercício 02 (100 pontos de amostragem e variável Cd)
36

10
37
Cálculo da superfície linear
Entrar em Grid/Data e, em seguida, escolher a opção Gridding Method/ Polynomial Regression e em Options o grau da superfície desejada.
Caso queira gravar o arquivo com os valores do reticulado com um nome especial, faze-lo usando Browse.
38
Impressão da superfície
Entrar em Map/Contour e escolher o arquivo *.grd recem calculado.
Em seguida, na janela Contour Map decidir sobre Fill Contours, Color Scale, Smooting, Level, Fill e Label.
O resultado sera um arquivo *.srf, que poderá ser gravado e impresso
39 40

11
Cálculo e impressão do mapa de resíduos
Entrar em Grid/Residuals e escolher o arquivo *.grid e,
em seguida, o correspondente arquivo *. dat.
Na janela Grid Residuals aparecera a informação Store residuals in column [ ].
Abrir a janela Worksheet e regravar o arquivo *.dat, agora com os valores residuais calculados.
Abril a janela Plot, e em seguida Grid.
Na janela Gridding method escolher em Data Columns, como variável Z, a coluna com os valores residuais e em Gridding Method um algoritmo para a confecção do mapa de valores residuais. Por exemplo Minimum Curvature ou Natural Neighbor.
Para a impressão do mapa de resíduos seguir os mesmos passos anteriormente descritos em “Impressão da superfície”. 41
Mínima curvatura
42
Vizinho natural e polígonos de Thiessen
1 – unir todos os
pares de pontos
com segmentos
de recta
• unir todos os
pares de pontos
com segmentos
de reta
• traçar a
perpendicular a
cada segmento
de reta
Polígono de
Thiessen
Ao ser adicionado um novo ponto, os polígonos se modificam. A área associada a esse ponto é “emprestada” das existentes. O interpolador usa medias ponderadas, onde os pesos são proporcionais às áreas emprestadas. 43
Vizinho natural
44

12
45