Coeficiente de correlação Regressão múltipla linear n 1 n · coordenadas entre 0 e 1 e não...

12
1 Regressão múltipla linear (Análise de superfícies de tendência) 1 Coeficiente de correlação linear produto momento, segundo Pearson (r) SPXY = xy -(x y) / n; SQX = x2 - (x)2 / n; SQY = y2 - (y)22 / n r: -1 à +1; r: 0, não há correlação linear entre x e y. 1 ) ( . 1 ) ( 1 ) )( ( ) var( ) var( ) , cov( 2 2 n y i y n x i x n y i y x i x y x y x r SQY SQX SPXY r . , 2 1 2 r n r t 2 Coeficiente de determinação r2*100%: fração da variância total de x e y explicada pela relação linear; ajuste da distribuição dos pontos em relação à reta. 3 Regressão linear Verificado pelo valor de r que ocorre uma significante correlação linear entre duas variáveis há necessidade de quantificar tal relação, o que é feito pela análise de regressão. Modelo: equação de uma reta que, disposta num sistema de eixos cartesianos, com valores de yi (variável dependente) na ordenada e xi (variável independente) na abcissa, a soma dos quadrados dos desvios verticais dos pontos em relação a ela seja mínima. 4

Transcript of Coeficiente de correlação Regressão múltipla linear n 1 n · coordenadas entre 0 e 1 e não...

1

Regressão múltipla linear

(Análise de superfícies de tendência)

1

Coeficiente de correlação linear produto momento, segundo Pearson (r)

SPXY = xy -(x y) / n;

SQX = x2 - (x)2 / n;

SQY = y2 - (y)22 / n

r: -1 à +1;

r: 0, não há correlação linear entre x e y.

1

)(.

1

)(

1

))((

)var()var(

),cov(22

n

yi

y

n

xi

x

n

yi

yxi

x

yx

yxr

SQYSQX

SPXYr

.

,21

2

r

nrt

2

Coeficiente de determinação

r2*100%: fração da variância total de x e y explicada pela relação linear; ajuste da distribuição dos pontos em relação à reta.

3

Regressão linear

Verificado pelo valor de r que ocorre uma significante correlação linear entre duas variáveis há necessidade de quantificar tal relação, o que é feito pela análise de regressão.

Modelo: equação de uma reta que, disposta num sistema de eixos cartesianos, com valores de yi (variável dependente) na ordenada e xi (variável independente) na abcissa, a soma dos quadrados dos desvios verticais dos pontos em relação a ela seja mínima.

4

2

Equação da reta: Y = a + bX

onde yi é o valor estimado para um específico valor xi;

“b” revela a inclinação da reta, ou seja o acréscimo ou decréscimo do valor de y em relação à x;

“a” localiza na ordenada o ponto de interseção da reta em relação ao sistema de coordenada retangulares.

Utilizando o método dos mínimos quadrados, os valores da equação da reta são determinados por:

SQX

SPXYb xbya

niy

y

n

ixx

5 6

Regressão curvilínea

potências crescentes de xi, variável independente e coeficientes

xi e xi2: parábola com um único ponto de inflexão com potências crescentes de xi, curva mais complexa para

ajuste processo por etapas (stepwise)

O modelo para a regressão polinomial de grau k é

...33

2210

* XaXaXaaY

ki

Xki

Xi

Xo

Y ...221

7

Função quadrática

8

3

Função cúbica

9

Extensão da regressão linear

Regressão linear:

bxay

x

y

Regressão múltipla linear :

ybxbbz 210

x

y

z

10

(regressão polinomial)

11

1 Grau 0

2 Grau 0

3 Grau 0

LINHA CURVA DE 3 GRAU 0

PARABOLA

VARIÁVEL 2

X X X

Y Y Y

Y Y Y

X X X

Z Z Z

PLANO PARABOLOIDE SUPERFÍCIE DE 3 GRAU 0

VARIÁVEL 3

Dados originais

Dados interpolados

12

Ajustando uma superfície de tendência de 1º grau

4

•O comportamento espacial de variáveis mapeáveis pode ser mostrado com os valores distribuindo-se segundo curvas de mesmo valor, também conhecidas como isopletas.

•Tais mapas, como os topográficos, fornecem importantes informações, porém, em algumas situações os padrões de variação não se mostram muito claros devido a flutuações locais ou a valores anômalos.

•É comum nessas circunstâncias falar-se em tendências regionais que são mascaradas por anomalias locais.

•Método da análise de superfícies de tendência: separação entre grandes e sistemáticas mudanças existentes na área e pequenas, aparentemente não ordenadas, que se impõem aos padrões mais gerais.

13

Regressão polinomial

Superfícies contínuas calculadas por critérios de regressão polinomial, onde Zi é a variável dependente em função linear das coordenadas X-Y dos pontos amostrados e irregularmente distribuídos

O modelo para a representação da superfície, pelo método dos polinômios não ortogonais, é:

onde zi(X,Y) é a variável mapeada em função das coordenadas xi e yi e ei representa os resíduos, ou seja, a fonte não-sistemática de variação.

),(...][),( 42

3210 iiiiiiiii yxeyxaxayaxaaYXz

14

Análise de superfícies de tendência

Separação entre o aspecto estrutural (determinístico) e o

aspécto errático (casual): tendências regionais e pequenas, aparentemente não ordenadas flutuações, que se impõem aos padrões mais gerais.

Detecção de anomalias: resíduos, positivos e negativos, de superfícies de baixo grau.

Modelagem por suavização: verificação da superfície de mais alto grau possível que se ajuste aos dados.

iii eyaxaaYXz 210),(

15

Representação de uma superfície linear (grau 1)

para o cálculo dos coeficientes ai, os dados são dispostos num sistema de equações normais

[A] = [XY]-1[Z]

ii

ii

i

iiii

iii

ii

yz

xz

z

a

a

a

yyxy

yxxix

yxn

2

1

0

2

2

16

5

Superfície de grau 2

ii

iii

ii

ii

ii

i

iiiiiiiii

iiiiiiiiiii

iiiiiiii

iiiiiiiii

iiiiiiii

iiiiii

zy

zyx

zx

zy

zx

z

yyxyxyyxy

yxyxyxyxi

yxyx

yxyxxi

yxxx

yyxyxyyxy

yxyxxi

yxxx

yyxxyxn

b

b

b

b

b

b

2

2

1

4322322

322322

2234232

3222

2232

22

5

4

3

2

1

0

17

Cuidados:

procurar tecer considerações apenas em relação à área coberta pelos pontos evitando as extremidades dos mapas, pois a extrapolação pode apresentar distorções;

o número de pontos deve ser maior que o número de coeficientes do polinômio a ser calculado;

o arranjo dos pontos, ainda que irregular, deve ser casual e razoavelmente bem distribuído, evitando agrupamentos;

18

Quando da inversão da matriz, por programas em microcomputador, podem ocorrer problemas com os resultados obtidos para superfícies de mais alto grau, isso porque em sistemas com valores de diversos dígitos, tipo UTM, a precisão computacional se deteriora exigindo formato de dupla precisão.

Mesmo assim podem ocorrer limitações e, então, a solução é a transformação das coordenadas xi e yi, conforme as equações, que fornecem valores para as coordenadas entre 0 e 1 e não modifica a forma das superfícies:

minmax

min*xx

xxx i

minmax

min*yy

yyy i

19 20

6

Verificação do ajuste das superfícies: coeficiente de determinação (R2)

Proporção da variação total da variável dependente “zi” que é explicada pela variação das variáveis independentes “xi” e “yi”

Variação total dos dados: SQT = Z2 – (Z)2/n Variação devido à superfície calculada: SQP = Z*2–

(Z*)2/n Variação devido aos resíduos: SQR = SQT - SQP

Porcentagem de ajuste da superfície: R2 = (SQP/SQT)100

O coeficiente de correlação “r” indica a relação entre

variáveis e “r2” indica o quanto uma variável “explica” a outra, ou quanto a superfície calculada se ajusta aos dados espaciais originais.

21

Superfícies de tendência

R2 = 45.42 %

R2 = 92.72 % R2 = 82.11 %

Linear

Quadratic Cubic

Superfície original com pontos de amostragem

22

Exemplo

23 Equação do plano: Yi = -621 – 4.78X1 – 1.96X2

Y1 = -621 -4.78(10.0 – 1.96(17.0) = -606.6

24

7

Superfície de grau 1

25

Resíduos positivos e negativos

26

Exemplos

27

Amostragem/Rio Paraiba: plancton

0 500 1000 1500 2000 2500

0

50

100

28

8

Superfície linear

0 500 1000 1500 2000 25000

50

100

0 500 1000 1500 2000 25000

50

100

29

Resíduos da superfície de tendência

0 500 1000 1500 2000 25000

50

100

30

Dengue na área urbana de Rio Claro/SP (1998-2002)

No município de Rio Claro/SP a incidência da dengue aumentou de menos que 5 casos por 100.000 habitantes nos anos de 1998 e 1999 para 349 casos/100.000 hab. no ano de 2002, num total de 588 casos confirmados

Entre as áreas com ocorrência da dengue destaca-se a região nas proximidades do cemitério público São João Baptista e nas proximidades da rodovia estadual Washington Luís

31

Área urbana de Rio Claro/SP

32

9

Foi verificado para o ano de 2002 um total de 598 notificações positivas com uma taxa de incidência da ordem de 349 casos/100.000 habitantes.

33

Superfície de tendência de 1o grau para incidência do dengue (casos por 10.000 habitantes)para 2002.

232000 234000 236000 238000 240000

7514000

7516000

7518000

7520000

7522000

7524000

7526000

-25

-20

-15

-10

-5 0 5 10

15

20

25

30

35

40

45

50

55

60

65

70

75

Km

Escala Gráfica

Superfície de tendência de 1o. grau (Incidência casos/10.000 hab)

Legenda

Cemitério

Rodovia

Área Urbana

0 1000 2000

34

Mapa de resíduos da superfície de tendência linear

232000 234000 236000 238000 240000

7514000

7516000

7518000

7520000

7522000

7524000

7526000

-15

0

0 15

0

30

0

45

0

60

0

75

0

Resíduos da superfície de tendência de 1o. grau

0 1000 2000 Km

Escala Gráfica

Legenda

Cemitério

Rodovia

Área Urbana

35

Regressão polinomial (SURFER)

Usar a matriz de dados do exercício 02 (100 pontos de amostragem e variável Cd)

36

10

37

Cálculo da superfície linear

Entrar em Grid/Data e, em seguida, escolher a opção Gridding Method/ Polynomial Regression e em Options o grau da superfície desejada.

Caso queira gravar o arquivo com os valores do reticulado com um nome especial, faze-lo usando Browse.

38

Impressão da superfície

Entrar em Map/Contour e escolher o arquivo *.grd recem calculado.

Em seguida, na janela Contour Map decidir sobre Fill Contours, Color Scale, Smooting, Level, Fill e Label.

O resultado sera um arquivo *.srf, que poderá ser gravado e impresso

39 40

11

Cálculo e impressão do mapa de resíduos

Entrar em Grid/Residuals e escolher o arquivo *.grid e,

em seguida, o correspondente arquivo *. dat.

Na janela Grid Residuals aparecera a informação Store residuals in column [ ].

Abrir a janela Worksheet e regravar o arquivo *.dat, agora com os valores residuais calculados.

Abril a janela Plot, e em seguida Grid.

Na janela Gridding method escolher em Data Columns, como variável Z, a coluna com os valores residuais e em Gridding Method um algoritmo para a confecção do mapa de valores residuais. Por exemplo Minimum Curvature ou Natural Neighbor.

Para a impressão do mapa de resíduos seguir os mesmos passos anteriormente descritos em “Impressão da superfície”. 41

Mínima curvatura

42

Vizinho natural e polígonos de Thiessen

1 – unir todos os

pares de pontos

com segmentos

de recta

• unir todos os

pares de pontos

com segmentos

de reta

• traçar a

perpendicular a

cada segmento

de reta

Polígono de

Thiessen

Ao ser adicionado um novo ponto, os polígonos se modificam. A área associada a esse ponto é “emprestada” das existentes. O interpolador usa medias ponderadas, onde os pesos são proporcionais às áreas emprestadas. 43

Vizinho natural

44

12

45