Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var....

23
entre 2 duas variáveis vimos as situações referent r. quantitativa (lembre que as qualitativas ordinai se como quantitativas discretas) e um categórica (q ável pode ser categorizada) Testes t (independent ANOVA e seus similares não-paramétricos. Abordaremos doravante a situação referente a duas vars. quantitativas, através do coeficiente de correlação e da análise de regressão. iteratura distingue-se a associação (vars. c ção (vars. numéricas). Coeficiente de correlação de Pearson (r): É uma medida (coeficiente) do grau de relação linear entre duas variáveis “quantitativas”.

Transcript of Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var....

Page 1: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se como quantitativas discretas) e um categórica (qualquertipo de variável pode ser categorizada) Testes t (independentes epareados) e ANOVA e seus similares não-paramétricos.

Abordaremos doravante a situação referente a duas vars. quantitativas,através do coeficiente de correlação e da análise de regressão.

Nota: Na literatura distingue-se a associação (vars. categóricasda correlação (vars. numéricas).

Coeficiente de correlação de Pearson (r): É uma medida (coeficiente) do grau de relação linear entre duas variáveis “quantitativas”.

Page 2: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

O coeficiente de correlação varia de -1 a 1, sendo que valores negativos indicam uma relação inversamente proporcio- nal entre as vars., à medida que os valores de uma var. crescem os da outra decrescem.

Valores positivos do coeficiente indicam uma relação diretamente proporcional entre as vars., à medida que os valores de uma var. crescem os da outra também crescem.

Valores próximos a 0 (negativos ou positivos)indicam uma relação deindependência entre as vars. o fato dos valores de uma var. aumentarem ou diminuírem não exerce influência sobre a outra var.

O 1o. passo quando estudamos duas variáveis quantitativas é construir-mos um gráfico conhecido por Diagrama de Dispersão (Scatterplot), que é simplesmente colocar uma var. no eixo X e outra no eixo Y

Exemplo: Mortalidade infantil X Percentual de mães com pré-natal.

Exemplo: Peso X Altura

Exemplo: Nota na prova X Altura.

Page 3: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Na fig. Ao lado temos exemplos de uma cor. positiva perfeita (a), de uma cor. negativa perfeita (b),de uma independênciaperfeita (c) e de uma situação em que rnão é a estatística mais apropriada, quando a relação entre as vars. não é linear A suposição envolvida no cálculo de r éque as vars. tenham distribuição Normal,logo necessário testá-las.

A estimação de r dá-se através da seguinte fórmula:

“Interpretações de r”: (em módulo) r entre 0 e 0.20 : Cor. fraquíssima, independência r entre 0.21 e 0.35: Cor. de fraca a razoável r entre 0.35 a 0.50: Cor. de razoável a boa r entre 0.50 a 0.70: Cor. boa r acima de 0.70: Cor. ótima

Page 4: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Entretanto atenção na utilização destas interpretações, cada estudo tem suas características, o que pode ser um valor de r baixo para determinadocontexto pode ser considerado ótimo em outra situação.

Ao coeficiente de correlação esta associado um teste de hipótese, que testa se o r calculado é ou não diferente de 0. Então H0 : r = 0 X H1: r 0.

A estatística segue uma distribuição t com n-2 g.l.

Portanto devo observar duas coisas: 1) A magnitude da correlação, i. é,o valor de r; 2) Se r é ou não significativo (p 0.05). Depende do NDesejo coeficientes ao menos razoáveis e significativos. r pode ser calculado tanto para amostras independentes como pareadas.

Quero verificar se há relação entre entrea nota da prova e as horas de estudo, sabendo ambas normais. Vamos em‘Graph’, depois em ‘Scatterplot”.

Page 5: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Nesta tela faço a opção pelo gráfico do tipoSimple e OK.

Aloco minha var. nota em Y e horas em X, e OK

O diagrama de dispersão já da umaboa noção que minhas vars. têm uma correlação (positiva), vamos então quantificá-la.

Page 6: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Vamos em ‘Basic statistics’ e daí em‘Correlations’.

Seleciono as duas variáveis e deixo ativa a célula “Display p-values”.e OK.

No output tenho o valor do meu coeficiente de correlação linear de Pearson = 0.70, alto, e o p- value, demonstrando ser r significativamente diferente de 0.

Page 7: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

E quando uma ou as duas vars. não tem distribuição Normal ? Coeficiente de correlação não-paramétrico de Spearman ou Kendall.

O Minitab não calcula Spearman diretamente, para isto temos que realizaro seguinte procedimento:

Tenho as vars X e Y, vou em ‘Manip’ e daí em‘Rank’, este módulo atribuirá os ranks relativos a cadaobservação em uma nova variável (coluna).

Aloco a var. X em ‘Rankdata in:’ e específico a co-luna em que desejo arma-zenar os dados em ‘Store ranks in’ (C9). Faço o mesmo para Y em C10

Page 8: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Agora com minhas ‘novas’ vars. C9e C10 eu efetuo uma correlação dePearson como anteriormente

Correlations: C9; C10Pearson correlation of C9 and C10 = 0,705P-Value = 0,000

Apesar da saída fazer referência ao coeficiente de Pearson realizamos o de Spearman

ATENÇÃO: O coeficiente de correlação mede o grau de correlação entre duas vars, mas absolutamente não significa que necessariamente haja uma relação de causa-efeito entre as vars. Quando encontramos uma correlação que se demonstra importante parao nosso estudo, normalmente desejamos extrair mais informações a respeito da relação entre as vars. , tais como estimar um modelo (equaçãomatemática) que a represente, realizar predições, etc.Um modo de avançarmos mais nesta análise é realizarmos uma Análisede Regressão.

Page 9: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Quando realizo uma regressão linear quero estimar uma função linear ( f(Y) = a + bX) que represente a relação entre duas vars. Então primeiropreciso definir quem será a var. independente (X), a que “tentará”explicar a var. dependente (Y).

Portanto desejo estimar a reta que melhor represente a relação entre as vars. X e Y, ou em outra palavras, o modelo linear (reta) que exprima a reação de Y conforme X varia

Suposições para a realização da análise de regressão:1) Cada observação das variáveis X e Y são independentes uma das outras2) É necessário homocedasticidade das variâncias de Y para cada valor X

Suposiçãocontornável

3)IMPORTANTE: As vars. não precisam ter dist. Normal, mas o erro ou resíduo necessita dist. Normal. Pouco citado.

Page 10: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Então na reta Y = a +bX necessito estimar ‘a’ (B0) conhecido por coeficiente linear ou intercepto e ‘b’(B1) conhecido por coeficiente angular(slope) através do método dos mínimos quadrados.

O método dos mínimosquadrados garante quea reta ajustada tem a propriedade que a soma das distâncias dos pontos (erros ou resíduos) à reta ajustada é a menor possível.

O método mostra que b é estima-do através da seguinte fórmula:

Page 11: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Com a estimativa do slope (B1) posso estimar ‘a’ (B0) através da fórmula:

No Minitab, Stats, ‘Regression’ e ‘Regression’

Na tela do Regression, aloco a var.Ya dependente, a que eu desejo que sejá explicada em “Response”; e a var.X, a independente, a que vai explicar,a preditora, que vai predizer, em “Predictors”. Vou também ativar os módulos“Graphs” e “Results”

Page 12: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Em Graphs deixo ‘Regular’e marco “Residuals vs fits”

Em Results marco a 2a. opção

Interpretando a saída temos em (1) a reta ajustada, em (2) as estimativas dos parâmetros, seu erro padrão e um teste para a sua significância *, demonstrando que ambos são significativos, depois temos a estatística R2** e finalmente em (3) um tabela de ANOVA equivalente à já estudada

Page 13: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

* O teste de hipótese associado ao p-value é H0: estimativa do slope = 0 X H1 Estimativa do slope (b ou B1) 0. Para que a regressão faça sentido, i é, o ajuste seja significativo é necessário REJEITAR H0, o slope têm de ser diferente de 0, senão, se for = 0 temos uma reta como da fig. abaixo.

Neste caso para qualquer valorde X, a reta me fornecerá o mesmo valor de Y, logo não faz sentido este ajuste, não me serve para nada.

** A estatística R2 indica o quanto da variação de Y está sendo ‘explicadapela variação de X em percentual. No nosso caso 47% da variação de Y éexplicada por X.

O slope de 2,52 pode ser interpretado como que a cada aumento de 1 unidade de X equivale a um aumento de 2,5 unidades de Y em média.

Page 14: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

O gráfico que pedimos no móduloGraphs é conhecido por Gráfico dosResíduos e “mostra” a distância decada ponto estimado do ponto observado. É importante que eles estejam aleatoriamente distribuídos em torno do 0 (linha tracejada) pois indica que o nosso ajuste não tem tendências.

Um gráfico de resíduos como o ao lado indica que o ajuste quadrático é o mais indicado. Y =a + bX + cX2.Para cada gráfico de resíduos que foge da aleatoriedade há um motivoe correções no modelo são necessárias.

Page 15: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Existe uma exceção quanto à independência dos valores das vars. X e Y é quando a var. X refere-se ao tempo e são realizadas medidas repetidas nas mesmas unidades amostrais ao longo do tempo, por exemplo, verifico se o volume do rim das gestantes aumenta ao longo do tempo, então observo o volume das mesmas gestantes ao longo de várias semanas gestacionais, ou o desempenho de atletas no tempo conforme os treinamentos vão ocorrendo.Semana Vol 8 15 8 14 12 20 Mesma observação, mesma unidade amostral 12 22 16 25 16 22

Lembre-se sempre de verificar o diagrama de dispersão para ver se é mesmo a reta o melhor ajuste, do mesmo modo pode-se ajustar modelos quadráticos, exponenciais, logísticos, ...

Page 16: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Tudo o que foi visto referia-se a uma relação linear entre as duas variáveis, porém nem sempre a relação entre 2 vars. é linear, ela pode seguir outro pa- drão: quadrática, cúbica, exponencial, etc...

Quadrático: Y = a + bX + cX²

Exponencial: Y = e↑(a + bX)

No Minitab vamos em ´Regression´ depois em “Fitted Line Plot.”

Page 17: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Nesta tela colocamos na var. respos-ta (dependente) a var. consumo, e navar. preditora (independente) a var. temperatura. O interesse é verificar como o consumo de energia de umamáquina varia, depende, da tempera-tura.

Inicialmente testamos um modelo linear, para isso basta clicar em ´Linear´ no “Type of Regression Model”. E OK.

No output dos resultados temos um R² = 0% e um p = 0.67, portanto o ajuste linear não é adequado.

No output gráfico temos a reta ajusta-da, onde fica claro que o modelo line-ar não é indicado para esta relação.

Page 18: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Fazendo a opção pelo modelo quadráticotemos:

No output de resultados temos a equação estimada (Consumo = 128,7 – 13,1*Tem + 0.328*Temp²), o R² = 73,4% , um p = 0.004 demonstrando que o ajuste qua- drático foi bastante significativo.

No output gráfico verificamos que o ajuste quadrático realmente é bastante representativo da relação entre consumo e tempo.

Page 19: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Fazendo a opção pelo modelo cúbico temos: No output temos a equação estimada, o R² = 84.0% , e o “p“ do modelo (0.003)demonstrando ser o mesmo significativo.

Abaixo temos o gráfico do modelo cúbico estimado.

Observe que no último quadro da telade resultados, temos uma tabela com probabilidades para o linear (0.67), oquadrático (0.001), e o cúbico (0.055),com base nesta tabela escolhemos o modelo quadrático como modelo final.O ganho do R² do cúbico para o qua-drático ( de 73,4% para 84%,0) é pou-co p/ justificar a inclusão de um ele-mento a mais na equação.

Page 20: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Normalmente, quando temos dois modelos visando esclarecer uma relaçãoentre duas vars., se não há um ganho considerável de R² e de “p” opta-sepelo modelo mais simples, aquele que possuir menos ´elementos´na sua forma, na sua equação. Como visto anteriormente, podemos estar interessados em analisar o efeito de mais de uma variável independente sobre a var. dependente.Multivariada Tudo o que foi dito anteriormente sobre análise multivariada na aula de Anova é válido aqui,a diferença é que nossas vars. independentes são vars. numéricas ou qualitativas ordinais, quando não categorizadas. Nesta situação também pode-se testar a interação, mas é menos usual do que quando temos vars. categorizadas.

Deseja-se estudar a influência dasvars. idade, e9 e e10 sobre a variável Etotal. No módulo da “Regression”alocamos as variáveis independentesem “Predictors” e a dependente em“Response”. E OK.

Page 21: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

No output temos a equação estimada:Etot = 22.2 + 0.27*Idade + 1.66*e9 + 2.01*e10.Temos uma tabela da Anova para o mo-delo completo (p < 0.001); o teste de hi-pótese a que se refere o p-value é quepelo menos um dos coeficientes das vars.preditoras é significativamente diferentede 0.

Na tabela do meio temos as estimativas dos coeficientes de cada variável,seus respectivos erros padrões e um teste de significância para cada coefici-ente. Temos ainda um R² = 41.1% Podemos notar que a var. Idade não está contribuindo para o modelo, logopodemos realizar uma nova análise retirando a Idade do rol de vars. predito-ras.

Basta ir no módulo regressão e retirar Idade a variável Idade e executar novamente.

Page 22: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

No novo output temos a nova equaçãosem Idade. Observe que o modelo con-tinuou bastante significativo (p do mo-delo total < 0.001); o R² não sofreu al-teração, o que demonstra que Idade realmente não acrescentava nada na´explicação’ de Etotal

Na tabela do meio verificamos que as vars. que permaneceram no modelo têm todas p-value significativos, ou seja, contribuem para o modelo, por-tanto encerro minha análise com um modelo onde todas as vars. são sig-nificativas. Etotal = 27,9 +1.67*e9 + 2.01*e10.

Page 23: Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se.

Neste tipo de análise também é possível verificar a interação entre duas ou vars. independentes, mas não é muito comum encontrarmos. A interação significativa aqui, como na Anova, indica que a relação entre uma var. de- pendente e a var. independente varia conforme os valores da outra var. dep.

Tal qual na Análise de Variância, podemos ter a situação em que há muitas variáveis independentes. Pode-se verificar o coef. de correlação de cada uma das vars. independen-tes com a var. independente e selecionarmos aquelas que apresentarem umvalor do coef. de correlação acima de um determinado valor ou aquelas que forem significativas.

Após a seleção das vars. que comporão o modelo inicial pode-se realizar oprocedimento anteriormente visto de, passo a passo, ir excluindo-se as vars.que não forem significativas ( p ≤ 0.05). Passo a passo = Stepwise . Procedimento também fornecido pelo Minitab

Na regressão multivariada pode ocorrer um problema chamado:MULTICOLINEARIDADE: Quando há um forte correlação(r > 0,60) en-tre duas ou mais das variáveis independentes Problemas com as estima-tivas e p-values. Solução é excluir uma (ou mais) das vars. da análise.