Regressão aula
-
Upload
iverson-moya -
Category
Education
-
view
207 -
download
0
Transcript of Regressão aula
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL FACULDADE DE MATEMÁTICA – DEPTº DE ESTATÍSTICA DISCIPLINA: ESTATÍSITCA APLICADA Á ADM II
ANÁLISE DE REGRESÃO LINEAR E CORRELAÇÃO LINEAR
REGRESSÃO LINEAR
1. Objetivos e hipóteses da Análise de Regressão O objetivo principal da análise de regressão é predizer o valor da variável dependente Y dado que seja conhecido o valor da variável independente X. A equação de regressão é a fórmula algébrica pela qual se determina Y. A Análise de Regressão Simples diz respeito à predição de Y por uma única variável X. A Análise de Regressão Múltipla diz respeito à predição de Y por mais de uma variável X ( x1, x2, ....). As hipóteses gerais são: 1. Y é uma variável aleatória obtida de uma amostra; 2. Y e X estão associadas linearmente; 3. homocedasticidade – as variâncias das distribuições condicionais de Y dado X são todas
iguais. Se em conjunto com a análise de regressão, utiliza-se a estimação por intervalo, é necessária a hipótese de que as distribuições condicionais de Y dado X são todas distribuídas normalmente para os valores da população. 2. Diagrama de dispersão É um gráfico no qual cada ponto representa um par de valores (x;y). Os valores de X são colocados no eixo horizontal e Y no vertical. Transformação Linear – se a relação ente X e Y for curvilínea, usa-se logaritmos para transforma-la em linear e aplicar a Análise de Regessão Linear. Para voltar à escala original usa-se o antilogarítmo. Se o diagrama indica uma relação linear, então ajusta-se aos dados uma linha que seja a melhor função ajustante. A localização precisa desta linha é determinada pelo Método dos Mínimos Quadrados (MMQ). Exemplos de diagramas de dispersão:
3. Método dos Mínimos Quadrados (MMQ) A fórmula geral na população é
uxY ++= βα onde =α coeficiente linear ou intercepto-Y; =β coeficiente angular;
u = variações aleatórias. A fórmula geral na amostra é
bxaY += onde a= estimador do coeficiente linear; b= estimador do coeficiente angular; Pelo MMQ, a reta resultante tem duas características importantes: 1. A soma dos desvios verticais dos pontos em relação a reta é zero. 2. A soma dos quadrados desses desvios é mínima. As fórmulas de cálculo para a e b são:
( )
( )nyysyy
nxxsxx
ny.xxysxy
x.byasxxsxyb
2
2
2
2
∑∑
∑∑
∑ ∑∑
−=
−=
−=
−=
=
A estimação de Y deve ser feita apenas dentro do intervalo de variação de X originalmente amostrado. A equação fornece a base de uma estimativa por ponto.
CORRELAÇÃO LINEAR DE PEARSON 1.Objetivos e Hipóteses
A análise de correlação mede o grau de relacionamento entre as variáveis.
Estudaremos a Análise de Correlação Simples, a qual diz respeito à medida entre X e Y. Hipóteses: a. a relação entre X e Y é linear; b. ambas são variáveis aleatórias; c. homocedasticidade; d. as distribuições condicionais de Y dado X têm distribuição Normal; e. as duas distribuições, de X e de Y, têm distribuição Normal na população.
2.O coeficiente de Determinação
2ρ - coeficiente de determinação na população r2 - coeficiente de determinação na amostra O coeficiente de determinação para a amostra é:
Amostra: ∑
∑ ∑
−−+
=22
2
2
)()(
ynyynxybyar
Tem uma leve tendenciosidade positiva. Interpretação: é a proporção da variância de Y explicada pelo conhecimento da
variação de X ( e vice-versa).
3. O coeficiente de correlação
Muito embora o coeficiente de determinação seja relativamente fácil de interpretar, ele não pode ser testado estatisticamente. Contudo, a raiz quadrada do coeficiente de determinação, que é o coeficiente de correlação (r), pode ser testada estatisticamente, pois está incluída em uma estatística de teste que é distribuída segundo uma distribuição t, quando a correlação populacional ρ =0.
Além disso, o sinal aritmético associado com o coeficiente de correlação, que é
sempre o mesmo sinal associado com β na equação de regressão, indica a direção da relação X e Y (positivo=direta; negativo=inversa). Por tais razões o coeficiente de correlação é mais freqüentemente usado como medida de relação entre as variáveis.
O coeficiente de correlação para dados populacionais é:
População: 2ρρ =
O coeficiente de correlação para dados amostrais é:
Amostra: 2rr =
Pode-se elevar o coeficiente de correlação ao quadrado para se obter o coeficiente
de determinação. Fórmula Alternativa para o coeficiente de correlação amostral,
syy.sxxsxyr =
que não requer o conhecimento dos coeficientes a e b da equação de regressão. O
sinal do coeficiente é obtido diretamente, sem necessidade de observar ou calcular a declividade da linha de regressão.
O coeficiente amostral de correlação r tem uma leve tendenciosidade como um estimador de ρ .
4. Significância do coeficiente de correlação Hipóteses:
0:0:
1
0
≠=
ρρ
HH
ou 0:0:
1
0
<≥
ρρ
HH
ou 0:0:
1
0
>≤
ρρ
HH
Se a hipótese nula, ao nível de significância α , for rejeitada podemos concluir que
efetivamente existe uma relação entre as variáveis. A estatística de teste é
212
rnrtc−
−=
com n-2 graus de liberdade na tabela t