Regressão aula

4
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL FACULDADE DE MATEMÁTICA – DEPTº DE ESTATÍSTICA DISCIPLINA: ESTATÍSITCA APLICADA Á ADM II ANÁLISE DE REGRESÃO LINEAR E CORRELAÇÃO LINEAR REGRESSÃO LINEAR 1. Objetivos e hipóteses da Análise de Regressão O objetivo principal da análise de regressão é predizer o valor da variável dependente Y dado que seja conhecido o valor da variável independente X. A equação de regressão é a fórmula algébrica pela qual se determina Y. A Análise de Regressão Simples diz respeito à predição de Y por uma única variável X. A Análise de Regressão Múltipla diz respeito à predição de Y por mais de uma variável X ( x 1 , x 2 , ....). As hipóteses gerais são: 1. Y é uma variável aleatória obtida de uma amostra; 2. Y e X estão associadas linearmente; 3. homocedasticidade – as variâncias das distribuições condicionais de Y dado X são todas iguais. Se em conjunto com a análise de regressão, utiliza-se a estimação por intervalo, é necessária a hipótese de que as distribuições condicionais de Y dado X são todas distribuídas normalmente para os valores da população. 2. Diagrama de dispersão É um gráfico no qual cada ponto representa um par de valores (x;y). Os valores de X são colocados no eixo horizontal e Y no vertical. Transformação Linear – se a relação ente X e Y for curvilínea, usa-se logaritmos para transforma-la em linear e aplicar a Análise de Regessão Linear. Para voltar à escala original usa-se o antilogarítmo. Se o diagrama indica uma relação linear, então ajusta-se aos dados uma linha que seja a melhor função ajustante. A localização precisa desta linha é determinada pelo Método dos Mínimos Quadrados (MMQ). Exemplos de diagramas de dispersão:

Transcript of Regressão aula

Page 1: Regressão aula

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL FACULDADE DE MATEMÁTICA – DEPTº DE ESTATÍSTICA DISCIPLINA: ESTATÍSITCA APLICADA Á ADM II

ANÁLISE DE REGRESÃO LINEAR E CORRELAÇÃO LINEAR

REGRESSÃO LINEAR

1. Objetivos e hipóteses da Análise de Regressão O objetivo principal da análise de regressão é predizer o valor da variável dependente Y dado que seja conhecido o valor da variável independente X. A equação de regressão é a fórmula algébrica pela qual se determina Y. A Análise de Regressão Simples diz respeito à predição de Y por uma única variável X. A Análise de Regressão Múltipla diz respeito à predição de Y por mais de uma variável X ( x1, x2, ....). As hipóteses gerais são: 1. Y é uma variável aleatória obtida de uma amostra; 2. Y e X estão associadas linearmente; 3. homocedasticidade – as variâncias das distribuições condicionais de Y dado X são todas

iguais. Se em conjunto com a análise de regressão, utiliza-se a estimação por intervalo, é necessária a hipótese de que as distribuições condicionais de Y dado X são todas distribuídas normalmente para os valores da população. 2. Diagrama de dispersão É um gráfico no qual cada ponto representa um par de valores (x;y). Os valores de X são colocados no eixo horizontal e Y no vertical. Transformação Linear – se a relação ente X e Y for curvilínea, usa-se logaritmos para transforma-la em linear e aplicar a Análise de Regessão Linear. Para voltar à escala original usa-se o antilogarítmo. Se o diagrama indica uma relação linear, então ajusta-se aos dados uma linha que seja a melhor função ajustante. A localização precisa desta linha é determinada pelo Método dos Mínimos Quadrados (MMQ). Exemplos de diagramas de dispersão:

Page 2: Regressão aula

3. Método dos Mínimos Quadrados (MMQ) A fórmula geral na população é

uxY ++= βα onde =α coeficiente linear ou intercepto-Y; =β coeficiente angular;

u = variações aleatórias. A fórmula geral na amostra é

bxaY += onde a= estimador do coeficiente linear; b= estimador do coeficiente angular; Pelo MMQ, a reta resultante tem duas características importantes: 1. A soma dos desvios verticais dos pontos em relação a reta é zero. 2. A soma dos quadrados desses desvios é mínima. As fórmulas de cálculo para a e b são:

( )

( )nyysyy

nxxsxx

ny.xxysxy

x.byasxxsxyb

2

2

2

2

∑∑

∑∑

∑ ∑∑

−=

−=

−=

−=

=

A estimação de Y deve ser feita apenas dentro do intervalo de variação de X originalmente amostrado. A equação fornece a base de uma estimativa por ponto.

Page 3: Regressão aula

CORRELAÇÃO LINEAR DE PEARSON 1.Objetivos e Hipóteses

A análise de correlação mede o grau de relacionamento entre as variáveis.

Estudaremos a Análise de Correlação Simples, a qual diz respeito à medida entre X e Y. Hipóteses: a. a relação entre X e Y é linear; b. ambas são variáveis aleatórias; c. homocedasticidade; d. as distribuições condicionais de Y dado X têm distribuição Normal; e. as duas distribuições, de X e de Y, têm distribuição Normal na população.

2.O coeficiente de Determinação

2ρ - coeficiente de determinação na população r2 - coeficiente de determinação na amostra O coeficiente de determinação para a amostra é:

Amostra: ∑

∑ ∑

−−+

=22

2

2

)()(

ynyynxybyar

Tem uma leve tendenciosidade positiva. Interpretação: é a proporção da variância de Y explicada pelo conhecimento da

variação de X ( e vice-versa).

3. O coeficiente de correlação

Muito embora o coeficiente de determinação seja relativamente fácil de interpretar, ele não pode ser testado estatisticamente. Contudo, a raiz quadrada do coeficiente de determinação, que é o coeficiente de correlação (r), pode ser testada estatisticamente, pois está incluída em uma estatística de teste que é distribuída segundo uma distribuição t, quando a correlação populacional ρ =0.

Além disso, o sinal aritmético associado com o coeficiente de correlação, que é

sempre o mesmo sinal associado com β na equação de regressão, indica a direção da relação X e Y (positivo=direta; negativo=inversa). Por tais razões o coeficiente de correlação é mais freqüentemente usado como medida de relação entre as variáveis.

O coeficiente de correlação para dados populacionais é:

População: 2ρρ =

O coeficiente de correlação para dados amostrais é:

Page 4: Regressão aula

Amostra: 2rr =

Pode-se elevar o coeficiente de correlação ao quadrado para se obter o coeficiente

de determinação. Fórmula Alternativa para o coeficiente de correlação amostral,

syy.sxxsxyr =

que não requer o conhecimento dos coeficientes a e b da equação de regressão. O

sinal do coeficiente é obtido diretamente, sem necessidade de observar ou calcular a declividade da linha de regressão.

O coeficiente amostral de correlação r tem uma leve tendenciosidade como um estimador de ρ .

4. Significância do coeficiente de correlação Hipóteses:

0:0:

1

0

≠=

ρρ

HH

ou 0:0:

1

0

<≥

ρρ

HH

ou 0:0:

1

0

>≤

ρρ

HH

Se a hipótese nula, ao nível de significância α , for rejeitada podemos concluir que

efetivamente existe uma relação entre as variáveis. A estatística de teste é

212

rnrtc−

−=

com n-2 graus de liberdade na tabela t