Regressão Linear
Introdução
A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão linear.
Objectivos da regressão linear:
• Mostrar de que forma as variáveis independentes explicam as variáveis dependentes.
• Fazer previsões sobre as variáveis dependentes a partir dos valores das independentes.
Procedimentos
Deve construir-se um quadro – diagrama de dispersão – a partir dos pares de valores (X,Y) de variáveis independente e dependente.
Funções do diagrama de dispersão:
• Ajudar a determinar se existe relação entre as variáveis.• Permitir identificar a equação matemática mais apropriada para
descrever essa relação (linear, exponencial, logarítmica, potência, etc.).
Relação linear
A relação linear entre duas variáveis pode ser descrita através da equação:
Em que:
Y = variável dependenteX = variável independente = variável residual (inclui factores exteriores ao modelo e erros de
medição) = parâmetro ordenada na origem = parâmetro declive
XY .
Relação linear
Cada valor observado para a variável dependente pode ser decomposto numa soma de três factores:
= um valor constante.
X = o efeito da variável independente.
= o efeito de uma variável residual, que impede uma relação linear perfeita entre X e Y.
Recta de regressão
O método dos mínimos quadrados permite o ajustamento de uma linha recta aos dados observados, de modo a minimizar os efeitos da variável residual.
A recta ajustada a um conjunto de valores amostrais terá a forma:
XY .ˆˆˆ
Onde os efeitos da variável residual foram anulados.
Parâmetros
são os estimadores dos parâmetros e .
Calculam-se do seguinte modo:
XY .ˆˆ
ˆ e ˆ
22ˆ
ii
iiii
XXn
YXYXn
Y. e X de médios valoresos são e YX
Parâmetros
pode também calcular-se como:
Onde:
2
ˆi
ii
xyx
XXx ii YYy ii
Exemplo
Pretende ajustar-se um modelo de regressão linear simples aos dados observados para 10 consumidores do sexo masculino da cidade de Lisboa, referentes aos seus rendimentos médios mensais (variável independente) e às despesas mensais em bebidas alcoólicas (variável dependente).
ConsumidorRendimento mensal (X)
Despesas mensais em bebidas alcoólicas (Y) X.Y X2
1 750 85 63750 5625002 800 85 68000 6400003 600 65 39000 3600004 550 60 33000 3025005 850 80 68000 7225006 950 95 90250 9025007 700 60 42000 4900008 750 80 60000 5625009 800 80 64000 640000
10 650 60 39000 422500Total ( ) 7400 750 567000 5605000Média 740 75
Consulte esta tabela
Exemplo
Efectua-se o cálculo dos parâmetros:
222 7400560500010750740056700010ˆ
ii
iiii
XXn
YXYXn
093,0ˆ
163,6740093,075.ˆˆ XY
Interpretação dos resultados
A estimativa encontrada para o parâmetro significa que, independentemente do rendimento mensal auferido, os consumidores masculinos da cidade de Lisboa gastam 6,16 € em bebidas alcoólicas mensalmente.
A estimativa de 0,093 para o parâmetro indica que, por cada 100€ de variação no rendimento dos consumidores, as despesas em bebidas alcoólicas variam 9,3€, estando as duas variáveis associadas positivamente, ou seja, um aumento no rendimento implica um aumento no consumo de bebidas alcoólicas.
Coeficiente de correlação
O coeficiente de correlação é uma medida do grau de associação linear entre as duas variáveis (dependente e independente). É obtido a partir da relação entre o desvio explicado e o desvio total.
Coeficiente de determinação
A relação directa entre o desvio explicado e o desvio total é o coeficiente de determinação, que indica o grau de aderência do ajustamento feito através do método de mínimos quadrados. Varia entre 0% (mínimo) e 100% (máximo).
2
2
2ˆ
Y de totalVariaçãoY de explicada Variação
YY
YYR
i
i
Coeficiente de correlação de Pearson
O coeficiente de correlação linear r (raiz quadrada positiva do coeficiente de determinação) é uma medida do grau de associação linear entre variáveis. Toma valores entre –1 e +1.
2222 .
iiii
iiii
YYnXXn
YXYXnr
Coeficiente de correlação de Pearson
Um coeficiente de correlação superior a 0,5 (em valor absoluto) mostra uma correlação forte entre as variáveis.
Um coeficiente de correlação inferior a 0,5 (em valor absoluto) mostra uma correlação fraca entre as variáveis.
SPSS
No SPSS, os dados deverão ser introduzidos da seguintes forma:
Depois, seleccionar nos menus:
Analyze Regression Linear
Consulte esta tabela
SPSS
Seleccionar as variáveis dependente e independente:
SPSS
Obtém-se o seguinte quadro de respostas:Coefficientsa
6,163 13,463 ,458 ,659,0930 ,018 ,877 5,173 ,001
(Constant)Rendimento mensal
Model1
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: Despesas mensais em bebidas alcoólicasa.
De onde se extraem os valores de 6,163 e 0,093 para e , respectivamente.
Consulte esta tabela
Declive Ordenada na origem
SPSS - Gráfico
Na barra de menus escolher:
Graphs Scatter… Seleccionar Simple e premir Define. Seleccionar a variável dependente para o eixo Y. Seleccionar a variável independente para o eixo X. Em Label Cases by colocar o nome da variável que vai
identificar os pontos nos gráficos.
SPSS - Gráfico
A janela deverá ser preenchida da seguinte forma:
SPSS - Gráfico
Para identificar os pontos, editar o gráfico e usar a opção Point ID.
O resultado é o seguinte:
Rendimento mensal
1000900800700600500
Des
pesa
s m
ensa
is e
m b
ebid
as a
lcoó
licas
100
90
80
70
60
50
Rui
IvanSérgio
Gaspar
José
Pedro
João
Eusébio
ManuelAntónio
SPSS – Regra de regressão
Para visualizar a recta de regressão, escolher na barra de menus:
Chart Options…
Em Fit Line escolher Total.
Em Fit Options escolher Linear regression. Para visualizar o erro quadrático, escolher na barra de menus:
Chart Options…
Em Fit Options escolher Display R-square in legend.
SPSS – Escala
Para alterar a gama de valores representados, escolher na barra de menus:
Chart Axis…
• Para a gama do eixo X, escolher X scale. Modificar, então, os valores mínimo e máximo de Range.
• Para a gama do eixo Y, proceder do mesmo modo.
SPSS – Gráfico
Rendimento mensal
10009008007006005004003002001000
Des
pesa
s m
ensa
is e
m b
ebid
as a
lcoó
licas
100
90
80
70
60
50
40
30
20
10
0 Rsq = 0,7698
Rui
IvanSérgio
Gaspar
José
Pedro
JoãoEusébio
ManuelAntónio
Ordenada na origem
Os valores previstos pela recta são diferentes dos valores reais para cada caso. A diferença entre os dois constitui o valor residual. O SPSS calcula os valores previstos pelo modelo linear, assim como os valores residuais.
SPSS – Valores previstos e valores residuais
Na caixa de diálogo Linear Regression escolher a opção Save. Em Predicted Values e Residuals seleccionar as opções
Unstandardized.
SPSS – Valores previstos e valores residuais
Premir, depois, o botão Continue.
SPSS – Valores previstos e valores residuais
São geradas as variáveis pre_1 e res_1, respectivamente, com os valores previstos e residuais para cada caso. É possível visualizar os valores previstos junto dos valores reais.
Na barra de menus escolher:
Analyze Reports Case Summaries… Seleccionar as variáveis a analisar e movê-las para a lista de
variáveis.
Case Summariesa
85 75,93023 9,0697785 80,58140 4,4186065 61,97674 3,0232660 57,32558 2,6744280 85,23256 -5,2325695 94,53488 ,4651260 71,27907 -11,2790780 75,93023 4,0697780 80,58140 -,5814060 66,62791 -6,6279110 10 10
12345678910
NTotal
Despesas mensais embebidas alcoólicas
UnstandardizedPredicted Value
UnstandardizedResidual
Limited to first 100 cases.a.
SPSS – Valores previstos e valores residuais
Valores previstos pelo modelo
Valores residuais
SPSS – Valores previstos e valores residuais
Neste caso, o modelo afirma que:
alcool = 0,0930 rendim + 6,163 expressão a partir da qual se podem calcular os valores previstos pelo modelo e respectivos valores residuais.
SPSS – Coeficiente de correlação
A tabela seguinte, apresentada como um dos resultados do cálculo de regressão linear, dá-nos o valor do coeficiente de correlação (R), assim como o seu quadrado (R Square).
Model Summary
,877a ,770 ,741 6,46Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Rendimento mensala.
Coeficiente de correlação
Proporção de variação explicada pelo modelo
Dois gráficos, para duas situações distintas, podem ter os mesmos valores de declive e ordenada na origem. No entanto, aquele que apresentar o maior coeficiente de correlação é o que melhor se adapta à realidade modelada.
Regressão linear múltipla
Tem como objectivo desenvolver um modelo de relações entre uma variável dependente e um conjunto de variáveis independentes, de tal modo que os valores da primeira possam ser explicados – e que previsões possam ser feitas – com base nos valores do segundo conjunto de variáveis.
...... 3322110 XXXY
Cálculo dos coeficientes de regressão
Para simplicidade de exposição, considere-se que Y depende apenas dos valores assumidos por duas variáveis X1 e X2.
2211 .. XXY
2211 .ˆ.ˆˆˆ XXY
Que dá origem a:
Método dos mínimos quadrados
O método dos mínimos quadrados permite-nos encontrar os estimadores pretendidos. A aplicação deste método fornece-nos três equações para a determinação de
2211 .ˆ.ˆˆ XXY
21ˆ e ˆ ,ˆ
2122
1111 .ˆ.ˆ.ˆ XXXXYX
22221122 .ˆ.ˆ.ˆ XXXXYX
(1)
(2)
(3)
Resolução
A primeira destas equações pode ser escrita como:
2211 .ˆ.ˆˆ XXY (4)
(5)2211 .ˆ.ˆˆ XXY
ou
Resolução
Substituindo (5) em (2), obtém-se:
(6)
2122
11221111 .ˆ.ˆ.ˆ.ˆ.. XXXXXYXnYX
Resolução
Torna-se necessário definir seis somas de quadrados (SS): 2
2222 .XnXSSX
21
211 .XnXSSX
212121 . XXnXXXSSX YXnYXYSSX 111 .YXnYXYSSX 222 .
22 .YnYSSY
Resolução
Usando a notação de soma de quadrados é possível rescrever as equações (6) e (3):
212111 .ˆ.ˆ XSSXSSXYSSX (7)
(8)222112 .ˆ.ˆ SSXXSSXYSSX
A resolução deste sistema de equações permite obter Depois, estima-se o valor de a partir da equação (5).
21ˆ e ˆ
Resumo da resolução
Os passos necessários para encontrar os estimadores de mínimos quadrados, num modelo de regressão linear com duas variáveis independentes, podem ser resumidos do seguinte modo:
Top Related