Correlação e Regressão

11
5 CORRELAÇÃO E REGRESSÃO 5.1 - Introdução Muitas vezes, na prática, necessitamos estudar o relacionamento de duas variáveis, coletadas como pares de valores, para resolver questões, como por exemplo: O sucesso de um emprego pode ser predito com base no resultado de testes; Quanto maior for a produção, maior será o custo total; Quanto maior for a idade de um automóvel, menor será seu preço de venda. Problemas como esses podem ser estudados através de uma análise de correlação simples, onde podemos determinar a “força” do relacionamento entre estas duas variáveis estudadas. As variáveis estudadas serão: x, denominada de variável independente, e y, denominada de variável dependente. Se o relacionamento entre x e y for consistente e necessitamos fazer uma predição para o valor de y, conhecido um valor de x, através de uma fórmula matemática adequada, podemos aplicar a chamada análise de regressão simples. 5.2 - Diagrama de Dispersão É um gráfico no qual cada ponto plotado representa um par observado de valores para as variáveis estudadas (x, y), num sistema de eixos cartesianos. Através do diagrama de dispersão podemos ter uma idéia do tipo de relação entre as variáveis estudadas. A seguir temos alguns exemplos de diagramas de dispersão.

description

fdsfsdf

Transcript of Correlação e Regressão

Page 1: Correlação e Regressão

5 CORRELAÇÃO E REGRESSÃO5.1 - Introdução

Muitas vezes, na prática, necessitamos estudar o relacionamento de duas variáveis, coletadas como pares de valores, para resolver questões, como por exemplo:

O sucesso de um emprego pode ser predito com base no resultado de testes;Quanto maior for a produção, maior será o custo total;Quanto maior for a idade de um automóvel, menor será seu preço de venda.

Problemas como esses podem ser estudados através de uma análise de correlação simples, onde podemos determinar a “força” do relacionamento entre estas duas variáveis estudadas.

As variáveis estudadas serão: x, denominada de variável independente, e y, denominada de variável dependente.

Se o relacionamento entre x e y for consistente e necessitamos fazer uma predição para o valor de y, conhecido um valor de x, através de uma fórmula matemática adequada, podemos aplicar a chamada análise de regressão simples.

5.2 - Diagrama de DispersãoÉ um gráfico no qual cada ponto plotado representa um par observado de valores para as variáveis

estudadas (x, y), num sistema de eixos cartesianos.Através do diagrama de dispersão podemos ter uma idéia do tipo de relação entre as variáveis estudadas.A seguir temos alguns exemplos de diagramas de dispersão.

5.3 Coeficiente de Correlação LinearMedida do grau de associação (relacionamento) entre duas variáveis estudadas a partir de uma série de

observações. Esta medida é também chamada de coeficiente de correlação de Pearson, em homenagem ao seu criador

e é dada por:

Page 2: Correlação e Regressão

r=n∑ x i y i−(∑ xi) (∑ y i)

√ [n∑ xi2− (∑ x i)

2 ][n∑ y i2− (∑ yi )

2 ]Onde n é o número de pares de valores (x, y) observados e r varia no intervalo −1≤r≤1 , para o mesmo,

temos que:• Valores de r próximos de +1 indicam uma forte correlação positiva entre x e y;• Valores de r próximos de – 1 indicam uma forte correlação negativa entre x e y;• Valores de r próximos de 0 indicam uma fraca correlação positiva ou negativa entre x e y.

A partir dos valores de r, podemos verificar o tipo da correlação existente entre as variáveis estudadas, conforme a seguinte tabela:

Obs.: Usar a equação de regressão somente quando r indicar correlação linear significativa.

Karl PearsonNascimento: 27 de março de 1857, em Londres

Morte: 27 de abril de 1936, em Londres

5.4 Alguns Conceitos

Outliers – pontos muito afastados dos demais.Predição – as equações de regressão podem ser úteis para predizer (estimar) o valor de uma variável, dado um valor determinado da outra variável.Coeficiente Angular (a) – medida da variação que ocorre em uma característica quando outra característica se modifica de uma unidade. Intercepto – coeficiente linear (b) – ponto de intersecção da reta com o eixo das ordenadas (eixo y). Equivale ao valor de y quando x = 0.Equação das Retas de Regressão – funções resultantes do ajuste de uma função linear entre 2 variáveis y e x, define a linha reta que descreve a associação entre duas características e permite estimar o valor de uma medida

Valor de r Correlação0,0 nula

0,0 ----| 0,5 fraca0,5 ----| 0,8 média 0,8 ---- 1,0 forte

1,0 perfeita

Page 3: Correlação e Regressão

pela outra. Para obter a reta de regressão é necessário calcular o Coeficiente angular “a” e o coeficiente linear da reta com o eixo das ordenadas “b”.

Parâmetros da reta y = ax + b (Regressão):

a=n∑ xi y i−(∑ x i) (∑ y i)

n∑ x i2− (∑ x i)

2

e b= y−a x .

Onde: x=

Σxi

n e y=

Σyi

n .

Exemplo. Consideremos as duas variáveis, Pesos e Comprimentos de Ursos (População), cujos dados coletados estão abaixo.

x Comprimento (in.) 53,0 67,5 72,0 72,0 73,5 68,5 73,0 37,0

y Peso (lb) 80 344 416 348 262 360 332 34

Obs.: in. – polegada e lb – libras.

A relação entre as variáveis é evidenciada pela formação de um padrão no Diagrama de Dispersão. Segue abaixo o Diagrama de Dispersão dos dados do problema.

Observando a tabela e o diagrama anteriores desenvolva os itens abaixo.

Page 4: Correlação e Regressão

a) Preencha a tabela abaixo.

Comprimento (x i ) Peso (

y i )x i y i x i

2 y i2

∑ ¿ ________ ∑ ¿ _________ ∑ ¿ ______ ∑ ¿ ______ ∑ ¿ ______

b) Calcule o coeficiente de correlação de Pearson. r = 0,90c) Tire conclusões: ________________ (há ou não há) evidência suficiente para apoiar a existência de uma

correlação linear significativa entre as duas variáveis.d) Encontre a equação da reta ajustada. y = 9,66 x – 351,65e) Se um urso tem comprimento de 71,0 in., prediga seu peso. y = 334,21

EXERCÍCIOS

1. Sejam os seguintes diagramas de dispersão. Determine se há uma correlação linear positiva, uma correlação linear negativa ou se não há correlação entre as variáveis.

Page 5: Correlação e Regressão

2. Um grupo de pessoas fez uma avaliação do peso aparente de alguns objetos. Com o peso real e a média dos pesos aparentes, dados pelo grupo, obteve-se a tabela:

Peso real (x i ) Peso aparente (

y i )x i y i x i

2 y i2

18 10

30 23

42 33

62 60

73 91

97 98

120 159

∑ ¿ ________ ∑ ¿ _________ ∑ ¿ ______ ∑ ¿

______

∑ ¿

______

Com a tabela preenchida, calcule o índice de correlação. r = 0,98

3. Uma amostra de residências selecionadas aleatoriamente, num bairro, foi observada quanto à idade do imóvel (x), em anos, e ao preço de venda (y), em mil reais, resultando:

x i y i x i y i x i2 y i

2

1 100

2 80

3 90

4 15

5 50

6 20

∑ ¿ _______ ∑ ¿ _______ ∑ ¿ _______ ∑ ¿ _______ ∑ ¿ _______

Com os dados da tabela, responda os itens abaixo.a) Estime a reta de regressão. y = – 16,14 x + 115,66b) Calcule o coeficiente de correlação x e y. r = – 0,83

4. Considere os resultados de dois testes, x e y, obtidos por um grupo de alunos da escola A:

x i y i x i y i x i2 y i

2

11 13

14 14

19 18

19 15

22 22

28 17

30 24

31 22

34 24

37 25

∑ ¿ _______ ∑ ¿ _______ ∑ ¿ _______ ∑ ¿

_______

∑ ¿ _______

Com os dados da tabela, calcule o coeficiente de correlação. r = 0,89

Page 6: Correlação e Regressão

5. Pretendendo-se estudar a relação entre as variáveis “consumo de energia elétrica” (x i) e “volume de produção nas empresas industriais” (yi), fez-se uma amostragem que inclui vinte empresas, computando-se os seguintes valores:

∑ x i=11 , 34 , ∑ y i=20 ,72 , ∑ x i2=12,16 , ∑ y i

2=84 , 96 , ∑ xi y i=22 ,13 .

Determine:a) o cálculo do coeficiente de correlação; r = 0,54b) a equação de regressão de y para x; y = 1,81 x + 0,01

6. A variação do valor da UPC (Unidade Padrão de Capital), relativamente a alguns meses de 2009, deu origem à tabela:

Meses x i Valores (R$) (y i )

x i y i x i2 y i

2

Maio 21,75

Junho 21,75

Julho 21,78

Agosto 21,78

Setembro 21,78

Outubro 21,81

Novembro

21,81

∑ ¿

_____

∑ ¿

_____________

∑ ¿

________

∑ ¿

________

∑ ¿

________

Preencha a tabela e responda os itens abaixo.a) calcule o grau de correlação. r = 0,94b) estabeleça a equação de regressão de y sobre x. y = 0,34 x + 8,58c) estime o valor da UPC para o mês de dezembro. R$ 12,66Sugestão: Substitua os meses, respectivamente, por 5, 6, ..., 11.

7. A partir da tabela:

x i y i x i y i x i2 y i

2

1 70

2 50

3 40

4 30

5 20

6 10

∑ ¿ ___________ ∑ ¿ _____________ ∑ ¿ ________ ∑ ¿ _______ ∑ ¿ _______

a) calcule o grau de correlação; r = – 0,99b) determine a reta ajustada; y = – 11,43 x + 76,68c) estime o valor de y para x = 0. y = 76,68

8. Usando uma amostra de 18 elementos casuais um agente estimou o coeficiente de correlação entre x e y em 0,32. O que isso te comunica sobre essas duas variáveis nessa população?

9. Em certa população o coeficiente de correlação entre x e y é – 0,8. O que isso significa?

10. Quando você investiga a relação entre duas variáveis aleatórias contínuas, por que é importante fazer um

Page 7: Correlação e Regressão

gráfico de dispersão dos dados?

11. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (x) e a massa muscular (y).

Idade (xi)Massa muscular

(yi)x i y i x i

2 y i2

71 82

64 91

43 100

67 68

56 87

73 73

68 78

56 80

76 65

65 84

45 116

58 76

45 97

53 100

49 105

78 77

73 73

68 78

∑ ¿ ________ ∑ ¿ _________ ∑ ¿ ________ ∑ ¿ _________ ∑ ¿ _________

Com os dados da tabela, responda os itens abaixo.a) O diagrama de dispersão está construído abaixo, interprete-o.

b) Calcule o coeficiente de correlação linear entre x e y. O que se pode concluir sobre a correlação de posse do valor de r?

c) Ajuste uma reta de regressão para a relação entre as variáveis y: massa muscular (dependente) e x: idade (independente).

d) Considerando a reta estimada dada no item (c), estime a massa muscular média de mulheres com 50 anos.

Page 8: Correlação e Regressão

12. Os dados a seguir correspondem à variável renda familiar e gasto com alimentação (em unidades monetárias) para uma amostra de 25 famílias.

Renda Familiar (xi)

Gasto com Alimentação (yi)

x i y i x i2 y i

2

3 1,5

5 2,0

10 6,0

10 7,0

20 10,0

20 12,0

20 15,0

30 8,0

40 10,0

50 20,0

60 20,0

70 25,0

70 30,0

80 25,0

100 40,0

100 35,0

100 40,0

120 30,0

120 40,0

140 40,0

150 50,0

180 40,0

180 50,0

200 60,0

200 50,0

∑ ¿ _________ ∑ ¿ _________ ∑ ¿ _________ ∑ ¿ _________ ∑ ¿ _________

Faça o que se pede com o auxílio do Excel.a) Faça o diagrama de dispersão e interprete-o. b) Calcular o coeficiente de correlação entre essas variáveis. O que se pode concluir sobre a correlação de

posse do valor de r. r = 0,95c) Obtenha a equação de regressão do gasto com alimentação em função da renda familiar. y = 0,26 x + 5,05

Page 9: Correlação e Regressão

BIBLIOGRAFIA

BUSSAB, Wilton O.; MORETTIN, Pedro A. Estatística Básica. 4ª ed. São Paulo: Atual, 1987.

CRESPO, Antônio Arnot. Estatística Fácil. 18ª ed. São Paulo: Saraiva, 2002.

DOWNING, Douglas; CLARK, Jeffrey. Estatística Aplicada. São Paulo: Saraiva, 1999.

FONSECA, Jairo Simon da; MARTINS, Gilberto Andrade. Curso de Estatística. 6ª ed. São Paulo: Atlas, 1996.

FREUND, John E.; SIMON, Gary. Estatística Aplicada: Economia, Administração e Contabilidade. 9ª ed. Porto Alegre: Bookman, 2000.

HOEL, Paul G. Estatística Elementar. São Paulo: Atlas, 1980.

McCLAVE, James T. Estatística para administração e economia. 10ª ed. São Paulo: Pearson Prentice Hall, 2009.

MONTEIRO FILHO, Gercino. Estatística Prática para Administração e Contábeis. 1ª ed. Goiânia: Gráfica e Editora Vieira Ltda, 1999.

LARSON, Ron. Estatística aplicada. 4ª ed. São Paulo: Pearson Prentice Hall, 2010.

SILVA, Ermes Medeiros da. Et al. Estatística para os curso de Economia, Administração e Ciências Contábeis. 3ª ed. São Paulo: Atlas, v. I, 1999.

SPIEGEL, Murray R. Estatística. 3ª ed. São Paulo: Makron Books, 1996.

SPIEGEL, Murray R. Probabilidade e Estatística. Coleção Schaum. 3ª ed. São Paulo: Pearson Education do Brasil, 2004.

STEVENSON, Willian. Estatística Aplicada à Administração. São Paulo: Harpes & Row, 1981.

TRIOLA, Mário F. Introdução à Estatística. 7ª ed. Rio de Janeiro: LTC, 1999.