Probabilidade II - DE/UFPBtarciana/Probabilidade2/Aula13.pdf · Quando duas variáveis aleatórias...

21
Probabilidade II Departamento de Estatística Universidade Federal da Paraíba Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 1 / 21

Transcript of Probabilidade II - DE/UFPBtarciana/Probabilidade2/Aula13.pdf · Quando duas variáveis aleatórias...

Probabilidade II

Departamento de Estatística

Universidade Federal da Paraíba

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 1 / 21

Covariância

Quando duas variáveis aleatórias X e Y não saõ independentes, geralmente é deinteresse avaliar quão fortemente estão relacionadas uma com a outra.

A covariância dá uma ideia da dispersão dos valores da variável bidimensional(X ,Y ) em relação ao ponto (E(X),E(Y )).

Definição 13.1 Seja (X ,Y )uma variável aleatória bidimensional. A covariância deX e Y que denotaremos Cov(X ,Y ) é definida por:

Cov(X ,Y )= E[(X −E(X))(Y −E(Y ))]

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 2 / 21

Covariância

Para X e Y discretas:

Cov(X ,Y )=∑

x

y

(x −µX )(y −µy)p(x ,y)

Para X e Y contínuas:

Cov(X ,Y )=

∫ ∞

−∞

∫ ∞

−∞(x −µX )(y −µy)f (x ,y)dxdy

Reescrevendo a equação da covariância:

Cov(X ,Y )= E(XY )−E(X)E(Y )

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 3 / 21

CovariânciaIMPORTANTE:

A covariância será positiva se as duas variáveis tendem a variar nomesmo sentido, isto é, valores de X acima da sua média estão associados avalores de Y acima de sua média, o mesmo ocorrendo para valores deambos inferiores à média.

A covariância será negativa se valores acima da média de uma variávelestão associados a valores inferiores à média da outra.

Lema 13.1:Se X e Y são variáveis aleatórias independentes Cov(X ,Y )= 0

DEMONSTRAÇÃO:

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 4 / 21

CovariânciaExemplo 1: Voltando ao exemplo 1 da aula sobre Independência, temos aseguinte distribuição de probabilidade conjunta para X = valor dedutível naapólice de automóvel e Y = valor dedutível na apólice residencial. Obtenha aCov(X ,Y ).

yp(x ,y) 0 100 200

x 100 0.20 0.10 0.20250 0.05 0.15 0.30

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 5 / 21

CovariânciaExemplo 1:

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 6 / 21

CovariânciaExemplo 2: Uma empresa de nozes comercializa latas de nozes mistas comamêndoas, castanha de caju e amendoins. Suponha que o peso líquido de cadalata seja exatamente 1 libra, mas que a contribuição do peso de cada tipo de nozseja aleatória. Como os três pesos devem somar 1, um modelo de probabilidadeconjunta para quaisquer dois forece todas as informações necessárias sobre opeso do terceiro tipo. Sejam X = peso das amêndoas em uma lata selecionada eY = peso das castanhas de caju. Obtenha a Cov(X ,Y ) sabendo que a f.d.p.conjunta de (X ,Y ) é

f (x)=

¨

24xy , 0≤ x ≤ 1,0≤ y ≤ 1,x + y ≤ 1;0 c.c.;

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 7 / 21

IndependênciaExemplo 2:

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 8 / 21

Correlação

Pode parecer que a relação no exemplo do seguro seja bastante forte, uma vezque Cov(X ,Y )= 1875, enquanto Cov(X ,Y )=− 2

75 , no exemplo das castanhas,parece uma relação fraca.

O valor da covariância entre duas variáveis aleatórias depende das unidades demedida adotadas para medir essas variáveis.

No exemplo do seguro, se tivéssemos expressado os valores em centavos,teríamos Cov(X ,Y )= 18.750.000.

Por outro lado, se tivéssemos expressado os valores em centenas de reais,teríamos Cov(X ,Y )= 0.1875.

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 9 / 21

Correlação

A deficiência da covariância é que seu valor calculado depende diretamente dasunidades de medida.

Assim, é de interesse introduzir um conceito cujo valor seja independente daunidade medida.

Definição 13.1: O coeficiente de correlação das variáveis aleatórias X e Y ,denotado por ρX ,Y , é definido por:

Corr(X ,Y )=ρX ,Y =Cov(X ,Y )

σXσY

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 10 / 21

Correlação

Proposição 13.1:

1. Se a e c são ambos positivos ou negativos,

Corr(aX +b,cY +d)=Corr(X ,Y )

2. Para quaisquer duas variáveis X e Y , −1≤Corr(X ,Y )≤ 1.

A proposição 1 acima mostra que ρ corrige a deficiência da Cov(X ,Y ), ou seja,o coeficiente de correlação não é afetado por mudança linear das unidades demedida.

A proposição 2 acima sugere como reconhecer a existência de uma relação(linear) forte. A relação positiva mais forte é evidenciada por ρ=+1, enquanto arelação negativa mais forte é evidenciada por ρ=−1.

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 11 / 21

Correlação

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 12 / 21

Correlação

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 13 / 21

Correlação

SUGESTÃO AVALIAÇÃO DE ρ

|ρ| ≥ 0.8→ Relação Linear Forte

0.5< |ρ|< 0.8→ Relação Linear Moderada

|ρ| ≤ 0.5→ Relação Linear Fraca

O coeficiente de correlação não é, na verdade, uma medida geral de força deuma relação.

Proposição 13.2:

1. Se X e Y são independentes, então ρ= 0, porém ρ= 0 nãoimplica independência.

2. ρ= 1 ou ρ=−1 se e somente se Y = aX +b para quaisquernúmeros a e b com a 6= 0.

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 14 / 21

Correlação

Esta proposição diz que ρ é uma medida do grau da relação linear entre X e Y , esomente quando as duas variáveis estiverem perfeitamente relacionadas deforma linear é que ρ assumirá os valores extremos positivo ou negativo.

Um ρ menor que 1 em valor absoluto indica somente que a relação não écompletamente linear, mas que ainda pode haver uma relação não-linearbastante forte.

ρ= 0 não implica que X eY sejam independentes, mas apenas que há ausênciacompleta de relação linear.

Quando ρ= 0, X e Y são ditos não-correlacionados.

Duas variáveis podem ser não-correlacionadas, porém altamente dependentes,pois pode existir uma relação não-linear forte.

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 15 / 21

CorrelaçãoExemplo 3: Determine os coeficientes de correlação das variáveis dos exemplos1 e 2. Interprete os resultados.

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 16 / 21

CorrelaçãoExemplo 3:

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 17 / 21

CorrelaçãoExemplo 4: Sejam X e Y V.A. discretas com função de probabilidade conjuntadada a seguir. Obtenha o coeficiente de correlação e interprete so resultados.

p(x ,y)=

¨

14 , (x ,y)= (−4,1),(4,−1),(2,2),(−2,−2);0, c.c.

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 18 / 21

CorrelaçãoExemplo 4:

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 19 / 21

Correlação

O valor de X é determinado completamente pelo valor de Y e vice-versa, demodo que as duas variáveis são totalmente dependentes.

Embora haja perfeita dependência, também há ausência completa de qualquerrelação linear.

Um valor de ρ próximo de 1 não implica necessariamente que aumentar o valorde X cause um aumento em Y .

Implica somente que valores grandes de X estão associados as valores grandesde Y .

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 20 / 21

Correlação

Por exemplo: na população de crianças, o tamanho do vocabulário e o número decáries são correlacionadas de forma positiva, mas certamente não é verdade queas cáries façam o vocabulário aumentar.

Os valores de ambas as variáveis tendem a aumentar com a idade das crianças,uma terceira variável.

Associação (uma alta correlação) não é a mesma coisa que causa.

Prof. Tarciana Liberal (UFPB) Aula Covariância e Coeficiente de correlação 11/13 21 / 21