5.1 correlaoduasvariaveis 1_20151006145332

34
MEDIDAS DE ASSOCIAÇÃO E CORRELAÇÃO

Transcript of 5.1 correlaoduasvariaveis 1_20151006145332

Page 1: 5.1 correlaoduasvariaveis 1_20151006145332

MEDIDAS DE ASSOCIAÇÃO E CORRELAÇÃO

Page 2: 5.1 correlaoduasvariaveis 1_20151006145332

Mostrar a importância dos conceitos de associação e correlação para o entendimentos dos fatos sociais.

Apresentar as medidas de associação e correlação mais utilizadas.

OBJETIVOS

Page 3: 5.1 correlaoduasvariaveis 1_20151006145332

população amostra

uma variável aleatória: ex. peso

Estatísticas: média, variância desvio padrão, etc.

população amostra

duas variáveis aleatórias: peso e altura, etc

Page 4: 5.1 correlaoduasvariaveis 1_20151006145332

Análise de dados estatísticos na engenharia é a busca de relações entre duas variáveis de uma mesma população.

CONSIDERAÇÕES

Page 5: 5.1 correlaoduasvariaveis 1_20151006145332

Regressão e Correlação são duas técnicas estreitamente relacionadas, que envolvem uma forma de estimação.

Correlação: Mede a força e direção de relacionamento (linear) entre duas variáveis.

Regressão: Estabelece uma equação que descreve o relacionamento em termos matemáticos.

CONCEITOS

1050

9,5

8,5

7,5

6,5

5,5

4,5

3,5

Tempo

Not

a

Diagrama de Dispersão

Page 6: 5.1 correlaoduasvariaveis 1_20151006145332

Comprimento (variável X) e largura (variável Y) de crânios de pessoas da população; Altura (variável X) do pai e altura (variável Y) da filha; Idade (variável X) e a resistência física (variável Y); Comprimento (variável X) e peso dos ursos (variável Y); Gastos em publicidade (variável X) e o faturamento da empresa (variável Y);Idade (variável X) e altura (variável Y) das crianças;Tempo de prática de esportes e ritmo cardíaco;Tempo de estudo e nota na prova;Taxa de desemprego e taxa de criminalidade;Expectativa de vida e taxa de analfabetismo.

A esta relação é dado o nome de correlação

Qual a relação entre:

Page 7: 5.1 correlaoduasvariaveis 1_20151006145332

Dados quantitativos

- contínuos

- discretos

Coeficiente de correlação de Pearson

Dados qualitativos

- ordinais - nominais

(categorias)

Coeficiente de Spearman

Coeficiente de contingência ( qui-quadrado)

Coeficientes de correlação

COEFICIENTES

Page 8: 5.1 correlaoduasvariaveis 1_20151006145332

Relação entre duas ou mais variáveis aleatórias - correlação

Gráfico de dispersão Medida de correlação (coeficiente de correlação)

Correlação

entre duas variáveis aleatórias

Linear (uma reta)

Não linear (parábola, exponencial etc.)

{

Estudaremos apenas a correlação

linear

Estudaremos apenas correlação de duas variáveis

Page 9: 5.1 correlaoduasvariaveis 1_20151006145332

Comprimento X (polegadas) 53,0 67,5 75,0 73,5 68,5 73,0 37,0

Peso Y (libras) 80 344 416 416 262 360 34

Comprimento e peso de ursos machos

Os dados acima, casados em conjunto são conhecidos como dados emparelhados ou bivariados ( no mesmo instante);

Existe correlação entre duas variáveis quando uma delas está, de alguma forma, relacionada com a outra;

A correlação é uma técnica estatística que tem por objetivo investigar se há ou não correlação linear entre duas ou mais variáveis;

EXEMPLO

Page 10: 5.1 correlaoduasvariaveis 1_20151006145332

Pré requisitos para o estudo de correlação

A amostra de dados emparelhados (x, y) deve ser aleatória.

Os pares de dados (x, y) deve ter uma distribuição normal bivariada.

Os dados devem provir de observações emparelhadas em condições semelhantes

altura e peso de um grupo de crianças, por exemplo, o peso de uma criança deve ser medido e registrado no mesmo instante em que é medida e registrada a altura.

PRÉ REQUISITOS

Page 11: 5.1 correlaoduasvariaveis 1_20151006145332

CORRELAÇÃO LINEAR Coeficiente de correlação (produto-momento) de

Pearson (r). O coeficiente de Pearson avalia o quanto duas séries

numéricas repousam sobre uma linha reta, indicando assim o grau de sua associação linear.

Page 12: 5.1 correlaoduasvariaveis 1_20151006145332

se existe ou não alguma associação (relação) entre as variáveis em estudo;a direção da correlação (como valores de Y aumenta ou diminui em função do aumento ou redução de X)a força da correlação (em que “taxa” os valores de Y aumentam ou diminuem em função de X)

e a natureza da correlação (reta, parábola, exponencial, etc.)

y

x

...... .

Não há correlação entre x e y

. .. .

.

..

. ..y

x

..Correlação não linear entre x e y

........

....

. . ..... .

correlação não linear – não será estudado

MÉTODO GRÁFICO QUE AJUDA A AVALIAR:

Page 13: 5.1 correlaoduasvariaveis 1_20151006145332

y

x

... ......

.....

.Correlação positiva entre x e y

y

x

... ......

........ . . .

.

.

Forte Correlação positiva entre x e y

y

xCorrelação positiva perfeita entre x e y

.........

...

.

Correlação positiva:

x cresce y cresce

x diminui y diminui

Correlação linear: uma reta pode ajustar aos dados

r = 1

Admite-se r > 0,7

CONSIDERAÇÕES

Page 14: 5.1 correlaoduasvariaveis 1_20151006145332

y

x

..

Correlação negativa entre x e y

. .. .. .. ...

y

x

..

Forte Correlação negativa entre x e y

.. .. ... . ...

..

.

y

xCorrelação negativa perfeita entre x e y

.. ........

...

.Correlação negativa:

x cresce y diminui

x diminui y cresce

Correlação linear: uma reta pode ajustar aos dados

r = -1

Admite-se r < - 0,7

Page 15: 5.1 correlaoduasvariaveis 1_20151006145332

É conhecido como coeficiente de correlação linear de Pearson ou coeficiente momento- produto de Pearson (em homenagem a Karl Pearson, 1857 – 1936)

yx

n

iii

yx ssn

yyxx

ssYXCovr

.1

))((

.),(

1

xi = valores de x

yi = valores de y

x barra = média dos valores xi

y barra = média dos valores yi

n = número de pares de dados presentes

sx = desvio padrão dos valores xi

sy = desvio padrão dos valores yi

Cov(x,y) = covariância dos valores de x e y

COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON R:

Page 16: 5.1 correlaoduasvariaveis 1_20151006145332

2222 )()(*)()(

))((

yynxxn

yxxynr

Notação para o coeficiente de correlação linearn representa o número de pares de dados presentes;∑ denota a adição dos itens indicados;∑x denota a soma de todos os valores de x;∑x2 indica que devemos elevar ao quadrado cada valor de x e soma os resultados;(∑x)2 indica que devemos somar os valores de x e elevar o total ao quadrado. Não confundir ∑x2 com (∑x)2;∑xy indicar que devemos multiplicar cada valor de x pelo valor correspondente de y e somar então todos esses produtosr representa o coeficiente de correlação linear para uma amostraρ representa o coeficiente de correlação linear para uma população

Arredondamento no meios dos cálculos pode causar erros sérios. Use a memória de sua calculadora para armazenar os resultados intermediários, fazendo o arredondamento somente no final.

Cálculo do coeficiente de correlação linear

Page 17: 5.1 correlaoduasvariaveis 1_20151006145332

ny

ys

nx

xs

nyx

xys

sss

r

yy

xx

xy

yyxx

xy

22

22

)(

)(

.

FÓRMULA ALTERNATIVA PARA r

Page 18: 5.1 correlaoduasvariaveis 1_20151006145332

-1 0 +1

r = -1

há correlação linear negativa perfeita entre as variáveis x e y.

r = +1

há correlação linear positiva perfeita entre as variáveis x e y.

r =0

não há correlação linear entre as variáveis x e y.

O coeficiente de PEARSON varia de -1 a +1.

INTERPRETAÇÃO DO COEFICIENTE DE CORRELAÇÃO

Page 19: 5.1 correlaoduasvariaveis 1_20151006145332

Exemplo: Calcule o coeficiente de correlação linear para os dados emparelhados de pesos e comprimentos dos ursos.Comprimento X (polegadas) 53,0 67,5 72,0 72,0 73,5 68,5 73,0 37,0

Peso Y (libras) 80 344 416 348 262 360 332 34Comprimento (in) peso (lb)

x y x.y x2 y2

53,0 80 4240 2809,00 6400 67,5 344 23220 4556,25 118336 72,0 416 29952 5184,00 173056 72,0 348 25056 5184,00 121104 73,5 262 19257 5402,25 68644 68,5 360 24660 4692,25 129600 73,0 332 24236 5329,00 110224 37,0 34 1258 1369,00 1156total 516,5 2176 151879 34525,75 728520

∑x ∑y ∑xy ∑x2 ∑y2

2222 )()(*)()(

))((

yynxxn

yxxynr

Page 20: 5.1 correlaoduasvariaveis 1_20151006145332

897,0

897,0109318475,9433

91128)2176)728520(8)5,516()75,34525(8

)2176)(5,516()151879(822

r

r

r

O resultado indica uma forte e positiva (próximo de 1) correlação entre o peso e o comprimento dos Ursos.

CALCULANDO r

Page 21: 5.1 correlaoduasvariaveis 1_20151006145332

Gráfico de Dispersão

0200400600

30 40 50 60 70 80

comprimento dos ursos

peso

dos

urs

osREPRESENTAÇÃO GRÁFICA

Page 22: 5.1 correlaoduasvariaveis 1_20151006145332

Avalie a correlação entre as médias de 15 estudantes no 2º grau (ensino médio), relacionando com os índices dos mesmos estudantes no seus cursos universitários. As médias no 2º grau podem variar de 0 a 100, e os índices universitários de 0 a 4. Construa o diagrama de dispersão e calcule o coeficiente de correlação de Pearson.

Média no 2º grau

Índice na Universidade

Média no 2º grau

Índice na Universidade

80 1,0 90 3,182 1,0 91 2,484 2,1 91 2,785 1,4 92 3,087 2,1 94 3,988 1,7 96 3,688 2,0 98 4,089 3,5

EXEMPLO

Page 23: 5.1 correlaoduasvariaveis 1_20151006145332

Média no 2º grau X

Índice na Universidade Y

X2 Y2 XY

80,0 1,0 6400 1,0 80,0

82,0 1,0 6724 1,0 82,0

81,0 2,1 7056 4,41 176,4

85,0 1,4 7225 1,96 119,0

87,0 2,1 7569 4,41 182,7

88,0 1,7 7744 2,89 149,6

88,0 2,0 7744 4,0 176,0

89,0 3,5 7921 12,25 311,5

90,0 3,1 8100 9,61 279,0

91,0 2,4 8281 5,76 218,4

91,0 2,7 8281 7,29 245,7

92,0 3,0 8464 9,0 276,0

94,0 3,9 8836 15,21 366,6

96,0 3,6 9216 12,96 345,6

98,0 4,0 9604 16,0 392,0

1335,0 37,5 119165,0 107,8 3400,5

∑x ∑y ∑x2 ∑y2 ∑xy

Page 24: 5.1 correlaoduasvariaveis 1_20151006145332

9,0)8,37()8,107.(15.)1335()119165.(15

)50,37).(91335()5,3400.(15

)()(.)()(

))((

22

2222

r

r

yynxxn

yxxynr

1335,0 37,5 119165,0 107,8 3400,5 ∑x ∑y ∑x2 ∑y2 ∑xy

O resultado indica uma forte e positiva (próximo de 1) correlação entre as médias do 2º grau e os índices na Universidade.

Page 25: 5.1 correlaoduasvariaveis 1_20151006145332

Gráfico de dispersão

012345

60 70 80 90 100 110

Médias do 2º grau

Índi

ces

na

Uni

vers

idad

eREPRESENTAÇÃO GRÁFICA

Page 26: 5.1 correlaoduasvariaveis 1_20151006145332

Quando se constatam correlações entre variáveis, podem ocorrer resultados interessantes, surpreendentes e úteis. Vários estudos científicos sugerem a existência de uma correlação entre a exposição a campos eletromagnéticos e a incidência de câncer. Os epidemiologistas do Instituto Korolisnka da Suécia pesquisaram 500.000 suecos que viviam a 300 metros de uma linha de alta tensão, por um período de 25 anos, e constataram que as crianças apresentavam maior incidência de leucemia. Essas conclusões levaram o governo da Suécia a elaborar regulamentos que reduzissem o número de residências nas proximidades das linhas de energia de alta tensão. Em um artigo sobre esse estudo, a revista “Times” escreveu: “Embora a pesquisa não prove a relação de causa e efeito, mostra uma correlação indiscutível entre o grau de exposição e o risco de leucemia infantil”.

InteressanteCORRELAÇÃO ENTRE LINHAS DE ENERGIA E CÂNCER

Page 27: 5.1 correlaoduasvariaveis 1_20151006145332

1 – o valor de r está sempre entre -1 e 1. Isto é -1≤ r ≤ 1.

2 – o valor de r não varia se todos os valores de qualquer uma das variáveis são convertidos para uma escala diferente. Por exemplo, se os pesos dos ursos são dados em quilogramas em vez de libras, o valor de r não se modificará.

3 – o valor de r não é afetado pela escolha de x ou y. Permutando todos os valores de x e y, r permanecerá inalterado.

4 – r mede a intensidade, ou grau, de um relacionamento linear. Não se serve para medir a intensidade de um relacionamento não-linear.

PROPRIEDADES DO COEFICIENTE DE CORRELAÇÃO LINEAR R

Page 28: 5.1 correlaoduasvariaveis 1_20151006145332

1 – Devemos evitar a conclusão de que a correlação implica a causalidade. Um estudo mostrou uma correlação entre os salários dos professores de estatística e o consumo individual de cerveja; mas essas duas variáveis são afetadas pelas condições econômicas, uma terceira variável oculta. (Defini-se formalmente uma variável oculta como uma variável que afeta as variáveis em estudo, mas não está incluída no estudo.)

2 – Surge outra fonte potencial de erros quando os dados são baseados em taxas ou médias. Quando utilizamos taxas ou médias para os dados, suprimimos a variação entre os indivíduos ou elementos, e isto pode levar a um coeficiente de correlação inflacionado.Um estudo acusou um coeficiente de correlação linear de 0,4 para dados emparelhados relativos a renda e educação entre indivíduos, mas aquele coeficiente passou para 0,7 quando foram consideradas médias regionais.

3 – Um terceiro erro diz respeito à propriedade de linearidade. A conclusão de que não há correlação linear significativa, não quer dizer que x e y não estejam correlacionados de alguma forma. Pode ocorrer casos onde r = 0 indicando ausência total de correlação linear entre as duas variáveis, mas elas podem estar fortemente relacionados por uma correlação não-linear.

ERROS COMUNS QUE ENVOLVEM A CORRELAÇÃO

Page 29: 5.1 correlaoduasvariaveis 1_20151006145332

4 - Quantidade insuficiente de dados podem levar a conclusões errôneas. - Podemos descartar a correlação entre as variáveis embora ela realmente exista, porque os dados foram insuficientes para mostrá-la;

- Podemos concluir que exista correlação, que na realidade não é significativa, porque os dados mostraram apenas uma pequena parte do conjunto total, talvez por acaso a correlação exista.

∙∙∙ ∙∙

∙∙∙ ∙∙ ∙∙

∙∙

∙∙∙ ∙∙ ∙

∙ ∙ ∙∙∙∙

∙∙

∙∙ ∙ ∙∙ ∙

∙ ∙∙∙∙

∙∙ ∙∙

∙∙

∙∙ ∙∙

∙amostra

∙∙ ∙∙ ∙ ∙

∙∙∙∙ ∙

Erros comuns que envolvem a correlação

Page 30: 5.1 correlaoduasvariaveis 1_20151006145332

COEFICIENTE DE CORRELAÇÃO r de SPEARMAN

Page 31: 5.1 correlaoduasvariaveis 1_20151006145332

Dados preferenciais (ordinais) são muito comuns em áreas de teste de alimentos, eventos competitivos (concursos de beleza, exibições artísticas, competições atléticas) e estudos de atitudes

O objetivo do cálculo de um coeficiente de correlação nesses casos é determinar até que ponto dois conjuntos de dados ordinais concordam ou discordam

)1(6

1 2

2

nnd

rsp

n = nº de observações

d = diferença entre os julgamentos ou ordens

COEFICIENTE DE CORRELAÇÃO R DE SPEARMAN (DADOS ORDINAIS)

Page 32: 5.1 correlaoduasvariaveis 1_20151006145332

COEFICIENTE DE CORRELAÇÃO R DE SPEARMAN (DADOS ORDINAIS)Exemplo: Dois provadores devem julgar 12 vinhos. Cada um atribuirá notas (ordem) denotando a preferência, desde 1 (mais alta) até 12 (mais baixa).

Vinho preferências diferenças (diferença)2

1 1 3 +2 4

2 5 4 -1 1

3 2 1 -1 1

4 7 5 -2 4

5 4 2 -2 4

6 8 9 +1 1

7 3 7 +4 16

8 6 6 0 0

9 9 8 -1 1

10 12 10 -2 4

11 11 11 0 0

12 10 12 +2 4

totais 0 40

∑d ∑d2

Page 33: 5.1 correlaoduasvariaveis 1_20151006145332

86,017162401

)112(1240*61 2

sp

sp

sp

r

r

r

O resultado indica uma forte correlação entre as preferências entre os dois juízes, isto é, os julgamentos são concordantes.

CALCULANDO r)1(

61 2

2

nnd

rsp

Page 34: 5.1 correlaoduasvariaveis 1_20151006145332

INTERPRETAÇÃO DO COEFICIENTE DE CORRELAÇÃO

-1 0 +1

rsp próximo de -1

os julgamentos não são semelhantes, são discordantes ou bastante diferentes

rsp próximo de +1

os julgamentos são semelhantes, concordantes

rsp próximo de 0

Sugere ausência de relacionamento entre os dois conjuntos

O coeficiente de SPEARMAN varia de -1 a +1.