Estatística descritiva básica: Medidas de associação · Estatística Descritiva. Universidade...

Estatística descritiva básica: Medidas de associação

ACH2021 – Tratamento e

Análise de Dados e Informações

Marcelo de Souza Lauretto

[email protected]

www.each.usp.br/lauretto

Referências

• Bergamaschi, D.P.; Souza, J.M.P.; Hinnig, P.F. Apostila curso HEP103 – Bioestatística Aplicada à Nutrição. Faculdade de Saúde Pública da Universidade de São Paulo, 2010. Disponível em: http://www.fsp.usp.br/hep103/

• L. D. A. Ferreira, M. D. Oliveira, A. M. O. Sant'anna. Apostila 1: Estatística Descritiva. Universidade Federal da Bahia, Instituto de Matemática, 2002. Disponível em: http://www.est.ufba.br/mat027/mat027apostila1.pdf

• S. Shimakura. Associação, correlação e regressão: Slides da disciplina CE701 – Bioestatística Avançada I. Departamento de Estatística da UFPR. Disponível em: http://leg.ufpr.br/~silvia/CE701/node71.html

http://www.fsp.usp.br/hep103/



http://www.est.ufba.br/mat027/mat027apostila1.pdf

http://www.est.ufba.br/mat027/mat027apostila1.pdf

http://leg.ufpr.br/~silvia/CE701/node71.html

http://leg.ufpr.br/~silvia/CE701/node71.html

Introdução

• Medidas de associação buscam fornecer informações sobre a relação entre duas variáveis e sua tendência de variar juntas ao invés de independentemente.

• Para cálculo das medidas de associação, é necessário que as duas variáveis sejam medidas sobre os mesmos elementos (indivíduos) da amostra. – Medidas pareadas.

• Distinção entre associação e causalidade: duas variáveis podem estar associadas mas uma não será necessariamente a causa da outra. – Na análise de correlação é comum investigar se mudanças na

magnitude de uma variável são acompanhadas de mudanças na magnitude da outra, sem significar que uma variável causa a outra.

Tópicos desta aula:

• Gráficos (ou diagramas) de dispersão para variáveis quantitativas

• Medidas de associação para variáveis quantitativas: – Coeficiente de correlação linear de Pearson (ou coeficiente de

correlação linear)

– Regressão linear simples

– Coeficiente de correlação de postos de Spearman

• Medidas de associação para variáveis qualitativas: – Coeficiente de Yule (variáveis binárias)

Gráficos (ou diagramas) de dispersão

• Para variáveis quantitativas, é altamente recomendável elaborar o gráfico de dispersão antes da análise numérica dos dados.

• É construído com conjuntos de pontos formados por pares de valores 𝑥1, 𝑦1 , 𝑥2, 𝑦2 , ..., 𝑥𝑛, 𝑦𝑛 , onde 𝑥𝑖 , 𝑦𝑖 representa os valores das variáveis 𝑥 e 𝑦 medidas sobre o indivíduo 𝑖.

• Para que serve o gráfico de dispersão? – Pode indicar correlação positiva, negativa ou inexistência de

correlação.

– Também pode identificar a existência de valores discrepantes.


• Exemplo: – X: coeficiente de mortalidade por câncer gástrico

– Y: consumo médio de sal

– Correlação positiva


• Exemplo: – X: Esperança de vida ao nascer

– Y: Coeficiente de mortalidade infantil (por 1000 nascidos vivos)

– Correlação negativa


• Exemplo: – X: Coeficiente de mortalidade por câncer de colo de útero

– Y: Consumo de sal

– Correlação inexistente

Associação entre variáveis quantitativas

• Considere a tabela abaixo, que fornece o sexo, idade e percentual de gordura corporal (%) para 18 adultos com idades entre 23 e 61 anos. É possível perceber associação entre o percentual de gordura e a idade?

Tabela 1

Sexo Idade % Gordura Sexo Idade % Gordura

F 23 27.9 F 57 30.3

F 39 31.4 F 58 33.0

F 41 25.9 F 58 33.8

F 49 25.2 F 60 41.1

F 50 31.1 F 61 34.5

F 53 34.7 M 23 9.5

F 53 42.0 M 27 7.8

F 54 29.1 M 27 17.8

F 56 32.5 M 45 27.4

Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.

• O que o diagrama de dispersão dos dados sugere?

Coeficiente de correlação linear de Pearson

• O coeficiente de correlação linear de Pearson (ou simplesmente coeficiente de correlação de Pearson) mede o grau de associação entre duas variáveis quantitativas X e Y.

• Definição:

𝑟𝑋𝑌 =𝑠𝑋𝑌𝑠𝑋𝑠𝑌

onde: – 𝑠𝑋𝑌 é a covariância entre X e Y (dispersão conjunta)

– 𝑠𝑋 é o desvio padrão de X (dispersão de X)

– 𝑠𝑌 é o desvio padrão de Y (dispersão de Y).

• Covariância: é o valor médio do produto dos desvios de X e Y, em relação às suas respectivas médias.

𝑠𝑋𝑌 = 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌

𝑛 − 1

(1)

• Lembrando que

𝜎𝑋 = 𝑋𝑖 − 𝑋 2

𝑛 − 1 , 𝜎𝑌 =

𝑌𝑖 − 𝑌 2

𝑛 − 1

podemos reescrever a equação (1) para r:

𝑟𝑋𝑌 = 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌

𝑋𝑖 − 𝑋 2 𝑌𝑖 − 𝑌 2

• Propriedades:

– −1 ≤ 𝑟𝑋𝑌 ≤ +1;

– 𝑟𝑋𝑌 = −1 ou𝑟𝑋𝑌 = +1 quando os dados observados caem precisamente em uma reta, ou seja, quando 𝑌 = 𝑎 + 𝑏𝑋 para algum b qualquer e algum a ≠ 0. (ver próximos slides).

– 𝑟𝑋𝑌 não possui dimensão, ou seja, não depende da unidade de medida das variáveis X e Y.

• Exemplos de gráficos de dispersão e respectivos coeficientes de correlação linear

Nesses gráficos, ρ denota a correlação, 𝑟𝑋𝑌

• Retornando ao exemplo da Tabela 1:

Regressão Linear Simples

• O coeficiente de correlação entre X e Y não indica qual o efeito da variação de X sobre a variação em Y.

• Uma possível forma de obter essa informação é através de regressão linear simples.

• Em regressão linear, admitindo-se Y como função linear de X, ajusta-se a “melhor reta” ao conjunto de dados.

• Equação de reta: 𝑦 = 𝑎 + 𝑏𝑥

onde:

𝑦 = valor ajustado (valor médio predito de Y), dado 𝑥;

𝑥 = valor escolhido de X;

𝑏 = 𝑟𝑋𝑌𝑠𝑌

𝑠𝑋;

b é denominado coeficiente angular (slope, em inglês); indica em quantas unidades Y muda para cada unidade de mudança em X;

𝑎 = 𝑦 − b 𝑥

a é denominado intercepto; indica o valor predito de Y quando X=0;

• Retornando ao exemplo da Tabela 1, considerando-se o grupo como um todo:

𝑏 = 𝑟𝑋𝑌𝑠𝑌

𝑠𝑋= 0,79

9,14

13,22= 0,548;

𝑎 = 𝑦 − b 𝑥 = 28,61 − 0,548 × 46,33 = 3,22

Equação ajustada: % gordura = 3,22 + 0,55 × 𝑖𝑑𝑎𝑑𝑒

• Retornando ao exemplo da Tabela 1, considerando-se o grupo como um todo:

Equação ajustada: % gordura = 3,22 + 0,55 × 𝑖𝑑𝑎𝑑𝑒

Para idade = 30,%𝑔𝑜𝑟𝑑 = 19,7;

para idade = 30,%𝑔𝑜𝑟𝑑 = 30,7.

Coeficiente de correlação de postos de Spearman

• O coeficiente de correlação de postos de Spearman é um método não paramétrico que usa somente os postos (posições relativas) dos valores.

• Este coeficiente é definido como o coeficiente de correlação de Pearson entre os postos (posições) dos valores (e não nos valores originais).

• Uma aproximação para o coeficiente de correlação de Spearman é dada por:

𝑟 = 1 −6 𝑑𝑖2𝑖

𝑛(𝑛2 − 1)

onde:

𝑑𝑖 = (posto de 𝑥𝑖 dentre os valores de 𝑥) – (posto de 𝑦𝑖 dentre os valores de 𝑦).

• No exemplo da Tabela 1: cálculo do coeficiente de correlação de Spearman sobre as mulheres:

𝑟 = 1 −6 𝑑𝑖2𝑖

𝑛 𝑛2 − 1

= 1 −6 × 186.0

14 × 195

= 0,591

Sexo Idade %Gordura Posto Idade

Posto %Gordura d d2

F 23 27.9 1 3 -2.0 4.0 F 39 31.4 2 7 -5.0 25.0 F 41 25.9 3 2 1.0 1.0 F 49 25.2 4 1 3.0 9.0 F 50 31.1 5 6 -1.0 1.0 F 53 34.7 6.5 12 -5.5 30.3 F 53 42.0 6.5 14 -7.5 56.3 F 54 29.1 8 4 4.0 16.0 F 56 32.5 9 8 1.0 1.0 F 57 30.3 10 5 5.0 25.0 F 58 33.0 11.5 9 2.0 4.0 F 58 33.8 11.5 10 2.0 4.0 F 60 41.1 13 13 0.0 0.0 F 61 34.5 14 11 3.0 9.0 n=14 n2=196 Total: 186.0

• Observação: quando ocorrem valores repetidos, o posto corresponde à média das posições relativas dos elementos.

• Ex:

X posição relativa

Posto

21 1 1.0

23 2 3.0

23 3 3.0

23 4 3.0

25 5 5.0

27 6 6.0

30 7 8.5

30 8 8.5

30 9 8.5

30 10 8.5

31 11 11.0

• O coeficiente de correlação de postos de Spearman é usualmente mais adequado do que o de Pearson quando:

1. uma das variáveis (ou ambas) é categórica ordenada.

2. os dados não formam um aglomerado comportado, mas apresentam alguns pontos distantes dos demais (figura abaixo);

"Spearman 500x325" por Maque - Obra do próprio. Licenciado sob CC BY-SA 3.0, via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_500x325.png#/media/File:Spearman_500x325.png

• O coeficiente de correlação de postos de Spearman é usualmente mais adequado do que o de Pearson quando:

3. quando o gráfico de dispersão sugere uma relação crescente ou decrescente entre X e Y em um formato de curva (figura abaixo);

"Spearman fig4" by Skbkekas - Own work. Licensed under CC BY-SA 3.0 via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_fig4.svg#/media/File:Spearman_fig4.svg

• Outros exemplos:

"Spearman fig1" by Skbkekas - Own workThis graphic was created with matplotlib.. Licensed under CC BY-SA 3.0 via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_fig1.svg#/media/File:Spearman_fig1.svg

• Outros exemplos:

"Spearman fig3" by Skbkekas - Own workThis graphic was created with matplotlib.. Licensed under CC BY-SA 3.0 via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_fig3.svg#/media/File:Spearman_fig3.svg

Coeficiente de Yule para variáveis qualitativas binárias

• É frequente a situação em que o pesquisador está avaliando duas variáveis qualitativas (categóricas ou ordinais), e deseja verificar se há ou não alguma associação entre elas.

• Nesta disciplina, estudaremos o coeficiente de Yule, voltado para variáveis binárias - ou seja, variáveis qualitativas com apenas duas categorias mutuamente exclusivas. – Exemplos de variáveis qualitativas binárias:

• Sexo (masc/fem)

• Vacinado (sim/não)

• Aprovação na disciplina (sim/não)

• Descrição do coeficiente de Yule (cont): – Usaremos a seguinte notação:

• Denotamos por A a 1ª variável, e por A1 e A2 as duas categorias possíveis dessa variável.

• Denotamos por B a 2ª variável, e por B1 e B2 as duas categorias possíveis dessa variável.

– Para cada elemento da amostra, são anotadas as categorias às quais o elemento pertence, tanto na variável A como na variável B. Os dados brutos podem ser representados em uma tabela no formato abaixo:

Elemento Variável A Variável B

1 A1 B2

2 A2 B1

3 A2 B2

4 A1 B2

5 A1 B1

... ... ...

• Descrição do coeficiente de Yule (cont): – A partir dos dados brutos observados, constrói-se uma tabela de

frequências 22 (isto é, de duas linhas e duas colunas), colocando nos cabeçalhos das linhas as categorias na 1ª variável e nos cabeçalhos das colunas as categorias da 2ª variável. O corpo da tabela é preenchido com as frequências a, b, c, d, onde:

• a = número de elementos pertencentes a A1 e B1;

• b = número de elementos pertencentes a A1 e B2;

• c = número de elementos pertencentes a A2 e B1;

• d = número de elementos pertencentes a A2 e B2;

• NA1 = a+b

• NA2 = c+d

• NB1 = a+c

• NB2 = b+d

B Total

B1 B2

A A1 a b NA1

A2 c d NA2

Total NB1 NB2 N

• Descrição do coeficiente de Yule (cont): – Cálculo do coeficiente:

𝑌 =𝑎𝑑−𝑏𝑐

𝑎𝑑+𝑏𝑐

– Características:

• O valor de Y varia de –1 a +1;

• Y = 0 indica independência

• Y próximo de -1 ou +1 indica associação (negativa ou positiva) entre as variáveis

B Total

B1 B2

A A1 a b NA1

A2 c d NA2

Total NB1 NB2 N

• Exemplo:

– Considere que um pesquisador toma, ao acaso, 2 grupos de cobaias suscetíveis a determinado vírus. As cobaias do primeiro grupo são injetadas com uma vacina experimental, e as cobaias do segundo grupo são injetadas com uma substância inócua (grupo controle). Todas as cobaias são então expostas ao vírus e, depois de determinado período de exposição, verificam-se os sobreviventes de cada amostra.

– Os dados são agrupados de acordo com a tabela abaixo.

– Esses dados podem indicar que o uso da vacina está associado ao padrão de sobrevivência desses animais?

–

– Solução: a=130, b=70, c=80, d=160

– Cálculo do coeficiente:


𝑎𝑑+𝑏𝑐=(130×160) −(70×80)

(130×160) +(70×80)=15200

26400= 0,58

• No exemplo anterior, em que condição teríamos Y=0?

– Resposta: Se as proporções de sobreviventes fossem iguais nos dois grupos (vacinados e não vacinados);

– Consequentemente, as proporções de mortos também seriam iguais nos dois grupos.

– As duas condições acima podem ser expressas nas seguintes equações:

𝑎

𝑁𝐴1=𝑐

𝑁𝐴2= 𝑝 e

𝑏

𝑁𝐴1=𝑑

𝑁𝐴2= 𝑞

– onde p representa a proporção de sobreviventes em cada grupo, e q representa a proporção de mortos em cada grupo.

– Reescrevendo a, b, c e d como a = 𝑁𝑎1 𝑝, b = 𝑁𝑎1 𝑞, c = 𝑁𝑎2 𝑝, d = 𝑁𝑎2 𝑞, teríamos:

ad − bc = 𝑁𝑎1 × 𝑝 × 𝑁𝑎2 × 𝑞 − 𝑁𝑎1 × 𝑞 × 𝑁𝑎2 × 𝑝 = 𝑁𝑎1 × 𝑁𝑎2 × 𝑝 × 𝑞 − 𝑝 × 𝑞 = 𝑁𝑎1 × 𝑁𝑎2 × 0 = 0

– E portanto Y = 0.

• No exemplo anterior, em que condição teríamos Y = +1?

– Resposta: Se todos os vacinados sobrevivessem ou todos os não vacinados morressem.

– Essa condição pode ser expressa por:

ad > 0 e bc = 0

– Nesse caso, teríamos:


𝑎𝑑+𝑏𝑐=𝑎𝑑−0

𝑎𝑑+0=𝑎𝑑

𝑎𝑑= +1

• No exemplo anterior, em que condição teríamos Y = –1? – Resposta: Se todos os vacinados morressem ou todos os não

vacinados sobrevivessem.

– Essa condição pode ser expressa por:

ad = 0 e bc > 0

– Nesse caso, teríamos:


𝑎𝑑+𝑏𝑐=0−𝑏𝑐

0+𝑏𝑐=−𝑏𝑐

𝑏𝑐= −1

Estatística descritiva básica: Medidas de associação · Estatística Descritiva. Universidade...

Documents

Transcript of Estatística descritiva básica: Medidas de associação · Estatística Descritiva. Universidade...