Estatística descritiva básica: Medidas de associação · Estatística Descritiva. Universidade...
Transcript of Estatística descritiva básica: Medidas de associação · Estatística Descritiva. Universidade...
Estatística descritiva básica: Medidas de associação
ACH2021 – Tratamento e
Análise de Dados e Informações
Marcelo de Souza Lauretto
www.each.usp.br/lauretto
Referências
• Bergamaschi, D.P.; Souza, J.M.P.; Hinnig, P.F. Apostila curso HEP103 – Bioestatística Aplicada à Nutrição. Faculdade de Saúde Pública da Universidade de São Paulo, 2010. Disponível em: http://www.fsp.usp.br/hep103/
• L. D. A. Ferreira, M. D. Oliveira, A. M. O. Sant'anna. Apostila 1: Estatística Descritiva. Universidade Federal da Bahia, Instituto de Matemática, 2002. Disponível em: http://www.est.ufba.br/mat027/mat027apostila1.pdf
• S. Shimakura. Associação, correlação e regressão: Slides da disciplina CE701 – Bioestatística Avançada I. Departamento de Estatística da UFPR. Disponível em: http://leg.ufpr.br/~silvia/CE701/node71.html
Introdução
• Medidas de associação buscam fornecer informações sobre a relação entre duas variáveis e sua tendência de variar juntas ao invés de independentemente.
• Para cálculo das medidas de associação, é necessário que as duas variáveis sejam medidas sobre os mesmos elementos (indivíduos) da amostra. – Medidas pareadas.
• Distinção entre associação e causalidade: duas variáveis podem estar associadas mas uma não será necessariamente a causa da outra. – Na análise de correlação é comum investigar se mudanças na
magnitude de uma variável são acompanhadas de mudanças na magnitude da outra, sem significar que uma variável causa a outra.
Tópicos desta aula:
• Gráficos (ou diagramas) de dispersão para variáveis quantitativas
• Medidas de associação para variáveis quantitativas: – Coeficiente de correlação linear de Pearson (ou coeficiente de
correlação linear)
– Regressão linear simples
– Coeficiente de correlação de postos de Spearman
• Medidas de associação para variáveis qualitativas: – Coeficiente de Yule (variáveis binárias)
Gráficos (ou diagramas) de dispersão
• Para variáveis quantitativas, é altamente recomendável elaborar o gráfico de dispersão antes da análise numérica dos dados.
• É construído com conjuntos de pontos formados por pares de valores 𝑥1, 𝑦1 , 𝑥2, 𝑦2 , ..., 𝑥𝑛, 𝑦𝑛 , onde 𝑥𝑖 , 𝑦𝑖 representa os valores das variáveis 𝑥 e 𝑦 medidas sobre o indivíduo 𝑖.
• Para que serve o gráfico de dispersão? – Pode indicar correlação positiva, negativa ou inexistência de
correlação.
– Também pode identificar a existência de valores discrepantes.
Gráficos (ou diagramas) de dispersão
• Exemplo: – X: coeficiente de mortalidade por câncer gástrico
– Y: consumo médio de sal
– Correlação positiva
Gráficos (ou diagramas) de dispersão
• Exemplo: – X: Esperança de vida ao nascer
– Y: Coeficiente de mortalidade infantil (por 1000 nascidos vivos)
– Correlação negativa
Gráficos (ou diagramas) de dispersão
• Exemplo: – X: Coeficiente de mortalidade por câncer de colo de útero
– Y: Consumo de sal
– Correlação inexistente
Associação entre variáveis quantitativas
• Considere a tabela abaixo, que fornece o sexo, idade e percentual de gordura corporal (%) para 18 adultos com idades entre 23 e 61 anos. É possível perceber associação entre o percentual de gordura e a idade?
Tabela 1
Sexo Idade % Gordura Sexo Idade % Gordura
F 23 27.9 F 57 30.3
F 39 31.4 F 58 33.0
F 41 25.9 F 58 33.8
F 49 25.2 F 60 41.1
F 50 31.1 F 61 34.5
F 53 34.7 M 23 9.5
F 53 42.0 M 27 7.8
F 54 29.1 M 27 17.8
F 56 32.5 M 45 27.4
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
• O que o diagrama de dispersão dos dados sugere?
Coeficiente de correlação linear de Pearson
• O coeficiente de correlação linear de Pearson (ou simplesmente coeficiente de correlação de Pearson) mede o grau de associação entre duas variáveis quantitativas X e Y.
• Definição:
𝑟𝑋𝑌 =𝑠𝑋𝑌𝑠𝑋𝑠𝑌
onde: – 𝑠𝑋𝑌 é a covariância entre X e Y (dispersão conjunta)
– 𝑠𝑋 é o desvio padrão de X (dispersão de X)
– 𝑠𝑌 é o desvio padrão de Y (dispersão de Y).
• Covariância: é o valor médio do produto dos desvios de X e Y, em relação às suas respectivas médias.
𝑠𝑋𝑌 = 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌
𝑛 − 1
(1)
• Lembrando que
𝜎𝑋 = 𝑋𝑖 − 𝑋 2
𝑛 − 1 , 𝜎𝑌 =
𝑌𝑖 − 𝑌 2
𝑛 − 1
podemos reescrever a equação (1) para r:
𝑟𝑋𝑌 = 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌
𝑋𝑖 − 𝑋 2 𝑌𝑖 − 𝑌 2
• Propriedades:
– −1 ≤ 𝑟𝑋𝑌 ≤ +1;
– 𝑟𝑋𝑌 = −1 ou𝑟𝑋𝑌 = +1 quando os dados observados caem precisamente em uma reta, ou seja, quando 𝑌 = 𝑎 + 𝑏𝑋 para algum b qualquer e algum a ≠ 0. (ver próximos slides).
– 𝑟𝑋𝑌 não possui dimensão, ou seja, não depende da unidade de medida das variáveis X e Y.
• Exemplos de gráficos de dispersão e respectivos coeficientes de correlação linear
Nesses gráficos, ρ denota a correlação, 𝑟𝑋𝑌
• Retornando ao exemplo da Tabela 1:
• Retornando ao exemplo da Tabela 1:
• Retornando ao exemplo da Tabela 1:
• Retornando ao exemplo da Tabela 1:
Regressão Linear Simples
• O coeficiente de correlação entre X e Y não indica qual o efeito da variação de X sobre a variação em Y.
• Uma possível forma de obter essa informação é através de regressão linear simples.
• Em regressão linear, admitindo-se Y como função linear de X, ajusta-se a “melhor reta” ao conjunto de dados.
• Equação de reta: 𝑦 = 𝑎 + 𝑏𝑥
onde:
𝑦 = valor ajustado (valor médio predito de Y), dado 𝑥;
𝑥 = valor escolhido de X;
𝑏 = 𝑟𝑋𝑌𝑠𝑌
𝑠𝑋;
b é denominado coeficiente angular (slope, em inglês); indica em quantas unidades Y muda para cada unidade de mudança em X;
𝑎 = 𝑦 − b 𝑥
a é denominado intercepto; indica o valor predito de Y quando X=0;
• Retornando ao exemplo da Tabela 1, considerando-se o grupo como um todo:
𝑏 = 𝑟𝑋𝑌𝑠𝑌
𝑠𝑋= 0,79
9,14
13,22= 0,548;
𝑎 = 𝑦 − b 𝑥 = 28,61 − 0,548 × 46,33 = 3,22
Equação ajustada: % gordura = 3,22 + 0,55 × 𝑖𝑑𝑎𝑑𝑒
• Retornando ao exemplo da Tabela 1, considerando-se o grupo como um todo:
Equação ajustada: % gordura = 3,22 + 0,55 × 𝑖𝑑𝑎𝑑𝑒
Para idade = 30,%𝑔𝑜𝑟𝑑 = 19,7;
para idade = 30,%𝑔𝑜𝑟𝑑 = 30,7.
Coeficiente de correlação de postos de Spearman
• O coeficiente de correlação de postos de Spearman é um método não paramétrico que usa somente os postos (posições relativas) dos valores.
• Este coeficiente é definido como o coeficiente de correlação de Pearson entre os postos (posições) dos valores (e não nos valores originais).
• Uma aproximação para o coeficiente de correlação de Spearman é dada por:
𝑟 = 1 −6 𝑑𝑖2𝑖
𝑛(𝑛2 − 1)
onde:
𝑑𝑖 = (posto de 𝑥𝑖 dentre os valores de 𝑥) – (posto de 𝑦𝑖 dentre os valores de 𝑦).
• No exemplo da Tabela 1: cálculo do coeficiente de correlação de Spearman sobre as mulheres:
𝑟 = 1 −6 𝑑𝑖2𝑖
𝑛 𝑛2 − 1
= 1 −6 × 186.0
14 × 195
= 0,591
Sexo Idade %Gordura Posto Idade
Posto %Gordura d d2
F 23 27.9 1 3 -2.0 4.0 F 39 31.4 2 7 -5.0 25.0 F 41 25.9 3 2 1.0 1.0 F 49 25.2 4 1 3.0 9.0 F 50 31.1 5 6 -1.0 1.0 F 53 34.7 6.5 12 -5.5 30.3 F 53 42.0 6.5 14 -7.5 56.3 F 54 29.1 8 4 4.0 16.0 F 56 32.5 9 8 1.0 1.0 F 57 30.3 10 5 5.0 25.0 F 58 33.0 11.5 9 2.0 4.0 F 58 33.8 11.5 10 2.0 4.0 F 60 41.1 13 13 0.0 0.0 F 61 34.5 14 11 3.0 9.0 n=14 n2=196 Total: 186.0
• Observação: quando ocorrem valores repetidos, o posto corresponde à média das posições relativas dos elementos.
• Ex:
X posição relativa
Posto
21 1 1.0
23 2 3.0
23 3 3.0
23 4 3.0
25 5 5.0
27 6 6.0
30 7 8.5
30 8 8.5
30 9 8.5
30 10 8.5
31 11 11.0
• O coeficiente de correlação de postos de Spearman é usualmente mais adequado do que o de Pearson quando:
1. uma das variáveis (ou ambas) é categórica ordenada.
2. os dados não formam um aglomerado comportado, mas apresentam alguns pontos distantes dos demais (figura abaixo);
"Spearman 500x325" por Maque - Obra do próprio. Licenciado sob CC BY-SA 3.0, via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_500x325.png#/media/File:Spearman_500x325.png
• O coeficiente de correlação de postos de Spearman é usualmente mais adequado do que o de Pearson quando:
3. quando o gráfico de dispersão sugere uma relação crescente ou decrescente entre X e Y em um formato de curva (figura abaixo);
"Spearman fig4" by Skbkekas - Own work. Licensed under CC BY-SA 3.0 via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_fig4.svg#/media/File:Spearman_fig4.svg
• Outros exemplos:
"Spearman fig1" by Skbkekas - Own workThis graphic was created with matplotlib.. Licensed under CC BY-SA 3.0 via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_fig1.svg#/media/File:Spearman_fig1.svg
• Outros exemplos:
"Spearman fig3" by Skbkekas - Own workThis graphic was created with matplotlib.. Licensed under CC BY-SA 3.0 via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_fig3.svg#/media/File:Spearman_fig3.svg
Coeficiente de Yule para variáveis qualitativas binárias
• É frequente a situação em que o pesquisador está avaliando duas variáveis qualitativas (categóricas ou ordinais), e deseja verificar se há ou não alguma associação entre elas.
• Nesta disciplina, estudaremos o coeficiente de Yule, voltado para variáveis binárias - ou seja, variáveis qualitativas com apenas duas categorias mutuamente exclusivas. – Exemplos de variáveis qualitativas binárias:
• Sexo (masc/fem)
• Vacinado (sim/não)
• Aprovação na disciplina (sim/não)
• Descrição do coeficiente de Yule (cont): – Usaremos a seguinte notação:
• Denotamos por A a 1ª variável, e por A1 e A2 as duas categorias possíveis dessa variável.
• Denotamos por B a 2ª variável, e por B1 e B2 as duas categorias possíveis dessa variável.
– Para cada elemento da amostra, são anotadas as categorias às quais o elemento pertence, tanto na variável A como na variável B. Os dados brutos podem ser representados em uma tabela no formato abaixo:
Elemento Variável A Variável B
1 A1 B2
2 A2 B1
3 A2 B2
4 A1 B2
5 A1 B1
... ... ...
• Descrição do coeficiente de Yule (cont): – A partir dos dados brutos observados, constrói-se uma tabela de
frequências 22 (isto é, de duas linhas e duas colunas), colocando nos cabeçalhos das linhas as categorias na 1ª variável e nos cabeçalhos das colunas as categorias da 2ª variável. O corpo da tabela é preenchido com as frequências a, b, c, d, onde:
• a = número de elementos pertencentes a A1 e B1;
• b = número de elementos pertencentes a A1 e B2;
• c = número de elementos pertencentes a A2 e B1;
• d = número de elementos pertencentes a A2 e B2;
• NA1 = a+b
• NA2 = c+d
• NB1 = a+c
• NB2 = b+d
B Total
B1 B2
A A1 a b NA1
A2 c d NA2
Total NB1 NB2 N
• Descrição do coeficiente de Yule (cont): – Cálculo do coeficiente:
𝑌 =𝑎𝑑−𝑏𝑐
𝑎𝑑+𝑏𝑐
– Características:
• O valor de Y varia de –1 a +1;
• Y = 0 indica independência
• Y próximo de -1 ou +1 indica associação (negativa ou positiva) entre as variáveis
B Total
B1 B2
A A1 a b NA1
A2 c d NA2
Total NB1 NB2 N
• Exemplo:
– Considere que um pesquisador toma, ao acaso, 2 grupos de cobaias suscetíveis a determinado vírus. As cobaias do primeiro grupo são injetadas com uma vacina experimental, e as cobaias do segundo grupo são injetadas com uma substância inócua (grupo controle). Todas as cobaias são então expostas ao vírus e, depois de determinado período de exposição, verificam-se os sobreviventes de cada amostra.
– Os dados são agrupados de acordo com a tabela abaixo.
– Esses dados podem indicar que o uso da vacina está associado ao padrão de sobrevivência desses animais?
–
– Solução: a=130, b=70, c=80, d=160
– Cálculo do coeficiente:
𝑌 =𝑎𝑑−𝑏𝑐
𝑎𝑑+𝑏𝑐=(130×160) −(70×80)
(130×160) +(70×80)=15200
26400= 0,58
• No exemplo anterior, em que condição teríamos Y=0?
– Resposta: Se as proporções de sobreviventes fossem iguais nos dois grupos (vacinados e não vacinados);
– Consequentemente, as proporções de mortos também seriam iguais nos dois grupos.
– As duas condições acima podem ser expressas nas seguintes equações:
𝑎
𝑁𝐴1=𝑐
𝑁𝐴2= 𝑝 e
𝑏
𝑁𝐴1=𝑑
𝑁𝐴2= 𝑞
– onde p representa a proporção de sobreviventes em cada grupo, e q representa a proporção de mortos em cada grupo.
– Reescrevendo a, b, c e d como a = 𝑁𝑎1 𝑝, b = 𝑁𝑎1 𝑞, c = 𝑁𝑎2 𝑝, d = 𝑁𝑎2 𝑞, teríamos:
ad − bc = 𝑁𝑎1 × 𝑝 × 𝑁𝑎2 × 𝑞 − 𝑁𝑎1 × 𝑞 × 𝑁𝑎2 × 𝑝 = 𝑁𝑎1 × 𝑁𝑎2 × 𝑝 × 𝑞 − 𝑝 × 𝑞 = 𝑁𝑎1 × 𝑁𝑎2 × 0 = 0
– E portanto Y = 0.
• No exemplo anterior, em que condição teríamos Y = +1?
– Resposta: Se todos os vacinados sobrevivessem ou todos os não vacinados morressem.
– Essa condição pode ser expressa por:
ad > 0 e bc = 0
– Nesse caso, teríamos:
𝑌 =𝑎𝑑−𝑏𝑐
𝑎𝑑+𝑏𝑐=𝑎𝑑−0
𝑎𝑑+0=𝑎𝑑
𝑎𝑑= +1
• No exemplo anterior, em que condição teríamos Y = –1? – Resposta: Se todos os vacinados morressem ou todos os não
vacinados sobrevivessem.
– Essa condição pode ser expressa por:
ad = 0 e bc > 0
– Nesse caso, teríamos:
𝑌 =𝑎𝑑−𝑏𝑐
𝑎𝑑+𝑏𝑐=0−𝑏𝑐
0+𝑏𝑐=−𝑏𝑐
𝑏𝑐= −1