2. Gráfico de Probabilidades ...

14
1 Aderência Rinaldo Artes Insper Instituto de Ensino e Pesquisa 2015 Sumário 1. Estatística qui-quadrado ........................................................................................... 2 2. Gráfico de Probabilidades ......................................................................................... 9 3. Teste de Jarque-Bera ............................................................................................. 14 Serão apresentadas técnicas que permitem avaliar se um conjunto de dados pode ter sido gerado a partir de uma certa distribuição de probabilidades. A primeira técnica baseia-se na estatística qui-quadrado de Pearson, a segunda em gráficos de probabilidades, adequados principalmente quando a variável em questão segue uma distribuição contínua e, por fim, o teste de Jarque-Bera, que a partir dos coeficientes de assimetria e curtose, verifica se um conjunto de dados pode ter sido gerado por uma distribuição normal.

Transcript of 2. Gráfico de Probabilidades ...

Page 1: 2. Gráfico de Probabilidades ...

1

Aderência

Rinaldo Artes

Insper Instituto de Ensino e Pesquisa

2015

Sumário

1. Estatística qui-quadrado ........................................................................................... 2

2. Gráfico de Probabilidades ......................................................................................... 9

3. Teste de Jarque-Bera ............................................................................................. 14

Serão apresentadas técnicas que permitem avaliar se um conjunto de dados pode ter

sido gerado a partir de uma certa distribuição de probabilidades. A primeira técnica

baseia-se na estatística qui-quadrado de Pearson, a segunda em gráficos de

probabilidades, adequados principalmente quando a variável em questão segue uma

distribuição contínua e, por fim, o teste de Jarque-Bera, que a partir dos coeficientes

de assimetria e curtose, verifica se um conjunto de dados pode ter sido gerado por

uma distribuição normal.

Page 2: 2. Gráfico de Probabilidades ...

2

1. Estatística qui-quadrado

Objetivo: Decidir se um conjunto de dados segue uma determinada distribuição de

probabilidades.

Exemplo 1.1: Uma emissora de TV desconfia da qualidade do método utilizado por

um instituto para medir a audiência de programas de TV. Tal instituto aponta que em

um determinado horário a emissora A tem 37% da audiência, enquanto que a

emissora B tem 30%, a C tem 13% e as demais têm 20%.

A emissora contratou uma empresa de pesquisa de mercado que selecionou uma

amostra de 300 residências. Em cada uma, perguntou-se em qual canal a principal TV

da casa estava sintonizada, na última semana, no horário determinado. Dos 300, 95

declararam estar assistindo a emissora A, 87 a emissora B, 51 a C e 67 uma das

demais emissoras, ou não estava com a TV ligada.

Há evidências de que os dados do instituto estejam errados?

Admita:

: probabilidade da emissora A ser sintonizada,

: probabilidade da emissora B ser sintonizada,

: probabilidade da emissora C ser sintonizada,

: probabilidade de outras emissoras serem sintonizada,

= 95: número de pessoas da amostra que declararam assistir a emissora A,

= 87: número de pessoas da amostra que declararam assistir a emissora B,

= 51: número de pessoas da amostra que declararam assistir a emissora C e

= 67: número de pessoas da amostra que declararam assistir outras emissoras.

Temos categorias de resposta e ∑ . Além disso, segundo o

instituto, = 0,37, = 0,30, = 0,13 e = 0,20.

A estatística qui-quadrado busca aferir o quanto os dados são compatíveis com os

valores de probabilidades fornecidos. Sua lógica consiste em comparar os dados

observados com os dados que deveriam ser observados numa amostra de hipotética

(amostra de referência) que obedecesse fielmente às probabilidades fornecidas.

1.1. Amostra de referência

Se a amostra seguisse fielmente a estrutura de probabilidade dada por , quantas

pessoas deveríamos ter observado em cada uma das quatro possíveis categorias de

resposta?

Nesse caso, para a primeira categoria (audiência da emissora A), esperaríamos ter

37% de observações, ou seja, a frequência esperada dessa categoria seria

= 0,37 * 300 =111; para a segunda = 0,30 * 300 =90,

para a terceira = 0,13 * 300 = 39 e, por fim, para a última = 0,20 * 300 =60.

Page 3: 2. Gráfico de Probabilidades ...

3

Resultado 1.1: Seja o valor que seria observado na classe , , se a

amostra seguisse fielmente a estrutura de probabilidade dada por .

.

1.2. Estatística qui-quadrado

A estatística qui-quadrado é uma medida da distância entre os valores efetivamente

observados ( ) e os que esperaríamos observar se a amostra seguisse fielmente a

estrutura de probabilidades fornecida ( ). A constrição dessa medida será feita passo

a passo a partir dos dados do Exemplo 1.1.

Na Tabela 1.1, estão dispostos, lado a lado, os valores observados e esperados. Note

que a soma das respectivas colunas é igual ao tamanho da amostra. Isso decorre do

Resultado 1.2.

Resultado 1.2: ∑ .

Prova: ∑ ∑

Na quinta coluna da tabela são apresentadas as diferenças entre os valores

observados e os valores esperados. Caso a estrutura de probabilidades fornecida seja

de fato seguida pelos dados, espera-se que esses valores sejam próximos de zero. A

estatística qui-quadrado baseia-se na distância quadrática entre os valores

observados e esperados dada por: ( )

Voltando à Tabela 1.1, nota-se uma distância de 256 para a primeira categoria de

resposta e 144 para a terceira. Será que de fato, em termos qualitativos, a

discrepância na categoria 1 é mais importante do que a observada na categoria 3?

Tabela 1.1: Determinação da estatística qui-quadrado para os dados do Exemplo

1.1.

Categoria ( - ) ( - ) ( - )

1 0,37 95 111,0 -16,0 256,00 2,31

2 0,30 87 90,0 -3,0 9,00 0,10

3 0,13 51 39,0 12,0 144,00 3,69

4 0,20 67 60,0 7,0 49,00 0,82

Total 1,00 300 300 0,0

6,92

Page 4: 2. Gráfico de Probabilidades ...

4

Na categoria 1, esperávamos encontrar 111 pessoas e na categoria 3, 39. Ao se fazer

a razão entre a distância e os valores esperados para essas duas categorias, temos,

respectivamente, 2,31 e 3,69. Isso indica que, em termos relativos, o afastamento

observado na categoria 3 é mais importante do que na categoria 1. A estatística qui-

quadrado é construída com base nesse raciocínio.

Definição 1.1: Seja a probabilidade hipotética de uma observação pertencer á

categoria de resposta, , com ∑ . Seja o número de indivíduos

classificados na categoria e seu respectivo valor esperado, conforme definido no

Resultado 1.1, . Define-se a estatística qui-quadrado como

∑( )

Em suma a estatística qui-quadrado nada mais é do que a distância quadrática entre

os valores da amostra e da amostra de referência, ponderada pelos valores esperados

sob a hipótese de que a estrutura de probabilidades fornecida é correta. Quanto

maior o valor dessa estatística, maior é a evidência de que os dados não seguem

a estrutura de probabilidades fornecida.

Para o Exemplo 1.1, .

Exemplo 1.2: A Tabela 1.2 descreve o número de reclamações diárias observado em

100 dias de funcionamento de um biblioteca. Um analista desconfia que uma

distribuição de Poisson poderia ser utilizada para descrever o comportamento dessa

variável. Com base nos dados apresentados na Tabela 1.2, pode-se concluir que ele

tem razão?

O primeiro passo para a determinação da estatística qui-quadrado é o cálculo da

probabilidade de ocorrência de cada categoria da variável em questão. Aventa-se a

hipótese de que a distribuição de Poisson é adequada para modelar este fenômeno,

no entanto, não foi fornecido o valor do parâmetro da distribuição. Desse modo, é

necessário estimá-lo a partir dos dados. Como o parâmetro da Poisson é a média da

distribuição, decidiu-se estimá-lo por 1,49, a média aritmética dos dados.

Tabela 1.2: Número de reclamações diárias observadas em 100 dias de atividade

Número de reclamações Dias

0 25

1 35

2 18

3 13

4 6

5 3

Page 5: 2. Gráfico de Probabilidades ...

5

Total 100

A Tabela 1.3 traz as probabilidades de cada categoria, obtidas a partir de uma

distribuição de Poisson com média 1,49. Note que essas probabilidades não somam

100%, condição estabelecida para o cálculo da estatística qui-quadrado. Para

contornar esse problema, e para levar em conta que há poucas observações na última

categoria de resposta, decidiu-se reorganizar os dados conforme a Tabela 1.4.

Tabela 1.3: Probabilidades associadas aos dados da Tabela 1.2.

Número de reclamações Dias Probabilidade

0 25 0,2254

1 35 0,3358

2 18 0,2502

3 13 0,1243

4 6 0,0463

5 3 0,0138

Total 100 0,9957

Tabela 1.4: Número de reclamações diárias observadas em 100 dias de atividade

e probabilidades associadas ás categorias de resposta

Número de reclamações Dias Probabilidade

0 25 0,2254

1 35 0,3358

2 18 0,2502

3 13 0,1243

≥ 4 9 0,0644

Total 100 1,0000

Para os dados do Exemplo 1.2, obteve-se . A Tabela 1.5 resume o cálculo

dessa estatística. Note que os valores esperados não são números inteiros. Isso é

uma ocorrência comum que não deve ser corrigida, uma vez que os valores esperado

constituem apenas pontos de referência.

Page 6: 2. Gráfico de Probabilidades ...

6

Tabela 1.5: Determinação da estatística qui-quadrado para os dados da Tabela

1.4.

Categoria ( - ) ( - ) ( - )

0 0,2254 25 22,54 2,46 6,07 0,27

1 0,3358 35 33,58 1,42 2,01 0,06

2 0,2502 18 25,02 -7,02 49,25 1,97

3 0,1243 13 12,43 0,57 0,33 0,03

>3 0,0644 9 6,44 2,56 6,56 1,02

Total 1,0000 100 100 0,00

3,34

Exemplo 1.3: Uma empresa pode ser multada se emitir poluentes acima de níveis

tolerados. Especula-se que o nível de emissão de certo poluente segue uma

distribuição normal. Os dados da Tabela 5 reproduzem os níveis de emissão em 284

dias. Há evidências de que a emissão segue uma distribuição normal?

Assim como no Exemplo 1.2, não foram fornecidos os parâmetros da distribuição de

probabilidades. Sua determinação a partir da média e desvio-padrão amostral dos

dados resultou numa média de 44,3 e desvio-padrão de 4,15. Teoricamente, a

distribuição normal pode assumir qualquer valor real, desse modo é necessário fazer

alterações nas categorias de resposta para fazer com que a soma de suas

probabilidades de ocorrência atinja 100%. Conforme pode ser visto na Tabela 1.7, a

primeira categoria foi considerada como “Inferior a 34,5” e a última “49,5 ou mais”.

Tabela 1.6: Emissões diárias de poluentes de uma empresa

Emissão Dias

30,0 a 34,5 4

34,5 a 37,5 8

37,5 a 40,5 32

40,5 a 43,5 84

43,5 a 46,5 74

46,5 a 49,5 42

49,5 a 52,5 40

Total 284

Page 7: 2. Gráfico de Probabilidades ...

7

Tabela 1.7: Determinação da estatística qui-quadrado para os dados da Tabela

1.6.

Emissão ( - ) ( - )

- a 34,5 0,0091 4 2,585 1,415 0,775

34,5 a 37,5 0,0416 8 11,801 -3,801 1,224

37,5 a 40,5 0,1293 32 36,712 -4,712 0,605

40,5 a 43,5 0,2436 84 69,196 14,804 3,167

43,5 a 46,5 0,2784 74 79,070 -5,070 0,325

46,5 a 49,5 0,1929 42 54,787 -12,787 2,985

49,5 a 0,1051 40 29,849 10,151 3,452

Total 284 284,000 0,000 12,533

A partir dos dados chega-se a .

A lógica de análise da estatística qui-quadrado é bastante simples: valores muito

distantes de zero indicam que a distribuição de probabilidades não segue a

distribuição de probabilidades considerada no problema. A dificuldade é sabe se o

valor observado está distante o suficiente de zero para se tirar essa conclusão.

1.3 Distribuição de

Pode-se construir um teste de hipóteses para verificar se os dados seguem a

distribuição em consideração que utiliza como estatística de teste. Nesse caso,

temos

H0: os dados seguem a distribuição em consideração.

H1: os dados não seguem a distribuição em consideração.

Prova-se, sob a hipótese de que os dados seguem a distribuição de probabilidades em

consideração e para grandes amostras, que a distribuição de pode ser aproximada

por uma distribuição qui-quadrado1 com graus, sendo o número de

parâmetros estimados a partir dos dados.

Desse modo, a conclusão final pode ser feita a partir da probabilidade de se observar

um valor tão grande ou maior do que o observado (valor p); quanto menor o valor,

maior a evidência de que os dados não seguem a distribuição em consideração.

1 Uma regra empírica diz que a amostra é suficientemente grande para utilizar a distribuição

qui-quadrado quando e ( ) , para todo . Quando a regra não for satisfeita, recomenda-se redefinir as categorias de resposta, agrupando as que a violarem.

Page 8: 2. Gráfico de Probabilidades ...

8

Na Tabela 1.8 são apresentados os valores p associados aos resultados dos

exemplos 1, 2 e 3. A partir desses valores podemos concluir que há evidências fortes

para rejeitar a hipótese de normalidade dos dados do Exemplo 1.3, alguma evidência

contrária à distribuição apresentada no Exemplo 1.1 e evidências muito fracas com a

hipótese de que os dados do Exemplo 1.2 seguem uma distribuição de Poisson.

Tabela 1.8: Valor p associados à análise dos exemplos 1, 2 e 3.

Exemplo Valor p Comando excel para

cálculo do valor p

1 6,92 4 0 3 0,0745 DIST.QUIQUA.CD(6,92;3)

2 3,34 5 1 3 0,3421 DIST.QUIQUA.CD(3,34;3)

3 12,53 7 2 4 0,0138 DIST.QUIQUA.CD(12,53;3)

Page 9: 2. Gráfico de Probabilidades ...

9

2. Gráfico de Probabilidades

Objetivo: Verificar se um conjunto de dados pode ter sido gerado a partir de

uma específica distribuição de probabilidades contínua.

Exemplo 2.1: Os dados abaixo se referem aos retornos da Petr4 observados

em 20 dias. Há evidências de que esses dados seguem uma distribuição

normal?

A lógica da construção desse tipo de gráfico é comparar os dados observados

(x) com os dados que esperaríamos ter observado caso eles seguissem a

distribuição de probabilidades. Caso fosse possível criar uma coluna (y) com

esses valores esperados e se dispuséssemos os pontos (x,y) num eixo

cartesiano esperaríamos, casos os dados de fato tivessem sido gerados pela

distribuição de probabilidades proposta, que os pontos se distribuíssem

aleatoriamente ao redor da reta da reta de 45º.

O Resultado 2.1 fundamenta a obtenção dos valores esperados.

Resultado 2.1: Seja X uma variável aleatória contínua com função distribuição

acumulada dada por F(x). Então, se ( ), então ( ).

Note que a observação 0,129 é menor ou igual a 70% dos dados amostrais.

Desse modo, se a distribuição dos dados fosse de fato uma normal,

esperaríamos que 0,129 estivesse próximo ao percentil 70 de uma normal com

média -0,584 e desvio-padrão 1,643 (valores obtidos a partir da amostra). Esse

raciocínio poderia ser aplicado para obtenção da coluna de valores esperados.

No entanto, teríamos um problema com o valor 3,045. Esse valor é menor ou

igual a 100% dos dados. Seria impossível obter o valor esperado de uma

normal que deixasse 100% as observações abaixo dele. Assim foi sugerida

uma pequena alteração na determinação do percentil amostral. Essa alteração

denomina-se Função distribuição acumulada empírica.

Definição 2.1. Função distribuição acumulada empírica (FDAE). Seja i a i-

ésima observação ordenada de uma amostra de tamanho n. Então o valor

FDAE para esse valor é dado por

( )

Page 10: 2. Gráfico de Probabilidades ...

10

Tabela 2.1: Retornos compostos da Petr4 observados entre 22/03 e 19/04

de 2012.

Data X: Retorno (%)

22/03/2012 -1,294

23/03/2012 -0,421

26/03/2012 2,129

27/03/2012 -1,708

28/03/2012 -1,738

29/03/2012 -0,300

30/03/2012 0,129

02/04/2012 -0,515

03/04/2012 -2,971

04/04/2012 -3,566

05/04/2012 1,097

09/04/2012 -1,881

10/04/2012 -1,87

11/04/2012 0,752

12/04/2012 3,045

13/04/2012 -1,557

16/04/2012 -0,741

17/04/2012 0,325

18/04/2012 0,831

19/04/2012 -1,435

Média -0,584

DP 1,643

A partir da definição acima, temos que o valor esperado, associado à i-ésima

observação ordenada, é dado por

(

)

Voltando ao exemplo, temos que é a distribuição acumulada de uma

distribuição normal com média -0,584 e desvio-padrão 1,643.

A Tabela 2.3 descreve o processo de obtenção dos valores esperados para os

dados do Exemplo 2.1.

O próximo passo é dispor os pares ordenados (x,y) num eixo cartesiano e

comparar a disposição dos pontos com a reta de 45º. A Figura 2.1 traz esse

gráfico.

Page 11: 2. Gráfico de Probabilidades ...

11

Tabela 2.2: Amostra ordenada

i:Observação

x: dados

ordenados

1 -3,566

2 -2,971

3 -1,881

4 -1,87

5 -1,738

6 -1,708

7 -1,557

8 -1,435

9 -1,294

10 -0,741

11 -0,515

12 -0,421

13 -0,300

14 0,129

15 0,325

16 0,752

17 0,831

18 1,097

19 2,129

20 3,045

Média -0,584

DP 1,643

Note que, na Figura 2.1, os pontos parecem estar aleatoriamente distribuídos

ao redor da reta de 45º. Isso nos leva a concluir que a distribuição normal pode

ser uma boa candidata a distribuição geradora desses dados. No entanto, esse

método é puramente descritivo e deve ser utilizado com cuidado.

Um cuidado a ser tomado é com o tamanho amostral. São necessárias muitas

observações para que esse tipo de técnica seja realmente eficaz. A Figura 2.2,

traz informações sobre os mesmos retornos, só que no período entre

20/04/2011 e 19/04/2012 (250 observações). Analisando-se esse gráfico,

somos levados a concluir que a distribuição normal não é adequada para

descrever esse conjunto de dados.

Essa técnica pode ser utilizada para verificar a aderência de um conjunto de

dados a qualquer distribuição de probabilidades. Basta para isso, utilizar a

função distribuição acumulada correspondente. Além disso, sugere-se que os

parâmetros da distribuição sejam estimados a partir dos dados.

Page 12: 2. Gráfico de Probabilidades ...

12

Vários pacotes estatísticos e econométricos já trazem opções para a

construção de gráficos semelhantes aos aqui apresentados. Variações desse

método surgem com os nomes: Gráficos QQ, Gráficos de quantis, Gráficos PP,

etc.

A planilha GraficodeProbabilidade.xlsx traz a memória de cálculo associada a

este texto.

Tabela 2.3: Obtenção dos valores esperados para os dados do Exemplo.

i x (amostra ordenada)

(

)

1 -3,566 0,025 -3,805

2 -2,971 0,075 -2,950

3 -1,881 0,125 -2,475

4 -1,87 0,175 -2,120

5 -1,738 0,225 -1,826

6 -1,708 0,275 -1,567

7 -1,557 0,325 -1,330

8 -1,435 0,375 -1,108

9 -1,294 0,425 -0,895

10 -0,741 0,475 -0,687

11 -0,515 0,525 -0,481

12 -0,421 0,575 -0,274

13 -0,300 0,625 -0,061

14 0,129 0,675 0,161

15 0,325 0,725 0,398

16 0,752 0,775 0,657

17 0,831 0,825 0,951

18 1,097 0,875 1,306

19 2,129 0,925 1,781

20 3,045 0,975 2,636

Page 13: 2. Gráfico de Probabilidades ...

13

Figura 2.1: Gráfico de probabilidade normal

Figura 2.2: Gráfico de probabilidade normal para 250 observações (dados

de 1 ano)

-5

-4

-3

-2

-1

0

1

2

3

4

-4 -3 -2 -1 0 1 2 3 4

y: v

alo

r e

spe

rad

o

x: valor observado

Gráfico de probabilidade normal

-0,100

-0,080

-0,060

-0,040

-0,020

0,000

0,020

0,040

0,060

0,080

-0,100 -0,080 -0,060 -0,040 -0,020 0,000 0,020 0,040 0,060

Val

ore

s e

spe

rad

os

Valores observados

Gráfico de probabilidade normal

Page 14: 2. Gráfico de Probabilidades ...

14

3. Teste de Jarque-Bera

O teste de aderência de Jarque-Bera pode ser utilizado para verificar se um conjunto

de dados segue uma distribuição normal. A estatística do teste é dada por

[

]

sendo

respectivamente, os coeficientes de assimetria e curtose, com

√ e

∑ ( )

(variância). Sob a hipótese de normalidade dos dados segue uma

distribuição qui-quadrado com dois graus de liberdade. Quanto maior for o valor dessa

estatística, menor a evidência de que a distribuição é de fato normal.

Este teste baseia-se no fato de numa distribuição normal espera-se observar valores

de e iguais a zero.