cap2

13
11 ESTATÍSTICA APLICADA 2. Estimativas Pontuais A inferência estatística é em geral dividida em estimação e testes de hipóteses. Em estimação pretende-se escolher um valor de um parâmetro de um conjunto possível de alternativas. Em geral, uma estatística é usada para estimar um parâmetro populacional e, por isso, constitui uma estimativa pontual do referido parâmetro. Assim, exemplos de estimativas pontuais são a média amostral, a proporção amostral ou a variância amostral, usadas para estimar, respectivamente, a média de uma população, a proporção de uma distribuição binomial ou a variância de uma população. Estas estimativas fornecem um valor pontual para o parâmetro a estimar, sendo também referidas como estimadores. Assim, a média aritmética x é um estimador de µ , assim como é um estimador de 2 s 2 σ . Contudo, como um estimador é o resultado de uma amostra aleatória, possui, portanto, uma distribuição amostral. A distribuição da média amostral será aproximadamente normal, centrada em µ . A figura 2.1 mostra uma possível distribuição da média amostral. Figura 2.1-Distribuição de um estimador centrado. Como os estimadores são variáveis aleatórias, importa estudar as suas propriedades estatísticas, por forma a definir com maior certeza quão próxima está a estimativa do parâmetro que se pretende estimar, ou em face de vários estimadores possíveis, qual o melhor. Estas propriedades são as seguintes: não enviesamento, consistência e eficiência relativa. Definição 2.1 Um estimador é um estimador não enviesado de θ ˆ θ se e só se ˆ E θ θ = . O enviesamento de um estimador é dado pela diferença θ ˆ ˆ E θ θ .

Transcript of cap2

Page 1: cap2

11

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

A inferência estatística é em geral dividida em estimação e testes de hipóteses. Em estimação

pretende-se escolher um valor de um parâmetro de um conjunto possível de alternativas. Em geral,

uma estatística é usada para estimar um parâmetro populacional e, por isso, constitui uma estimativa

pontual do referido parâmetro. Assim, exemplos de estimativas pontuais são a média amostral, a

proporção amostral ou a variância amostral, usadas para estimar, respectivamente, a média de uma

população, a proporção de uma distribuição binomial ou a variância de uma população. Estas

estimativas fornecem um valor pontual para o parâmetro a estimar, sendo também referidas como

estimadores. Assim, a média aritmética x é um estimador de µ , assim como é um estimador de 2s2σ .

Contudo, como um estimador é o resultado de uma amostra aleatória, possui, portanto, uma

distribuição amostral. A distribuição da média amostral será aproximadamente normal, centrada em

µ . A figura 2.1 mostra uma possível distribuição da média amostral.

Figura 2.1-Distribuição de um estimador centrado.

Como os estimadores são variáveis aleatórias, importa estudar as suas propriedades estatísticas, por

forma a definir com maior certeza quão próxima está a estimativa do parâmetro que se pretende

estimar, ou em face de vários estimadores possíveis, qual o melhor. Estas propriedades são as

seguintes: não enviesamento, consistência e eficiência relativa.

Definição 2.1

Um estimador é um estimador não enviesado de θ̂ θ se e só se ˆE θ θ= .

O enviesamento de um estimador é dado pela diferença θ̂ ˆE θ θ− .

Page 2: cap2

12

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

Figura 2.2-Distribuição de dois estimadores, com e sem tendência.

Assim, o teorema 1.1 mostra que a média aritmética x é um estimador não enviesado para µ. Um

estimador não tendencioso possui, portanto, uma distribuição amostral centrada no parâmetro a ser

estimado. Na figura 1 o estimador A é não tendencioso e o estimador B apresenta um enviesamento.

Por outro lado, a figura 2 fornece as distribuições amostrais de dois estimadores não enviesados,

mas com diferentes variâncias.

Figura 2.3-Dsitribuição de dois estimadores não tendenciosos.

Page 3: cap2

13

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

Exemplo 2.1

Seja x uma variável aleatória com distribuição binomial. Mostre que x n , a proporção observada de

sucessos, é um estimador não tendencioso do parâmetro p . Calcule a variância do estimador.

Solução

[ ] pnpn

xEnn

xE ===

11

[ ] ( ) ( )2 2

11 1 1p pxV V x np p

n n n n− = = − =

Exemplo 2.2

Sejam 1 2, , , nx x … x uma amostra aleatória de uma população normal com média µ e variância 2σ .

Mostre que a variância amostral , é um estimador não tendencioso de 2s 2σ .

Solução

( )∑= −

−=

n

i

i

nxxs

1

22

1

( ) ( ) ( )[ ]

( ) ( )( ) ( )[ ]

( ) ( ) ( ) ( )

−+−−−−

−=

−+−−−−−

=

−−−−

=−+−−

=

∑ ∑

∑∑

= =

=

==

n

i

n

iii

n

iii

n

ii

n

ii

xnxxxn

xxxxn

xxn

xxn

s

1

2

1

2

1

22

1

2

1

22

21

1

21

11

11

1

µµµµ

µµµµ

µµµµ

Contudo,

( ) ( ) ( ) ( )21

1222 µ

µµµµ −−=

−−=−−−∑

∑ =

=

xnn

nxnxxx

n

iin

ii .

Logo,

( )

−−−

−= ∑

=

n

ii xnx

ns

1

222 )(1

1 µµ .

Como cada ix é um valor seleccionado de uma população com média µ e variância 2σ , então

Page 4: cap2

14

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

( ) ( )

( )

2 2

22 2

1, 2,....i

x

E x i

E xn

µ σ

σµ σ

− = =

− = =

n.

Assim, o valor esperado de s2 é dado por,

[ ] ( )

( )[ ]

2

1

22

2

1

2

1

222

11

)(1

1

)(1

1

σ

σσ

µµ

µµ

=

−=

−−

−=

−−−

−=

=

=

=

n

i

n

ii

n

ii

nn

n

xnExEn

xnxn

EsE

.

Fica assim demonstrado que é um estimador não tendencioso de 2s 2σ , qualquer que seja a forma

da distribuição da população amostrada, bem como a razão do uso do divisor -1 na fórmula de

cálculo da variância amostral. Convém notar, contudo, que não é um estimador não tendencioso

de

ns

σ , dado que, debaixo de transformações funcionais, o não enviesamento de um estimador nem

sempre é conservado.

Um estimador não é somente avaliado em termos do enviesamento, mas também com base na sua

variância. Nesse sentido, pretende-se que o estimador seja tão concentrado quanto possível à volta

do parâmetro a estimar. Um estimador, cujos valores se aproximam do parâmetro a estimar à medida

que n aumenta, é dito consistente.

Definição 2.2

O estimador é um estimador consistente do parâmetro θ̂ θ se e só se, para qualquer constante

positiva ε,

( )ˆlim 1n P θ θ ε→∞ − < →.

Um estimador é consistente se verificar as seguintes condições suficientes, mas não necessárias: θ̂

1. é não tendencioso. θ̂

2. V à medida que . ˆ 0θ → ∞→n

Convém notar que a consistência é uma propriedade assimptótica que não explicita a rapidez da

convergência, sendo no entanto mais fácil de analisar do que a eficiência.

Page 5: cap2

15

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

Exemplo 2.3

Mostre que a média aritmética x é um estimador consistente da média µ .

Solução

A média x é um estimador não tendencioso cuja variância

[ ] 02

→=n

xV σ quando . ∞→n

Entre dois estimadores não enviesados, como os da figura 2.3, o estimador A é preferível ao

estimador B, porque apresenta uma menor variância. A definição de eficiência permite comparar dois

estimadores não tendenciosos e , através da razão das variâncias, 1̂θ 2θ̂

1

2

ˆ

ˆV

V

θ

θ

.

Contudo, quando se pretende comparar um estimador tendencioso com um outro não enviesado, ou

mesmo um outro tendencioso, é necessário conjugar a tendência com a variância do estimador.

Assim, por exemplo, na figura 2.4 são apresentados três estimadores. Poderá ser justificada a

escolha do estimador C em virtude de apresentar uma menor variância, apesar de um grande

enviesamento. No entanto, e para que a escolha não seja subjectiva, é possível usar um critério que

combina a tendência com a variância. Esse critério, para um estimador , denominado como Erro

Quadrático Médio (EQM), é definido através da seguinte expressão,

θ̂

( )2ˆ ˆEQM E V E ˆθ θ θ θ= − = − − θ .

Assim, a eficiência de dois quaisquer estimadores pode ser calculada através da razão dos erros

quadráticos médios. Para o caso de dois estimadores não tendenciosos, esta razão é equivalente à

razão das variâncias.

Page 6: cap2

16

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

Figura 2.4-Comparação entre estimadores.

MÉTODO DOS MOMENTOS

Um dos métodos mais antigos para gerar estimadores pontuais é o chamado método dos

momentos, que tem por base o facto de que o momento de ordem , definido na origem, de uma

variável aleatória é . O momento de ordem para uma amostra pode ser definido de

forma semelhante.

kk

k E Xµ′ = k

Definição 2.2

O momento de ordem de um conjunto de observações, é a média da potência de ordem ,

simbolicamente representada por ,

k k

km′

1

nki

ik

xm

n=′ =∑

Assim, para o caso k =1, o primeiro momento populacional é µ e o correspondente momento

amostral é x . Para uma qualquer população definida por p parâmetros, o método dos momentos

consiste em resolver um sistema de p equações, m k 1,2 ,k k , pµ′ ′= = … .

Exemplo 2.4 Considere uma amostra de tamanho de uma população gama, cuja função densidade de

probabilidade é dada por

n

Page 7: cap2

17

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

( )11 0, 0, 0

( )0

xx e xf x

outros valores

α βα α β

β α− − > > > Γ=

sendo os momentos de ordem k, centrados na origem, dados por

( )( )

k

k

kβ αµ

αΓ +

′ =Γ

.

Use o método dos momentos para estimar os parâmetros α e β .

Solução

A função gama satisfaz a seguinte relação recursiva

( ) ( ) ( )1 1α α αΓ = − Γ −

e os primeiros momentos são

[ ]

( )2 21

E x

E x

αβ

α α β

=

= + .

Logo,

( )

12

2 1mm

αβ

α α β

′ = ′′ = +

e as correspondentes estimativas,

( )( )( )

21

22 1

22 1

1

ˆ

ˆ

mm m

m mm

α

β

′=

′ ′−

′ ′ −= ′

e como 1 x′ =m e 22

1

n

ii

m x=

′ = ∑ n

( )

( )

2

2

1

2

1

1

ˆ

ˆ

n

iin

ii

nx

x x

x x

nx

α

β

=

=

=

− −

=

∑.

O método de estimação baseado nos momentos, apesar da sua simplicidade, tem desvantagens

quando comparado com o método da máxima verosimilhança, já que em alguns casos, as estimativas

produzidas não possuem as propriedades desejáveis de um estimador.

Page 8: cap2

18

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

MÉTODO DA MÁXIMA VEROSIMILHANÇA

Um dos melhores métodos para gerar estatísticas pontuais é o chamado método da Máxima

Verosimilhança desenvolvido por R. A. Fisher. Entre outras vantagens, Fisher demonstrou que os

estimadores gerados por este método eram suficientes, não tendenciosos e assimptoticamente de

variância mínima.

Para compreender o método, considere-se o seguinte exemplo. Uma urna contém um grande número

de bolas vermelhas e negras, na proporção de 3:1. Contudo, não se sabe qual das cores está

presente em maioria, se a vermelha se a negra. Para o efeito, uma amostra de 3 bolas é retirada

dessa urna. Assim, os resultados possíveis são (nº de bolas vermelhas, nº de bolas negras): (3,0);

(2,1); (1,2); (0,3). Para um grande número de bolas dentro da urna, as probabilidades podem ser

descritas por uma distribuição binomial. Contudo, as probabilidades associadas a cada um dos

eventos dependem de qual a cor presente em maioria. Se a cor maioritária for a vermelha, então a

probabilidade de retirar uma bola vermelha é p=3/4, caso contrário é p=1/4.

Nº de bolas vermelhas

0

1

2

3

p=3/4 1/64 9/64 27/64 27/64

p=1/4 27/64 27/64 9/64 1/64

A tabela lista as probabilidades de todos os acontecimentos possíveis, para os dois casos de cor

maioritária vermelha ou negra. Se, por exemplo, o resultado observado fosse 2 bolas vermelhas, a

maior probabilidade de tal ocorrência resulta da situação em que a cor vermelha é maioritária (27/64

contra 9/64), ou seja, tal favoreceria a escolha de p=3/4; inversamente, a ocorrência de 0 bolas

vermelhas, favoreceria a escolha de uma maioria de bolas negras, já que para esta situação a

probabilidade é muito maior (27/64 contra 1/64). Neste caso, esta tabela poderá ser vista como uma

tabela de decisão, em que o resultado 2 ou 3 favorece a hipótese vermelha, enquanto que um

resultado de 0 ou 1 favoreceria a escolha oposta.

Em resumo, com base nos valores observados na amostra aleatória, é escolhido um valor para a

estimativa que maximiza a probabilidade de obter aqueles dados. Assim, no caso discreto, uma

amostra aleatória de observações, n 1 2, , , nx x … x , com uma função de probabilidade dependente de

um parâmetro θ , então a probabilidade de observar estes valores independentes é dada por, n

1 2 1 2 1 2( , ,..., ) ( ) ( )... ( ) ( , ,..., ; )n nP x x x P x P x P x f x x xn θ= =

que corresponde à distribuição de probabilidade conjunta das variáveis aleatórias no ponto amostral

( 1 2, , , nx x … x ). Dado que os valores de 1 2, , , nx x … x , são conhecidos, esta função depende de θ , e

Page 9: cap2

19

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

é referida como função de verosimilhança. No caso contínuo, 1 2( , ,..., ; )nf x x x θ , representa a função

de densidade conjunta no ponto ( 1 2, , , nx x … x ). Fisher sugeriu que o valor de θ devia ser escolhido

por forma a maximizar esta função.

( )L f )xθ θ=

1 2( , ,f x x

1 2, , , nx x…

(1( ; )

0f x p

=

0,1xvalores

− =

1 21 1 ... 1nx x xp− −

ln

Definição 2.3

Se 1 2, , , nx x … x são os valores de uma amostra aleatória de uma população com parâmetroθ , a

função de verosimilhança é dada por,

1 2( , ,..., ;nx x

para valores de θ no domínio dado. ..., ; )nx θ é o valor da função de probabilidade conjunta

ou a função de densidade conjunta das variáveis aleatórias x observadas.

Assim, o método da máxima verosimilhança consiste na maximização da função de verosimilhança, e

por via do cálculo diferencial, no caso de um só parâmetro θ , o valor que anula a primeira derivada,

a que corresponde ao máximo.

Exemplo 2.5 Seja x uma variável aleatória de Bernoulli. A função de probabilidade é dada por

1)x xp poutros

onde p é o parâmetro a ser estimado.

Solução

( ) ( ) ( )

( )

( )

1 2

11

1

1

( ) 1 1

1

1

n

ii

nn

iii

i

x x

nxx

i

xn x

L p p p p p p

p p

p p==

=

= − − −

= −

∑ ∑= −

1 x−

O máximo de ( )L p é também o máximo de ( )L p . Assim,

Page 10: cap2

20

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

( )

( )

1 1

11

1

ln ( ) ln ln 1

ln1

ˆ

n n

i ii i

nn

iiii

n

ii

L p x p n x p

n xxd L pdp p p

xp

n

= =

==

=

= + −

− = −

=

∑ ∑

∑∑

.

Exemplo 2.6

Seja x uma variável aleatória exponencial com parâmetro λ . Calcule o estimador de máxima

verosimilhança para o parâmetro λ , com base numa amostra de tamanho . Considere, em

seguida, uma amostra de =10 valores respeitantes ao tempo de vida (em horas) de um

componente eléctrico (8.2, 40.5, 3.9, 7.7, 7.1, 3.3, 4.3, 25.4, 5.2,1.0). Estime o valor do

parâmetro

nn

λ com base nestes 10 valores.

Solução

1

1 2

1

1

1

1

( ) ( ) ( )... ( )

( )

ln ( ) ln

ln ( )

n

ii i

n

n xx n

in

ii

n

ii

n

ii

L f x f x f x

L e e

L n x

d L n xdn

xx

λλ

λ

λ λ λ

λ λ λ

λλ λ

λ

=

−−

=

=

=

=

=

∑= =

= −

= −

= =

1ˆ10.66 0.09410.66

x λ= ⇒ = = .

Os valores apresentados foram gerados a partir de uma distribuição exponencial com λ =0.1, e como

se pode ver pelo gráfico da Figura 2.5, o máximo do logaritmo da função de verosimilhança ocorre

para λ̂ =0.094.

Page 11: cap2

21

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

Figura 2.5-Função de verosimilhança para o exemplo 2.6.

Podem surgir, contudo, algumas situações em que poderá não ser fácil a aplicação do método da

máxima verosimilhança, nomeadamente nas situações em que não seja possível obter a derivada da

função de verosimilhança.

Exemplo 2.7

Sejam 1 2, , , nx x …

a

x os valores de uma amostra de uma distribuição uniforme, com parâmetros

0,α β == . Encontre o estimador de máxima verosimilhança para . a

Solução

A função densidade de probabilidade é dada por 1( ; )f x aa

= e a a função de máxima

verosimilhança por

1

1( ) ( ; )nn

ii

L a f x aa=

= =

∏ .

O valor da função da função de verosimilhança cresce à medida que a decresce. Contudo, para

qualquer valor observado, 0 ix a≤ ≤ , logo a não pode ser menor que qualquer valor da amostra, e a

função atinge o seu máximo quando a é igual ao maior dos valores na amostra, isto é, .

Esta situação é ilustrada na figura 2.6, e como se pode ver, as regras do cálculo não se podem

aplicar nesta situação, já que o máximo ocorre num ponto de descontinuidade.

ˆ max( )ia x=

Page 12: cap2

22

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

Figura 2.6-Função de verosimilhança para o exemplo 2.7.

Finalmente, importa referir, em jeito de resumo, algumas das propriedades mais importantes dos

estimadores de máxima verosimilhança.

Propriedades dos Estimadores de Máxima Versosimilhança

Em condições muito gerais, quando a dimensão da amostra é grande e se n θ̂ é o estimador de

máxima verosimilhança do parâmetro θ , então

a) θ̂ é aproximadamente um estimador não tendencioso;

b) a variância de θ̂ é quase tão pequena quanto a variância que poderia ser obtida com qualquer

outro estimador;

c) θ̂ tem uma distribuição aproximadamente normal.

Propriedade da Invariância

Sejam 1 2ˆ ˆ ˆ, , , kθ θ … θ os estimadores de máxima verosimilhança dos parâmetros 1 2, , , kθ θ … θ . Então,

o estimador de máxima verosimilhança de qualquer função ( )1 2, , , kh θ θ θ… destes parâmetros é a

mesma função ( 1 2ˆ ˆ ˆ, , , k )h θ θ θ… dos estimadores 1 2

ˆ ˆ, , , k̂θ θ θ… .

Existem outras técnicas de estimação, nomeadamente o método dos mínimos quadrados, que será

abordado no capítulo de regressão. Outras técnicas incluem os estimadores robustos [Hoaglin,

Mosteller and Tukey (1992)], os estimadores “jacknife” e os estimadores bayesianos [Mendenhall,

Wackerly and Scheaffer (1989)].

Page 13: cap2

23

ESTATÍSTICA APLICADA

2. Estimativas Pontuais

EXERCÍCIOS 1. Considerando uma amostra aleatória de dimensão , encontre o estimador de máxima

verosimilhança para o parâmetro

( ) 0,1,2,!

xef x xx

λλ−

= = …

da distribuição de probabilidade de Poisson.

2. Considerando uma amostra aleatória de dimensão , encontre os estimadores de máxima

verosimilhança para os parâmetros

n

µ e 2σ 21

21( )2

, 0

x

f x e xµ

σ

πσµ σ

− − = −∞ ≤ ≤ ∞

−∞ ≤ ≤ ∞ >

da distribuição normal.

3. Considerando uma amostra aleatória de dimensão , encontre o estimador de máxima

verosimilhança para o parâmetro

nα da seguinte distribuição de probabilidade,

( )1 0( )

01x x

f xoutros valores

αα + < <=

.

4. Numa experiência binomial, foram observados x sucessos em tentativas. Encontre o estimador

de máxima verosimilhança para o parâmetro

np

( ) (1 ) 0,1,2, ,n x n xxf x C p p x−= − = … n

da distribuição binomial. É o estimador tendencioso?