5/20/2018 Encontro Anipes 2014
1/65
Curso de ImputaoPedro Albuquerque
Universidade de Braslia
5/20/2018 Encontro Anipes 2014
2/65
Agenda
1) Introduo a imputao de dados.
2) Conceitos bsicos de amostragem.
3) Conceitos bsicos de imputao de dados.
4) Vis resultante da no-resposta.
5) Principais mtodos para o tratamento de no-resposta
5/20/2018 Encontro Anipes 2014
3/65
5/20/2018 Encontro Anipes 2014
4/65
5/20/2018 Encontro Anipes 2014
5/65
5/20/2018 Encontro Anipes 2014
6/65
5/20/2018 Encontro Anipes 2014
7/65
5/20/2018 Encontro Anipes 2014
8/65
5/20/2018 Encontro Anipes 2014
9/65
5/20/2018 Encontro Anipes 2014
10/65
5/20/2018 Encontro Anipes 2014
11/65
5/20/2018 Encontro Anipes 2014
12/65
5/20/2018 Encontro Anipes 2014
13/65
5/20/2018 Encontro Anipes 2014
14/65
5/20/2018 Encontro Anipes 2014
15/65
5/20/2018 Encontro Anipes 2014
16/65
5/20/2018 Encontro Anipes 2014
17/65
5/20/2018 Encontro Anipes 2014
18/65
5/20/2018 Encontro Anipes 2014
19/65
5/20/2018 Encontro Anipes 2014
20/65
5/20/2018 Encontro Anipes 2014
21/65
5/20/2018 Encontro Anipes 2014
22/65
5/20/2018 Encontro Anipes 2014
23/65
No-resposta
A imputao surge como uma ferramenta para o tratamentoresposta.
O primeiro passo no sentido de obter a participao de uma
na amostra de uma pesquisa fazer contato. Se isso nopossvel, voc tem no-resposta devido falta de cont
Encontrada a observao de interesse essa pode ou no colcom a pesquisa, caso essa no colabore, voc tem um caso resposta, devido recusa.
5/20/2018 Encontro Anipes 2014
24/65
No-resposta
Mesmo que a pessoa amostrada deseje colaborar, isso nempossvel, devido a doenas, problemas de linguagem ou instNesse caso a no-resposta devido a incapacidade drespondente.
E o ltimo caso ocorre quando o indivduo selecionado se reresponder, ou no sabe, a informao de alguma(s) pergunt
especficas: Voc a favor ou contra a legalizao do aborto ? Voc a favor da reduo da maioridade penal ? Qual a sua renda ? Voc j cometeu algum crime ?
5/20/2018 Encontro Anipes 2014
25/65
No-resposta na estimao demedidas. Suponha que a populao em geral fique constrangida a r
ser favorvel a legalizao do aborto.
Nesse caso, pode acontecer da maioria da no-reposta ser dfavorveis a legalizao do aborto, e se essa parcela da popumaior do que a parcela contrria, os resultados obtidos podum vis.
Consequentemente, o pesquisador chegaria a concluses ercaso a no-reposta no fosse adequadamente tratada.
5/20/2018 Encontro Anipes 2014
26/65
Qual a sua renda ?
5/20/2018 Encontro Anipes 2014
27/65
Informaes do responden
Carro Casa
5/20/2018 Encontro Anipes 2014
28/65
Imputao de dados.
Um mtodo de tratamento de no-resposta de item a imp
qual fornece meios de substituir o valor faltante de uma varinteresse por um valor imputado (ou esperado) para o mesmindivduo.
Ento, no nosso exemplo, caractersticas como: Carro usado. Tamanho da casa. Nmero de quartos. Trabalho exercido
Podem fornecer pistas quanto ao valor da renda omitido peparticipante.
5/20/2018 Encontro Anipes 2014
29/65
Evitando a no-resposta.
Melhor do que imputarvalores as variveis pesquisadas e evitarque essa no-reposta ocorra.
Nesse sentido, h alguma estratgias que podem ser utilizad
Aumento do tamanho amostral.
Callbacks e Follow-ups.
Subamostras de no-respondentes.
Respostas randomizadas.
5/20/2018 Encontro Anipes 2014
30/65
Aumento do tamanho amostral.
Suponha que a amostra calculada necessria para a pesquis1000 respondentes, considere ainda que na cidade em quesum percentual histrico de 30% de no-respostas, ento, o ?
Nesse caso, uma soluo bvia aumentar o tamanho da am30%, esperando obter uma amostra total efetiva de 1000
respondentes ? Ser que essa abordagem reduz o vis de constrangimento o
em reponder ?
5/20/2018 Encontro Anipes 2014
31/65
Callbacks e Fol low -up s.
Callbacks Nas pesquisa pessoais, o primeiro
contato com um potencialrespondente pode ser sem sucessopor uma variedade de razes.
Por exemplo, ningum pode estar
em casa, a pessoas selecionadapode estar doente, ou viajando.
Caso o primeiro contato seja semsucesso, e comum ligar para aresidncia e insistir na visita.
Follow-ups Nas pesquisas por cart
(correspondncia), segcartas at seus destinoinsiste-se no preenchimquestionrio, em geralsugesto de sorteios opara aqueles que respocompletamente o ques
5/20/2018 Encontro Anipes 2014
32/65
Callbacks e Fol low -ups .
Algumas questes:1) Por que no podemos simplesmente substituir a observao deseseu vizinho se no conseguimos encontr-la ?
5/20/2018 Encontro Anipes 2014
33/65
Callbacks e Fol low -ups .
Algumas questes:2) A distribuio de brindes e sorteios para quem preencher compo questionrio pode enviesar a pesquisa ?
Em princpio, alguns estudos sugerem que a distribuio de brindes instrumentos de motivao na resposta de questionrios no afeta ada pesquisa e ainda fornece um tamanho amostral efetivo maior.
Ex: Goritz, A. (2004). The impact of material incentives on responseresponse quality, sample composition, survey outcome and cost inaccess panels.INTERNATIONAL JOURNAL OF MARKET RESEARCH., 4
Proposta de processo para amostra
5/20/2018 Encontro Anipes 2014
34/65
Proposta de processo para amostraVerificar a elegibilidade da unidade amostral.
Contatar a unidade amostral selecionada.
Determine os possveis informantes da unidade selecionada.
Selecione o respondente.
Contate entrevistado e avalie a sua capacidade de responder.
Realize a entrevista.
Utilize de persuaso para evitar a relutncia em responder.
5/20/2018 Encontro Anipes 2014
35/65
Subamostras de no-respondentes.
Uma outra proposta dividir o plano amostral em mais de u
etapa, selecionando uma subamostra de no-respondentetentar novamente resposta ao questionrio.
Caso seja muito oneroso ir a campo e tentar encontrconvencer os respondentes faltantes, pode-se fazer uma adas observaes faltantes.
Conjunto dosNo-repondentes
Subamostra dosNo-repondentes
5/20/2018 Encontro Anipes 2014
36/65
Subamostras de no-respondente
Observaes: preciso corrigir os pesos amostrapara os elementos dessa subamo
Um cadastro atualizado e bem ajuspode evitar a no-reposta por faltacontato.
5/20/2018 Encontro Anipes 2014
37/65
Respostas randomizadas.
E quanto as questes sensveis ?
Voc a favor da legalizao do aborto ?
Voc contra a legalizao das drogas ?
A maioridade penal deveria ser reduzida ?
5/20/2018 Encontro Anipes 2014
38/65
Respostas randomizadas.
Uma das formas de incentivar a resposta sincera sobre ques
sensveis na pesquisa garantindo que os respondenteesses no sero identificados, e portanto, annimos.
Uma sugesto complementar o uso de respostas randomi
(randomized response).
A ideia do mtodo fornecer certa anonimicidade em relaentrevistador.
5/20/2018 Encontro Anipes 2014
39/65
Respostas randomizadas.
Por exemplo, suponha que a pergunta sensvel a um entreviVoc usou drogas ilcitas esse ms ?.
Antes que o entrevistado responda, pedimos a ele que lancemoeda.
Pedimos a ele que responda SIM se sair CARA na moeda, e VERDADE se sair COROA na moeda.
5/20/2018 Encontro Anipes 2014
40/65
Respostas randomizadas.
S o respondente tem acesso ao lanamento da moeda, en
somente ele sabe se a resposta que ele deu devido ao resmoeda ou de sua experincia.
muito importante assumir que as pessoas que tiraram COmoeda vo responder a verdade, caso contrrio, o entrevist
ser capaz de especular a resposta real.
Admitindo uma moeda honesta, metade dos respondentes CARA e a outra metade COROA.
5/20/2018 Encontro Anipes 2014
41/65
Respostas randomizadas.
Portanto, metade das pessoas iro responder "sim",
independentemente de terem usado drogas ou no. A outrair responder a verdade segundo sua experincia.
Ento uma vez obtida a proporo de nos na pesquisa, aestimativa populacional ser o dobro desse valor, porque asque as duas metades so igualmente provveis.
Por exemplo, se 20% da populao pesquisada disse "no",verdadeira proporo daqueles que no usaram drogas no ms de 40%.
5/20/2018 Encontro Anipes 2014
42/65
Respostas randomizadas.
SIM
SIM
No
50%
50%
20%
80%
5/20/2018 Encontro Anipes 2014
43/65
Imputao de dados.
Nem sempre possvel evitar a no-resposta no incio da pe
usualmente, por ser muito oneroso ou o perodo de cter sido encerrado.
Nesse caso, precisamos trabalhar com as observaesefetivamente obtidas.
Os questionrios sem nenhuma resposta so perdidaqueles questionrios com respostas parciais podeimputados.
H alguns padres clssicos para
5/20/2018 Encontro Anipes 2014
44/65
H alguns padres clssicos parano-respostas em pesquisas:
Padro montono. Padro no-montono.
5/20/2018 Encontro Anipes 2014
45/65
Imputao de dados.
Quando um conjunto de dados no nem mone nem no-montono ele denominado :padarbitrrio de valores faltantes.
Essa tipologia importante, pois os mtodos dimputao disponveis na maioria dos softwadepende da estrutura apresentadaou assumios dados da pesquisa.
5/20/2018 Encontro Anipes 2014
46/65
Imputao de dados.
Outras caractersticas possveis so:
1. Missing at RandomNesse caso a ausncia de valoressomente das variveis observadas na pesquisa.
2. Missing Completely at RandomNesse caso, a ausncvalores na pesquisa no depende de qualquer varivel obsepesquisa.
3. Not Missing at RandomNesse caso, assume-se que oausentes dependem tanto de informaes observadas na pebem como valores no observados.
5/20/2018 Encontro Anipes 2014
47/65
Qual a sua renda ?
I f d d
5/20/2018 Encontro Anipes 2014
48/65
Informaes do responden
Carro Casa
I t d d d
5/20/2018 Encontro Anipes 2014
49/65
Imputao de dados.
O mtodo mais simples e antigo para tratar no resposta o
Consiste basicamente de deletar da base de dados todas aobservaes que contenham pelo menos um valor faltante
Fonte: Allison, P. D. (2001). Missing Data. Sage University PaSeries on Quantitative Applications in the Social Sciences. 07Thousand Oaks, CA: Sage.
I t d d d
5/20/2018 Encontro Anipes 2014
50/65
Imputao de dados.
O problema do mtodo listwise evidente:
1) Pode reduzir em muito o tamanho amostral.
2) Pode induzir em vis, caso o subgrupo de no-respondenapresente uma caracterstica distinta das observaes restabase de dados.
J os pontos a favor so: 1) Facilidade de implementao.
2) Ausncia de estimadores complexos.
I t d d d
5/20/2018 Encontro Anipes 2014
51/65
Imputao de dados.
Outra abordagem simplista para a imputao de dados a
substituio dos valores faltantes pela mdia obseramostra para a varivel de interesse:
Observao Idade Gnero Renda Anual
1 29 H R$ 40,000.002 45 H R$ 36,000.003 81 H --missing--
4 22 --missing-- R$ 16,000.005 41 H R$ 98,000.006 33 M R$ 60,000.007 22 M R$ 24,000.008 --missing-- M R$ 81,000.009 33 M R$ 55,000.0010 45 M R$ 80,000.00
I t d d d
5/20/2018 Encontro Anipes 2014
52/65
Imputao de dados.
No exemplo apresentado, substitumos o valor da renda falt
R$ 54,444.44, a idade faltante por 39e o gnero faltante peM.
Observao Idade Gnero Renda Anual1 29 H R$ 40,000.002 45 H R$ 36,000.003 81 H R$ 54,444.44
4 22 M R$ 16,000.005 41 H R$ 98,000.006 33 M R$ 60,000.007 22 M R$ 24,000.008 39 M R$ 81,000.009 33 M R$ 55,000.0010 45 M R$ 80,000.00
I t d d d
5/20/2018 Encontro Anipes 2014
53/65
Imputao de dados.
A ideia por detrs do mtodo mean imputation a de subst
valor faltante por algum outro valor que no prejudique asestimativas totais populacionais.
Dessa forma, no precisaramos deletar a observao comfaltante, isso particularmente til quando tem-se um tamaamostral reduzido.
Fonte: Donders, A. Rogier T., et al. "Review: a gentle introduimputation of missing values." Journal of clinical epidemiolo(2006): 1087-1091.
I t d d d
5/20/2018 Encontro Anipes 2014
54/65
Imputao de dados.
O problema do mtodo de imputao pela mdia :
1) Abordagem ingnua que no considera demais covarive
2) Como a mdia afetada por valores extremos, o valor impode estar comprometido.
J os pontos a favor so:
1) Facilidade de implementao. 2) Ausncia de estimadores complexos.
3) Mantm-se todas as observaes na base de dados.
Imputao de dados
5/20/2018 Encontro Anipes 2014
55/65
Imputao de dados.
Podemos estender a ideia do mtodo anterior utilizando um
condicional. Por exemplo, considere novamente o nosso exemplo :
Sabendo dessas informaespodemos estimar uma renda
5/20/2018 Encontro Anipes 2014
56/65
podemos estimar uma rendamdia ?Carro Casa
Imputao de dados
5/20/2018 Encontro Anipes 2014
57/65
Imputao de dados. De igual modo, considerando a base de dados:
E admitindo que a renda anual possa ser prevista por meio da temos:
Observao Idade Gnero Renda Anual
1 29 H R$ 40,000.002 45 H R$ 36,000.003 81 H --missing--4 22 --missing-- R$ 16,000.005 41 H R$ 98,000.006 33 M R$ 60,000.007 22 M R$ 24,000.00
8 --missing-- M R$ 81,000.009 33 M R$ 55,000.0010 45 M R$ 80,000.00
Imputao de dados
5/20/2018 Encontro Anipes 2014
58/65
Imputao de dados.
R$ 0.00
R$ 20,000.00
R$ 40,000.00
R$ 60,000.00
R$ 80,000.00
R$ 100,000.00
R$ 120,000.00
20 25 30 35 40 45
Idade x Renda
Imputao de dados
5/20/2018 Encontro Anipes 2014
59/65
Imputao de dados.
y = 2096.2x - 19622
R$ 0.00
R$ 20,000.00
R$ 40,000.00
R$ 60,000.00
R$ 80,000.00
R$ 100,000.00
R$ 120,000.00
20 25 30 35 40 45
Idade x Renda
R$ 120,000.00Idade x Renda
5/20/2018 Encontro Anipes 2014
60/65
R$ 0.00
R$ 20,000.00
R$ 40,000.00
R$ 60,000.00
R$ 80,000.00
R$ 100,000.00
20 30 40 50 60 70
Imputao de dados
5/20/2018 Encontro Anipes 2014
61/65
Imputao de dados.
Ento, o ideal considerar mtodos de imputao mltiplos
fornecem ferramentas adequadas dependendo do padro dapresentado pelas bases de dados.
Devido a capacidade do processo de imputao mltipla deincorporar tcnicas estatisticamente sofisticadas e amostrar
plausveis para as observaes faltantes considerando variaintroduzida pelo processo de seleo essa abordagem a mpara se imputar valores faltantes.
Literatura indicada
5/20/2018 Encontro Anipes 2014
62/65
Literatura indicada
Rubin, Donald B. Multiple imputation for nonresponse in surveysJohn Wiley & Sons, 2004.
Literatura indicada
5/20/2018 Encontro Anipes 2014
63/65
Literatura indicada
Srndal, Carl-Erik, and Sixten Lundstrm. Estimation in surveys wnonresponse. John Wiley & Sons, 2005.
Literatura indicada
5/20/2018 Encontro Anipes 2014
64/65
Literatura indicada
Groves, Robert M., and Mick P. Couper. Nonresponse in househointerview surveys. John Wiley & Sons, 2012.
Curso de Imputao (Parte 2)
5/20/2018 Encontro Anipes 2014
65/65
Curso de Imputao (Parte 2)
1) Viso Geral de um Sistema de crtica e imputao. 2) Introduo metodologia utilizada pelo CANCEIS (Softwa
Crtica e Imputao) .
3) Exemplos de utilizao do CANCEIS para crtica e imputapesquisas do IBGE (Censo, Censo Agropecurio, PNAD e POF
4) Exemplo prtico de utilizao do CANCEIS para crtica e imde dados em um subconjunto da PNAD 2012.
Top Related