EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação...
Transcript of EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação...
Estimação Bayesiana de Pontos Ideais Via Dadosdo Twitter
Daniela Buarque de Macedo de Souza
Universidade Federal do Rio de JaneiroInstituto de Matemática
Departamento de Métodos Estatísticos2017
Estimação Bayesiana de Pontos Ideais Via Dadosdo Twitter
Daniela Buarque de Macedo de Souza
Dissertação de Mestrado submetida ao Programa dePós-Graduação em Estatística do Departamento deMétodos Estatísticos do Instituto de Matemática daUniversidade Federal do Rio de Janeiro, como parte dosrequisitos necessários à obtenção do título de Mestre emEstatística.
Orientadores: Ralph dos Santos SilvaMariane Branco Alves
Rio de Janeiro, RJ - Brasil2017
ii
CIP - Catalogação na Publicação
Elaborado pelo Sistema de Geração Automática da UFRJ com osdados fornecidos pelo(a) autor(a).
S729eSouza, Daniela Buarque de Macedo de Estimação Bayesiana de Pontos Ideais Via Dados doTwitter / Daniela Buarque de Macedo de Souza. --Rio de Janeiro, 2017. 107 f.
Orientador: Ralph dos Santos Silva. Coorientadora: Mariane Branco Alves. Dissertação (mestrado) - Universidade Federal doRio de Janeiro, Instituto de Matemática, Programade Pós-Graduação em Estatística, 2017.
1. modelos de espaços latentes. 2. modelosespaciais de votação nominal. 3. modelos de teoriada resposta ao item. 4. pontos ideais. I. Silva,Ralph dos Santos, orient. II. Alves, MarianeBranco, coorient. III. Título.
À Deus, à minha família e aos meus amigos.
iv
“Na majestosa harmonia do Universo e na sua impenetrável grandiosidade, ressalta, eloquente,a presença do amor de Deus."
(Divaldo Franco)
v
Agradecimentos
Agradeço primeiramente à Deus, pelo dom da vida, pela minha saúde perfeita e por sempreme amparar em todos os momentos da minha vida. Graças a sua ajuda e seu amparo conseguiconcluir mais essa etapa da minha vida!
Agradeço amorosamente à minha querida e amada família. Aos meus pais, Celia e Manoel,por todo amparo e carinho, por todos os momentos felizes que passamos juntos, pelo apoioincondicional e pelo incentivo aos estudos. À minha irmã Flávia por toda a paciência, cuidado eamor. Vocês são meu alicerce, minha base, meu porto seguro. Eu amo muito vocês e quero quesaibam que vocês foram essenciais para a conclusão de mais esse ciclo.
Agradeço aos meus queridos amigos, por estarem ao meu lado nos momentos difíceis, porme apoiarem e por me darem força para conseguir chegar até o final. Muito obrigada, amomuito vocês!
Agradeço aos meus orientadores Ralph e Mariane, por toda ajuda e paciência e por teremcontribuído significativamente para este trabalho.
Por fim, agradeço à CAPES pelo apoio financeiro que possibilitou o prosseguimento dosmeus estudos.
vi
Resumo
A estimação de variáveis latentes tem sido tema de diversos trabalhos na área da estatísticanas últimas décadas. Uma variável latente amplamente estudada pelos cientistas políticos éa posição ideológica. Modelos espaciais de votação nominal, modelos de teoria da respostaao item e modelos de espaços latentes aplicados às redes sociais são muito utilizados paraestimar tais posições ideológicas (pontos ideais). O avanço da tecnologia e o surgimento dasredes sociais permitiu a elaboração de modelos mais complexos que permitiram a estimaçãodos pontos ideais de milhares de indivíduos que não eram necessariamente políticos, como omodelo de Barberá (2015).
A presente dissertação teve por objetivo comparar diferentes modelos através de critérios decomparação e propor um novo modelo a partir do modelo de Barberá (2015). Foi conduzido umestudo de simulação baseado em dados artificiais gerados a partir dos modelos propostos, como intuito de avaliar as estimativas bayesianas dos parâmetros e, em seguida, ajustou-se os trêsmodelos a um conjunto de dados reais referente aos deputados federais e senadores brasileiros.
Palavras-Chaves: modelos de espaços latentes; modelos espaciais de votação nominal;modelos de teoria da resposta ao item; pontos ideais.
vii
Abstract
The estimation of latent variables has been the subject of several papers in the area ofstatistics in the last decades. A latent variable extensively studied by political scientists ispolitical orientation. Spatial models of roll-call voting, item-response theory models, andlatent spatial models applied to social networks are widely used to estimate such ideologicalorientation. The advancement of technology and the emergence of social networks has allowedthe development of more complex models that enabled the estimation of the ideal of thousandsof individuals who were not necessarily political, Barberá (2015).
The present dissertation aims to compare different models through comparison criterion andto propose a new model based on that of Barberá (2015). A simulation study was conductedbased on artificial data generated from the proposed models, in order to evaluate Bayesianestimates of parameters, and then the three models were adjusted to a set of real data referring toBrazilian federal deputies and senators.
Keywords: latent spatial models; spatial models of roll-call voting; item-response theorymodels; ideal points.
viii
Sumário
1 Introdução 11.1 Redes e era da informação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Correntes ideológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Conceitos preliminares 82.1 Modelos espaciais de votação nominal . . . . . . . . . . . . . . . . . . . . . . 82.2 Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3 Redes Sociais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4 Modelos de espaços latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3 Revisão de Inferência Bayesiana 243.1 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.1 Estimadores de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 263.1.2 Estimação intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Métodos de Monte Carlo via cadeias de Markov . . . . . . . . . . . . . . . . . 273.2.1 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . 283.2.2 Amostragem de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Critérios de seleção de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 313.3.1 Critério de informação do desvio . . . . . . . . . . . . . . . . . . . . . 313.3.2 Logaritmo da verossimilhança pseudo marginal . . . . . . . . . . . . . 32
3.4 Diagnósticos de Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . 333.4.1 Análise visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.4.2 Critério de Raftery e Lewis . . . . . . . . . . . . . . . . . . . . . . . . 33
ix
4 Metodologia 354.1 Modelos ajustados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2 Distribuição a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.3 Problemas de identificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 Estudo de Simulação 415.1 Análise de sensibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.2 Resultados do estudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.1 Cenário 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.2.2 Cenário 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.2.3 Cenário 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.2.4 Análise dos postos dos θ’s e φ’s . . . . . . . . . . . . . . . . . . . . . 735.2.5 Comparação dos modelos . . . . . . . . . . . . . . . . . . . . . . . . 77
6 Aplicação à dados reais 796.1 Comparação dos modelos propostos . . . . . . . . . . . . . . . . . . . . . . . 826.2 Resultados das análises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7 Considerações finais 96
A Apêndice A 98
x
Lista de Tabelas
5.1 Composição da matriz social para avaliar a influência de µβ . . . . . . . . . . . 425.2 Proporção de 1’s em cada quadrante de um determinado conjunto de dados
reorganizado com base nos valores verdadeiros dos θ’s e dos φ’s. . . . . . . . . 435.3 Número máximo de 1’s em cada quadrante da matriz social para calcular as
proporções. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.4 Sumário da distribuição a posteriori dos parâmetros γ, θ5, φ5, θ10 e φ10 sob o
ajuste do modelo gerador para 5 réplicas de Monte Carlo de cada modelo e paracada valor de µβ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5 Número de θ’s e φ’s que obtiverammenor VRM para cada valor de µβ considerado. 455.6 Cenários utilizados na implementação do estudo de simulação. . . . . . . . . . 465.7 Nomes, valores verdadeiros, postos e estatísticas de ordem referentes aos φ’s
verdadeiros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.1 Lista dos perfis que tiveram suas cadeias inicializadas em -1 ou 1. . . . . . . . 806.2 Resultados dos critérios de seleção de modelos DIC e LPML para os modelos
ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826.3 Estimativas das distribuições a posteriori provenientes do modelo logit com
intervalos de credibilidade de 95% referentes aos partidos políticos. . . . . . . 92
A.1 Lista dos deputados ordenados por partido. . . . . . . . . . . . . . . . . . . . 99A.2 Senadores ordenados por partido. . . . . . . . . . . . . . . . . . . . . . . . . . 102A.3 Lista dos atores políticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
xi
Lista de Figuras
1.1 Perfil do New York Times no Twitter. . . . . . . . . . . . . . . . . . . . . . . 41.2 Escala ideológica latente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Funções de utilidade normal e quadrática . . . . . . . . . . . . . . . . . . . . 112.2 Pontes de Königsberg. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3 Grafo G1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.4 Grafos G2 e G3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.5 Grafos G4 e G5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.6 Rede social e exemplos de grafos possíveis para descrever a rede. . . . . . . . . 192.7 Estrutura de uma rede social com 4 indivíduos. . . . . . . . . . . . . . . . . . 202.8 Estrutura da rede social descrita no Exemplo 2. . . . . . . . . . . . . . . . . . 212.9 Estrutura da rede social com 6 indivíduos descrita no Exemplo 2. . . . . . . . . 22
4.1 Curvas do inverso das funções de ligações probit, logit e t-Student. . . . . . . . 37
5.1 Máximo, para cada conjunto dado e considerando todos os parâmetros, donúmero mínimo de iterações necessárias para atingir a convergência, para cadaajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) eintervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de α e β, respectivamente, µα e µβ . Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 49
5.3 Valores verdadeiros versus valores estimados dos α’s. . . . . . . . . . . . . . . 505.4 Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às
100 réplicas simuladas do modelo logit. . . . . . . . . . . . . . . . . . . . . . 51
xii
5.5 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) eintervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ e φ, respectivamente, µθ e µφ. Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 52
5.6 Valores verdadeiros versus valores estimados dos θ’s. . . . . . . . . . . . . . . 535.7 Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às
100 réplicas simuladas do modelo logit. . . . . . . . . . . . . . . . . . . . . . 545.8 Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%
ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejadaem vermelho representa o valor verdadeiro de γ, 0,8, utilizado para a simulaçãodos dados logit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.9 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) eintervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ∗ =
√γθ e φ∗ =
√γφ, respectivamente, µ∗θ
e µ∗φ. Os modelos logit, probit e t-Student são comparados em cada painel. . . . 565.10 Probabilidades de seguimento verdadeiras e estimadas. . . . . . . . . . . . . . 575.11 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e
intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de α e β, respectivamente, µα e µβ . Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 58
5.12 Valores verdadeiros versus valores estimados dos α’s. . . . . . . . . . . . . . . 595.13 Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às
100 réplicas simuladas do modelo probit. . . . . . . . . . . . . . . . . . . . . 605.14 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e
intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ e φ, respectivamente, µθ e µφ. Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 61
5.15 Valores verdadeiros versus valores estimados dos θ’s. . . . . . . . . . . . . . . 625.16 Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às
100 réplicas simuladas do modelo probit. . . . . . . . . . . . . . . . . . . . . 62
xiii
5.17 Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejadaem vermelho representa o valor verdadeiro de γ, 0,8, utilizado para a simulaçãodos dados probit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.18 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) eintervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ∗ =
√γθ e φ∗ =
√γφ, respectivamente, µ∗θ
e µ∗φ. Os modelos logit, probit e t-Student são comparados em cada painel. . . . 645.19 Probabilidades de seguimento verdadeiras e estimadas. . . . . . . . . . . . . . 655.20 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e
intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de α e β, respectivamente, µα e µβ . Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 66
5.21 Valores verdadeiros versus valores estimados dos α’s. . . . . . . . . . . . . . . 675.22 Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às
100 réplicas simuladas do modelo t-Student. . . . . . . . . . . . . . . . . . . . 685.23 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e
intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ e φ, respectivamente, µθ e µφ. Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 69
5.24 Valores verdadeiros versus valores estimados dos θ’s. . . . . . . . . . . . . . . 705.25 Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às
100 réplicas simuladas do modelo t-Student. . . . . . . . . . . . . . . . . . . . 705.26 Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%
ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejadaem vermelho representa o valor verdadeiro de γ, 0,8, utilizado para a simulaçãodos dados t-Student. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
xiv
5.27 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) eintervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ∗ e φ∗, respectivamente, µ∗θ e µ∗φ. Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 72
5.28 Probabilidades de seguimento verdadeiras e estimadas. . . . . . . . . . . . . . 735.29 Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo que
engloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médiasa posteriori produzidas através do ajuste dos dados logit aos três modelos. . . . 75
5.30 Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo queengloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médiasa posteriori produzidas através do ajuste dos dados probit aos três modelos. . . 76
5.31 Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo queengloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médiasa posteriori produzidas através do ajuste dos dados t-Student aos três modelos. . 76
5.32 Porcentagem de vezes que o modelo gerador dos dados foi identificado correta-mente com base nos critérios DIC e LPML, para 100 replicações do modelologit, probit e t-Student. As abscissas correspondem aos conjuntos de dados eas legendas aos modelos que foram ajustados. . . . . . . . . . . . . . . . . . . 77
6.1 Resultados do critério de Raftery e Lewis (1992) para cada modelo, obtidoscom base no ajuste do conjunto de dados reais aos três modelos. . . . . . . . . 81
6.2 Comparação entre as estimativas dos pontos ideais produzidas pelo algoritmoIDEAL, referentes à primeira dimensão, e as produzidas pelos modelos logit,probit e t-Student que utilizam os dados do Twitter. . . . . . . . . . . . . . . . 81
6.3 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas são menores que -1. . . . . . . . . . . . . . . . . . . 84
6.4 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 1. . . . . . . . . . . . . . . . . . 85
6.5 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 2. . . . . . . . . . . . . . . . . . 86
6.6 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 3. . . . . . . . . . . . . . . . . . 87
6.7 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 4. . . . . . . . . . . . . . . . . . 88
xv
6.8 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas são maiores que 1. . . . . . . . . . . . . . . . . . . . 89
6.9 Pontos ideais estimados e intervalos de credibilidade de todos os senadores. . . 916.10 Pontos ideais estimados e intervalos de credibilidade de todos os partidos. . . . 936.11 Pontos ideais estimados e intervalos de credibilidade de todos os atores políticos. 95
xvi
Capítulo 1
Introdução
A estimação de variáveis latentes tem sido tema de diversos trabalhos na área da estatística nasúltimas décadas. São chamadas de variáveis latentes as variáveis que não podem ser observadasdiretamente, mas que podem ser inferidas por meio de variáveis diretamente observáveis (Martinet al., 2014). As variáveis nível socioeconômico, inteligência e posição ideológica são exemplosde variáveis latentes. Por exemplo, para medir a variável nível socieconômico será precisoutilizar variáveis observáveis tais como o nível de escolaridade ou renda.
Uma variável latente amplamente estudada pelos cientistas políticos é a posição ideológica.De acordo com Freeden (2013), a posição ideológica é um conjunto de ideias, crenças, opiniõese valores que definem a forma de pensamento político de um indivíduo ou de um determinadogrupo de indivíduos. Já que não é possível medir diretamente essa variável, será preciso observarvariáveis que permitam estimar essa quantidade. Nesse caso, um bom exemplo de variável é ovoto, que informa em qual partido ou candidato o indivíduo votou nas últimas eleições.
Os estudiosos da área de ciência política sempre buscaram métodos que os auxiliassema melhor compreender a decisão de voto de um indivíduo e uma das teorias utilizadas nesseprocesso foi a teoria espacial do voto, proposta por Downs (1957). Essa teoria parte dopressuposto de que o eleitor se comporta, diante de uma urna, como um consumidor no mercado.Ou seja, os eleitores possuem uma visão racional, em termos de custo benefício, que os fazeleger a alternativa que maximize seu bem estar. Os eleitores possuem um número finito dealternativas entre as quais eleger, e de acordo com as suas preferências individuais, escolhemaquela que lhes proporciona maior grau de satisfação ou utilidade. Fazendo uma analogia como mercado, pode-se pensar que os partidos oferecem diferentes “produtos” ou programas e oseleitores são os consumidores (Otero et al., 2012). Assim como no mercado os consumidorestendem a comprar os produtos que mais lhe agradam, na política os votantes tendem a eleger
1
partidos ou candidatos que possuam preferências políticas próximas às deles. Portanto, o modeloespacial proposto por Downs (1957) assume que cada indivíduo vota de acordo com a distânciaexistente entre a sua posição ideológica e as posições ideológicas dos partidos ou candidatos.
Modelos de espaços latentes para redes de conectividade (Hoff et al., 2002), e modelossimilares aos de teoria da resposta ao item, como os modelos espaciais de votação nominal(Clinton et al., 2004), têm sido muito utilizados para estimar as posições ideológicas de usuárioscomuns e de atores políticos. Os atores políticos são indivíduos ou grupos de indivíduos queexercem forte influência sobre as preferências políticas dos usuários comuns. No mundo atual,os principais jornais e revistas influenciam de maneira considerável a opinião política do cidadão.Por isso, além dos partidos políticos e dos políticos, esses últimos também são consideradosatores políticos, ou como o próprio nome diz, formadores de opinião.
Os modelos de espaços latentes investigam a relação entre os elementos da rede deconectividade e os modelos espaciais de votação nominal analisam o comportamento dosparlamentares nas votações nominais. As votações nominais são votações em que os membrosde uma instituição política (assembleias, congressos, câmara dos deputados, etc) podem votarcontra ou a favor um determinado projeto de lei. Os votos sim e não representam as alternativaspolíticas dos votantes, pois em uma votação eles têm a opção de votar a favor ou contra ao queestá sendo proposto. O principal problema em utilizar as votações nominais como fonte deinformação é que só é possível estimar as posições ideológicas dos indivíduos que participamdessas votações, ou seja, de determinados políticos. Com o passar dos anos, os pesquisadorespassaram a ter interesse em estimar também as posições ideológicas de usuários comuns, partidospolíticos, jornais e revistas, então foi necessário buscar outras fontes de dados e modelos quepermitissem essa estimação. O avanço da tecnologia e o surgimento das redes sociais permitiu aelaboração desses modelos, como por exemplo o modelo de Barberá (2015), que servirá comobase para os modelos adotados nesta dissertação.
Nesta dissertação, é crucial entender como funciona a rede social chamada Twitter, conheceras principais correntes ideológicas e reconhecer a importância das redes nos tempos atuais. Porisso, nas próximas subseções esses conceitos serão apresentados a fim de facilitar a leitura dotexto.
1.1 Redes e era da informaçãoHá muitos anos, fala-se em redes de informação, redes de transporte, redes biológicas e redes
elétricas. Uma rede é definida como um conjunto de elementos interligados através de conexões.
2
Esses elementos podem ser objetos, indivíduos, animais, etc. Nunca se ouviu falar tanto em“rede” como nos dias atuais, devido às chamadas redes sociais. Vivemos na era da informação ea cada momento somos surpreendidos com novas notícias, tecnologias e informações.
Como já se sabe, a rede mundial de computadores - chamada de internet - se tornou a principalfonte de informação da atualidade. Com seu avanço em meados dos anos 90, descobriu-se asvantagens de uma comunicação imediata e passou-se a buscar formas de se comunicar maisrapidamente. Dentro da internet existem diversos sítios que facilitam a comunicação entre aspessoas, que são as redes sociais. Uma rede social é definida como um conjunto de elementos- indivíduos, grupos de indivíduos e organizações - também chamados de atores, que estãoconectados por um ou vários tipos de relações que podem ser relações de amizade, parentesco,crenças religiosas, etc (Ferreira, 2011).
SegundoKadushin (2013), um dos princípios fundamentais para compreender as redes sociaisé a homofilia. De acordo com Lazarsfeld et al. (1954), a homofilia é tendência dos indivíduosem se relacionar com indivíduos semelhantes, seja com respeito a crenças, classe social, idade,educação, etc. Esse princípio supõe que se duas pessoas têm características semelhantes elas sãomais prováveis de estarem conectadas do que duas pessoas que não apresentam semelhanças.A recíproca também é verdade, isto é, se duas pessoas estão conectadas então é provável queelas tenham características ou atributos comuns. O princípio da homofilia se aplica a grupos,organizações, países e outras unidades sociais. Em uma grande variedade de estudos sobre rede,pode-se encontrar o princípio da homofilia.
As redes sociais influenciam a maneira como as pessoas se comunicam entre si, com ospolíticos ou com empresas. Elas têm tido um papel chave nas campanhas eleitorais, porquemuitos políticos e partidos políticos as têm visto como um meio para promover a sua imagem,seja compartilhando informações, falando ou criando uma relação mais direta com os eleitores.Devido à importância das redes sociais na política, muitos pesquisadores as consideram,atualmente, como um ambiente repleto de informações relevantes. Um exemplo destas redes é oTwitter1 - uma rede social muito utilizada em vários países.
1.2 TwitterAtualmente, o Twitter possui 320 milhões de usuários ativos, mensalmente, em todo mundo2.
O Twitter é uma rede social e servidor de mensagens curtas que permite aos usuários ler e postar
1https://twitter.com/2Fonte: https://about.twitter.com/company
3
mensagens com no máximo 140 caracteres. Estas mensagens curtas são denominadas tweets.O princípio básico do Twitter é permitir que as pessoas saibam o que as outras estão pensando
ou fazendo. É permitido postar imagens animadas (em formato GIF) e fotos, ambas de até 5MB,e vídeos de até 512MB. No Brasil, o Twitter tem sido muito utilizado por políticos, celebridades,empresas e por diversos usuários que almejam uma comunicação rápida.
O Twitter não é uma rede social difícil de se utilizar. Os usuários se comunicam atravésdos tweets, retweets, mentions, replies, hastags e mensagens diretas. Nesta dissertação, não sedefine todos estes recursos pois alguns deles não são considerados na análise estatística. Parautilizar o Twitter, é necessário escolher um nome de usuário, que é precedido pelo símbolo “@”.A identificação (ou o perfil) do usuário do Twitter é dada por seu nome de usuário. Por exemplo,na Figura 1.1 temos o perfil do jornal norte-americano New York Times no Twitter, cujo nome deusuário é “@nytimes”.
Figura 1.1: Perfil do New York Times no Twitter.
Observe que na Figura 1.1 consta o número de tweets escritos (245K, i.e 245 mil), aquantidade de followings (972) e followers (29.6M, i.e 29,6 milhões) do jornal. Para estadissertação, é essencial entender a diferença entre followers e followings. Suponha que Maria(@maria), Bruno (@bruno) e Carlos (@carlos), três pessoas fictícias, sejam usuários do Twitter.Se Maria escolhe seguir Bruno e Carlos no Twitter, diz-se que os followings (“amigos”) deMaria são Bruno e Carlos. Maria, que os segue, é denominada follower (“seguidora”) deles.Assim, o perfil do New York Times possui 972 amigos (followings) e aproximadamente 29,6milhões de seguidores (followers).
1.3 Correntes ideológicasNos sistemas políticos democráticos, os termos “direita” e “esquerda” são muito utilizados
para classificar ou definir as posições ideológicas de partidos políticos, de políticos e deindivíduos. Existe também o termo “centrista”, que é utilizado para classificar indivíduos ou
4
partidos políticos que apresentam características tanto de direita quanto de esquerda. Entender adiferença entre esses dois termos ajuda a compreender o comportamento de um indivíduo nahora da eleição ou a preferência por uma determinada proposta política.
Os modelos espaciais de votação nominal, que serão descritos no Capítulo 2, assumemque as alternativas políticas (resultados das votações nominais) podem ser representadas comopontos em um espaço euclidiano - uma linha, plano ou hiperplano. Os legisladores, por suavez, possuem preferências políticas definidas sobre essas alternativas. De acordo com McCarty(2011), as preferências políticas são de pico único (single-peakdness) e por isso, diante de todasas alternativas políticas possíveis, apenas uma é a preferida do legislador. Essa alternativapreferida é chamada de ponto ideal ou posição ideológica do legislador. Alguns autores assumemque a posição ideológica é uma variável bidimensional e outros, como Poole e Rosenthal (2000)consideram que ela é uma variável unidimensional. Por opção, assume-se nesta dissertação quea posição ideológica é uma variável unidimensional e que possui uma representação sobre umareta real, que também é chamada de escala latente. O ponto ideal, já mencionado anteriormente,é a representação da posição ideológica sobre a reta real. A Figura 1.2 exibe um exemplo destaescala ideológica.
-
Extrema
Esquerda
-
Esquerda
0
Centro
+
Direita
+
Extrema
Direita
Figura 1.2: Escala ideológica latente.
Em geral, assume-se que a posição ideológica de direita é representada pelos valores positivose a posição ideológica de esquerda pelos valores negativos. É possível definir o contrário, masessa convenção é utilizada nesta dissertação.
Note que existem os termos extrema direita e extrema esquerda na escala ideológica latente,além dos termos esquerda, direita e centro. Esses dois termos foram criados por cientistaspolíticos para se referir aos indivíduos que possuem posições ideológicas mais extremas. Nocontexto desta dissertação, isso significa dizer que existem indivíduos com pontos ideais bemmaiores do que outros (ou bem menores do que outros) e por isso eles serão tratados comoindivíduos mais extremos.
5
1.4 MotivaçãoA principal motivação para a construção desta dissertação foi o interesse em avaliar a
eficiência do modelo proposto por Barberá (2015) utilizando dados referentes ao Brasil e proporpossíveis modificações em seu modelo que possam contribuir para a literatura da área.
Uma rede social como o Twitter, que engloba uma enorme quantidade de informações arespeito de pessoas comuns, permite a estimação das posições ideológicas de usuários que nãosão necessariamente políticos e é por isso que o modelo proposto por Barberá (2015) é tãointeressante. Através dos dados do Twitter, será possível estimar, por exemplo, as posiçõesideológicas dos principais jornais e revistas do Brasil que possuam uma conta no Twitter. Usandoas estimativas das posições ideológicas dos deputados e senadores brasileiros que fazem partede um determinado partido, será possível estimar também a posição ideológica do partido.
No cenário brasileiro, pesquisadores do Núcleo de Estudos sobre o Congresso (NECON) daUniversidade Estadual do Rio de Janeiro utilizaram as votações nominais de 2011 a 2014 paraestimar as posições ideológicas dos deputados federais e dos senadores brasileiros em um estudorealizado em 2014. Os resultados do NECON podem ser utilizados para fins de comparaçãocom os resultados obtidos pela metodologia proposta por Barberá (2015) aplicado ao contextobrasileiro.
1.5 ObjetivoO principal objetivo desta dissertação é estudar o modelo proposto por Barberá (2015), que
é baseado na função de ligação logit. Existe o interesse em estudar suas propriedades e duaspossíveis modificações (função de ligação probit e t-Student). Além disso, deseja-se compararas estimativas obtidas através de três modelos, que diferem apenas pela função de ligação, paraverificar se existem diferenças significativas entre eles. Serão utilizados dois critérios de seleçãode modelos: o critério de informação do desvio (DIC, “Deviance Information Criterion”) e ologaritmo da verossimilhança pseudo marginal (LMPM,“Logarithm of the Pseudo MarginalLikelihood”).
Outro objetivo desta dissertação é estimar e analisar as posições ideológicas dos deputadosfederais, dos senadores e dos atores políticos do cenário brasileiro que possuem uma conta noTwitter.
Além da Introdução, a presente dissertação é dividida em seis capítulos e um apêndice. NoCapítulo 2, é apresentado um resumo sobre modelos espaciais de votação nominal, teoria de
6
grafos e modelos de espaço latentes aplicados às redes. No Capítulo 3, é apresentado um breveresumo sobre inferência bayesiana, método de Monte Carlo via Cadeias de Markov (MCMC),critérios de convergência e critérios de seleção de modelos. No Capítulo 4, é apresentadoo modelo proposto por Barberá (2015), seus respectivos problemas de identificação e suasrespectivas modificações. No Capítulo 5, são apresentados os resultados obtidos através deum estudo de simulação e, no Capítulo 6, são apresentados os resultados obtidos a partir daaplicação dos modelos a um conjunto de dados reais do Twitter. Finalmente, no Capítulo 7, sãoapresentadas as conclusões e as futuras investigações no contexto deste trabalho.
7
Capítulo 2
Conceitos preliminares
O modelo proposto por Barberá (2015) que será apresentado no Capítulo 4 é similar aosmodelos espaciais de votação nominal (Clinton et al., 2004), aos modelos de teoria da respostaao item (Masters et al., 1997) e aos modelos de espaços latentes aplicados às redes sociais (Hoffet al., 2002). Então, alguns desses modelos serão apresentados neste capítulo com a finalidadede ajudar o leitor a compreender a composição do modelo de Barberá (2015). Também serãoapresentados alguns conceitos referentes a grafos pois eles fazem parte do contexto dessesmodelos.
2.1 Modelos espaciais de votação nominalNesta seção, são apresentados alguns termos e conceitos relacionados aos modelos espaciais
de votação nominal. Todas as informações referentes a essa seção foram baseadas em Poole(2005).
Ao se utilizar votações nominais, dois modelos são amplamente conhecidos na estimaçãodos pontos ideais: o modelo NOMINATE, proposto por Poole e Rosenthal (2000) e o modeloIDEAL (Clinton et al., 2004). Estes se baseiam no modelo espacial do voto, proposto por Downs(1957), e assumem que cada legislador é representado por um ponto no espaço euclidiano ecada votação nominal é representada por dois pontos - um que corresponde à alternativa sim eoutro que corresponde à alternativa não. Em ambos os modelos é suposto que os legisladoresvotam de maneira sincera, ou seja, assume-se que os legisladores votam na alternativa políticamais próxima dos seus pontos ideais (Carroll et al., 2013).
De acordo com os modelos NOMINATE e IDEAL, cada legislador é descrito por umafunção de utilidade aleatória proposta por McFadden (1973). A utilidade de um legislador é
8
definida como o benefício obtido por ele, após tomar uma determinada decisão. A função deutilidade aleatória assume que a utilidade em escolher uma determinada alternativa política (simou não) é descrita por uma porção determinística, função da proximidade entre o ponto ideal dolegislador e o ponto associado à alternativa política escolhida, além de uma componente querepresenta a porção aleatória da função utilidade.
Suponha que existem p legisladores e q votações nominais, indexados por i = {1, ...p} ej = {1, ..., q}, e assuma que cada votação nominal só possui dois resultados possíveis, sim enão, indexados por k = {s, n}. A estrutura geral da função de utilidade é dada por:
Uijk = G(xi, Ojk) + εijk
= uijk + εijk,
sendo G uma função monótona decrescente da distância entre o ponto ideal do legislador e oponto associado à alternativa política. A parcela uijk = G(xi, Ojk) é a porção determinística eεijk é a porção aleatória da função utilidade. Formalmente, seja xi o ponto ideal do legisladori, Ojs o ponto no espaço associado à alternativa sim na votação nominal j e Ojn o ponto noespaço associado à alternativa não na votação nominal j. É importante notar que a função G édescrecente, pois o modelo parte do pressuposto que quanto maior a distância entre o pontoideal do legislador e a alternativa política escolhida, menor é a função utilidade.
As funções de utilidade do legislador i ao votar sim ou não são dadas por:
Uijs = uijs + εijs, e
Uijn = uijn + εijn.
sendo εijs e εijn as porções aleatórias das funções de utilidade ao votar sim ou não, respectiva-mente.
O legislador i vota sim, se e somente se, Uijs > Uijn, isto é, se a utilidade obtida votando simfor maior que a utilidade obtida votando não. De maneira equivalente, diz-se que o legislador ivota sim se Uijs − Uijn > 0.
A diferença entre as funções de utilidade do legislador i ao votar sim e não é:
Uijs − Uijn = uijs − uijn + εijs − εijn.
Pela diferença entre as funções de utilidade é possível notar que o legislador i vota sim se adiferença entre as porções determinísticas é maior que a diferença entre as porções aleatórias, ou
9
seja, se uijs − uijn > εijn − εijs e vota não se a diferença entre componentes determinísticas émenor que a diferença entre as componentes aleatórias, ou seja, se uijs − uijn < εijn − εijs.
Para calcular a probabilidade que o legislador vote sim ou não em determinada votaçãonominal é necessário assumir uma forma funcional para as porções aleatórias (erros). Assumaque Yij = 1 se o legislador i vota sim na votação nominal j e Yij = 0 caso contrário. Asprobabilidades são definidas por:
P (Legislador i vote sim na votação j) =P (Yij = 1)
=P (Uijs − Uijn > 0)
=P (εijn − εijs < uijs − uijn), e
P (Legislador i vote não na votação j) =P (Yij = 0)
=P (Uijs − Uijn < 0)
=P (εijn − εijs > uijs − uijn).
Os modelos NOMINATE e IDEAL apresentam uma diferença. Ela está na distribuiçãoassumida para as porções aleatórias (erros) e na forma funcional assumida para a porçãodeterminística da função utilidade.
As duas formas funcionais mais utilizadas para a função de utilidade determinística são aGaussiana e a quadrática. O método NOMINATE também é chamado de modelo de utilidadegaussiano pois assume uma função de utilidade determinística gaussiana. Já o método IDEALé chamado de modelo de utilidade quadrático pois assume uma função de utilidade quadrática.
A Figura 2.1 apresenta o gráfico das funções de utilidade determinísticas gaussiana equadrática. Note que as funções são muito semelhantes na região em que ambas são côncavas,mas apresentam algumas diferenças nas caudas. Nas caudas, sob a utilidade gaussiana, aperda marginal na utilidade diminui até convergir para um valor fixo (geralmente zero) e soba utilidade quadrática, a perda marginal na utilidade aumenta a uma taxa crescente. Pode-seafirmar, portanto, que sob a utilidade gaussiana os legisladores estão mais dispostos a apoiaruma alternativa política mais distante do ponto ideal, se comparado à utilidade quadrática.
10
Posição Ideológica
Util
idad
e
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
1.0
Figura 2.1: Funções de utilidade normal e quadrática. As linhas apresentam as funções deutilidade determinística normal (linha sólida) e quadrática (linha tracejada) para um eleitor componto ideal 0.
O modelo IDEAL assume que a forma funcional da parte determinística é descrita poruma função quadrática e que a diferença entre os erros tem distribuição normal padrão, isto é,εijn − εijs ∼ N(0, 1). As funções de utilidade do legislador i, ao votar sim ou não, são dadaspor:
UQuadijs = −‖xi −Ojs‖2 + εijs,
UQuadijn = −‖xi −Ojn‖2 + εijn.
Note que no caso univariado, ‖xi −Ojs‖2 = (xi −Ojs)2 e a probabilidade que o legislador
i vote sim na votação nominal j é:
11
P (Yij = 1) =P (Uijs − Uijn > 0)
=P (εijn − εijs < uijs − uijn)
=P (εijn − εijs < −(xi −Ojs)2 + (xi −Ojn)2)
=P (εijn − εijs < −(xi2 − 2xiOjs +O2
js) + (xi2 − 2xiOjn +O2
jn)
=P (εijn − εijs < 2xi(Ojs −Ojn)− (O2js −O2
jn))
=Φ(βjxi − αj),
sendo βj = 2(Ojs − Ojn), αj = (O2js − O2
jn) e Φ(.) a função de distribuição normal padrão.Esse modelo é equivalente ao modelo de Lord (1952), sendo βj o parâmetro de discriminaçãodo item e αj o parâmetro de dificuldade do item, mas no contexto das votações nominais o traçolatente (habilidade) xi representa o ponto ideal do i-ésimo legislador.
O modelo NOMINATE assume que a forma funcional da parte determinística é descritapor uma função normal e que a diferença entre os erros tem distribuição logística, isto é,εijn − εijs ∼ L(0, 1). As funções de utilidade do legislador i ao votar sim ou não são dadas por:
UNormijs = β exp{−1
2w2‖xi −Ojs‖2}+ εijs
UNormijn = β exp{−1
2w2‖xi −Ojn‖2}+ εijn
sendo β e w constantes.A probabilidade que o legislador i vote sim na votação nominal j é:
P (Yij = 1) =P (Uijs − Uijn > 0) = P (εijn − εijs < uijs − uijn)
=
∫ uijs−uijn
−∞
e−z
(1 + e−z)2dz.
Esse modelo é equivalente ao modelo de Birnbaum (1968).
2.2 GrafosNesta seção, são apresentados alguns termos e conceitos relacionados à teoria de grafos,
com base em Kolaczyk e Csárdi (2014).A teoria de grafos é uma área da matemática que estuda as relações entre os objetos de
uma coleção. O início dessa teoria se deu em 1736, quando Leonhard Euler solucionou o
12
“problema das pontes de Königsberg", também conhecido como o “problema das setes pontes deKönigsberg". Königsberg (atual Kaliningrado, Rússia) era uma cidade da Prússia Oriental. Poresta cidade passava o rio Pregel, que dividia a cidade em 4 áreas distintas, como pode ser vistona Figura 2.2.
Figura 2.2: Pontes de Königsberg.
Pela figura, é possível notar que as áreas da cidade eram unidas por sete pontes e por isso,para se deslocar de uma área para outra, pelo menos uma das pontes teria que ser utilizada.Muitos pesquisadores da época tinham interesse em descobrir se existia uma maneira de partirde um determinado ponto da cidade, passar pelas sete pontes uma única vez e depois retornar aomesmo ponto de partida. O interesse deles consistia em descobrir se existia um caminho queobedecesse a tais condições. Leonhard Euler foi quem provou que tal caminho não existia. Paraconseguir responder a essa questão, Euler substituiu cada área por um ponto e cada ponte poruma linha, criando um diagrama, denominado grafo.
Um grafo se representa graficamente como um conjunto de pontos (chamados vértices ounós) que são unidos por linhas (arestas).
A teoria de grafos encontra aplicação em diversas áreas da ciência, como física, química,tecnologias de comunicação, computação, etc. Os grafos são muito utilizados na resolução dediversos problemas, pois eles têm um enorme poder de concisão e representação da realidade.
Um grafo G = (VG, EG) é uma estrutura matemática composta por dois conjuntos finitos, oconjunto de vértices VG e o conjunto de arestas EG. Se o grafo G tem n vértices e m arestas,tem-se que VG = {v1, v2, ..., vn} eEG = {e1, e2, ..., em}, sendo ek = {vi, vj}, com k = 1, ...,m
e i, j = 1, ..., n. Os vértices vi e vj são denominados extremos de ek.Diz-se que os vértices vi e vj deG são adjacentes se existe uma aresta ek ∈ EG que relaciona
esses dois vértices. Se realmente existe essa aresta ek que relaciona esses dois vértices, diz-se
13
também que vi e vj são incidentes sobre a aresta ek. Os pares de vértices que não são adjacentessão denominados independentes.
Duas arestas são ditas adjacentes se elas são incidentes sobre o mesmo vértice e são ditasparalelas se elas possuem o mesmo vértice inicial, o mesmo vértice final e a mesma orientação.Diz-se que as arestas ek = {vi, vj} e fk = {vr, vs} são arestas independentes se não possuemnenhum vértice em comum, isto é, se {vi, vj} ∩ {vr, vs} = ∅. Uma aresta é denominada laçose ela começa e termina no mesmo vértice. A aresta do tipo {vi, vi} é denominada laço. Osconceitos de incidência e adjacência são importantes para estudar as relações entre os elementosdo grafo.
Na Figura 2.3 apresenta-se o grafo G1 para exemplificar os conceitos abordados até aqui.O grafo G1 possui quatro vértices, v1, v2, v3 e v4, e sete arestas e1 = {v1, v2}, e2 = {v1, v2},e3 = {v2, v3}, e4 = {v3, v3}, e5 = {v3, v4}, e6 = {v4, v4} e e7 = {v4, v1}. Observando estegrafo pode-se dizer que v1 e v2 são exemplos de vértices adjacentes e que ambos são incidentessobre as arestas e1 e e2. Os vértices v1 e v3 são independentes pois não existe uma aresta emEG1 que liga diretamente esses dois vértices. As arestas e5 e e7 são ditas adjacentes pois elasincidem sobre o mesmo vértice v4 e as arestas e3 e e7 são ditas independentes pois elas nãoincidem sobre os mesmos vértices, e consequentemente, não apresentam nenhum vértice emcomum.. As arestas e1 e e2 são ditas paralelas pois elas possuem o mesmo vértice inicial e omesmo vértice final. O grafo ainda apresenta dois laços, representados pelas arestas e4 e e5.
v1
v2 v3
v4
e2 e1
e3e4
e5
e6e7
Figura 2.3: Grafo G1.
A ordem de um grafo G é dada pelo número de vértices do conjunto VG, ou seja, |VG|, e otamanho do grafo G é dado pelo número de arestas no conjunto EG, ou seja, |EG|. Pela Figura2.3 pode-se observar que a ordem de G1 é quatro, pois o grafo tem quatro vértices e o tamanhode G1 é sete, pois ele tem sete arestas.
O grau de um vértice v emG, denotado por dG(v), é dado pelo número de arestas incidentesnele. O grau de entrada do vértice v, denotado por dGin(v), é igual ao número de arestas queentram nele e o grau de saída, denotado por dGout(v), é dado pelo número de arestas que saem
14
dele. Só tem sentido falar em grau de entrada e grau de saída quando o grafo é direcionado,conceito que será abordado mais tarde. Quando nenhuma aresta incide sobre um determinadovértice v, ou seja, quando o grau do vértice v é 0, ele é denominado de vértice isolado. PelaFigura 2.3 é possível obter o grau de cada vértice deG1: dG1(v1) = 3, dG1(v2) = 3, dG1(v3) = 4
e dG1(v4) = 4. O grafo G1 não possui nenhum vértice isolado.
Tipos de grafos
Um grafo é denominado simples se não possui arestas paralelas nem laços e é denominadomultigrafo se possui uma dessas características. Um exemplo de grafo simples é o grafo G2
representado na Figura 2.4a. Como exemplo de multigrafo tem-se o grafo G1, apresentado naFigura 2.3.
Um grafo dirigido G, também chamado de dígrafo, é um grafo no qual todas as arestas emEG possuem uma direção definida, isto é, cada aresta ek está identificada por um par ordenado(vi, vj) de vértices ao invés de um par não ordenado {vi, vj}. Em um grafo dirigido, o conjuntode arestas é formado apenas de pares ordenados. Neste grafo, a aresta (vi, vj) é diferente daaresta (vj, vi) para todo vi, vj ∈ V . O primeiro vértice do par é denominado vértice de origem e osegundo vértice de chegada. Um exemplo de grafo dirigido é o grafo G2, representado na Figura2.4a. Note que todas as arestas de G2 possuem uma direção. O grafo possui quatro vértices, v1,v2, v3 e v4, e quatro arestas e1 = (v1, v2), e2 = (v2, v3), e3 = (v3, v4) e e4 = (v4, v1).
Um grafo não dirigido é um grafo no qual todas as arestas em EG não possuem uma direçãodefinida. Um exemplo de grafo não dirigido é o grafo G1, representado na Figura 2.3, pois todasas arestas de G1 não possuem uma direção, ou seja, o conjunto EG1 é formado por pares nãoordenados de vértices.
Um grafoH = (VH , EH) é um subgrafo de outro grafoG = (VG, EG) se todos os vértices etodas as arestas deH pertencem aG, ou seja se VH ⊆ VG eEH ⊆ EG. Analisando as Figuras 2.3e 2.4b tem-se que VG1 = {v1, v2, v3, v4}, EG1 = {e1, e2, e3, e4, e5, e6, e7}, VG3 = {v1, v2, v3} eEG3 = {e1, e2}. Como VG3 ⊆ VG1 e EG1 ⊆ EG3 diz-se que G3, representado na Figura 2.4b éum subgrafo de G1.
15
v1
v2 v3
v4
e1
e2
e3
e4
(a) Grafo G2: Grafo simples e dirigido.
v1
v2 v3
e1
e2
(b) Grafo G3: Subgrafo não dirigido.
Figura 2.4: Grafos G2 e G3.
Um grafo é denominado regular quando todos os seus vértices têm o mesmo grau. Assim,diz-se que um grafo é r-regular se dG(v) = r para todo vértice v em VG. O grafo G2 é umexemplo de grafo regular. O grafo G2 é denominado 2-regular pois todos os seus vértices têmgrau 2.
Um grafo simples é denominado completo se cada vértice se liga a cada um dos outrosvértices através de uma aresta. Em um grafo completo, qualquer vértice v de VG é adjacentea todos os outros vértices de VG. Estes grafos são designados por K|VG|, onde |VG| é a ordemdo grafo, que já foi definida anteriormente. De maneira resumida, um grafo completo é umgrafo simples que contém o número máximo de arestas. Note que um grafo completo Kn én− 1-regular. Um exemplo de grafo completo está representado na Figura 2.5a.
Um grafo simplesG = (VG, EG) é denominado bipartido se o conjunto de vértices VG puderser particionado em dois conjuntos disjuntos VG1 e VG2, de tal maneira que toda aresta e ∈ EGliga um vértice de VG1 a outro vértice de VG2. Se cumpre que VG1 ∩ VG2 = ∅ e VG1 ∪ VG2 = V .Um exemplo de grafo bipartido está representado na Figura 2.5b. Um grafo bipartido no qualcada elemento de VG1 está ligado a todos os elementos de VG2 é denominado de grafo bipartidocompleto. Então, para um grafo ser bipartido completo é necessário que cada vértice do primeiroconjunto esteja ligado a todos os vértices do segundo conjunto.
16
v1
v2 v3
v4
(a) Grafo G4: Grafo completo.
1
2
3
4
5
VG5
1
VG5
2
(b) Grafo G5: Grafo bipartido.
Figura 2.5: Grafos G4 e G5.
Define-se um caminho de longitude l como uma sequência de vértices (v0, v1, ..., vl) taisque, para todo i tal que 1 ≤ i ≤ l, (vi−1, vi) ∈ E (se é um dígrafo) ou {vi−1, vi} ∈ E (se é umgrafo não dirigido). Um caminho é simples se todos os vértices do caminho são diferentes. Umciclo é um caminho que começa e acaba no mesmo vértice. Pela Figura 2.5a, pode-se dizer queum exemplo de caminho de longitude 4 que liga o vértice v1 ao vértice v4 é (v1, v2, v3, v4). Umexemplo de ciclo é o caminho (v1, v3, v4, v1), que é um caminho que começa em v1 e terminaem v1.
Matriz de adjacência
Existem diversas estruturas de dados que podem ser utilizadas para representar um grafo,mas uma das mais comuns é a matriz de adjacência. Considere um grafo G cujo conjunto devértices é VG = {v1, v2, ..., vn}. A matriz de adjacência Y associada a este grafo é uma matrizde dimensão n × n, sendo n o número de vértices, ou, n a ordem do grafo. Cada uma dascomponentes da matriz representa uma possibilidade de conexão: a componente yij representa apossibilidade de conexão entre o elemento da linha i e o elemento da coluna j. Os elementosdas linhas e das colunas são os vértices do grafo. Com base no grafo G, a entrada yij da matrizserá igual a 1 se a aresta {vi, vj} ∈ EG e será igual a 0 caso contrário. É importante notar quese o grafo não possui laços, a diagonal principal da matriz de adjacência será composta de zeros.
Já foi dito que um grafo dirigido é formado por pares ordenados de vértices e um grafo nãodirigido por pares não ordenados. Em um grafo não dirigido não existe diferença entre os paresde vértices (vi, vj) e (vj, vi), e portanto é fácil perceber que a matriz de adjacência de um grafonão dirigido é simétrica. No caso de um grafo dirigido, a matriz pode não ser simétrica, poispode existir uma ligação, por exemplo, do vértice vi para o vértice vj , mas não do vértice vj para
17
o vértice vi.Pode-se obter o grau, grau de entrada e o grau de saída de um vértice a partir da matriz de
adjacência. Dada uma matriz de adjacência Y, o grau de entrada do vértice vi é igual à somada coluna i da matriz Y, ou seja, Y+i =
∑j Yji, e o grau de saída é igual à soma da linha i da
matriz Y, ou seja, Yi+ =∑
j Yij .
2.3 Redes SociaisDe acordo com Aguirre (2011), “Uma rede social é uma estrutura social composta por um
conjunto finito de elementos e formada em torno de uma série de relações entre eles, que podeser representada através de grafos". A análise de redes sociais (ARS), também chamada deanálise estrutural, foca na estrutura das redes sociais para descobrir qual o efeito das relaçõessobre o comportamento dos indivíduos. O grafo que descreve uma rede social é composto porum conjunto de vértices ou nós, que representam os indivíduos ou atores da rede social, e umconjunto de arestas, que expressam as relações entre eles.
Segundo Hoff et al. (2002), uma rede social consiste em um conjunto de n elementose de uma variável aleatória Yij , medida para cada par ordenado (i, j) de elementos, sendoi, j = 1, ..., n. A variável Yij informa se o elemento i está ligado ao elemento j. Nos casos maissimples, Yij é uma variável dicotômica que indica a presença ou ausência de uma determinadarelação de interesse, como por exemplo a amizade entre as pessoas, as alianças entre empresas,ou o comércio entre países. Aqui, podemos definir Yij como sendo:
Yij =
1, se o elemento i está ligado ao elemento j;
0, caso contrário.(2.1)
Note que da maneira como Yij foi definida, o importante é descobrir se existe uma relaçãoentre o elemento i e o elemento j, e não a direção dessa relação, ou seja, se ela foi do elemento ipara o elemento j ou vice-versa. Em alguns modelos, a direção da relação entre os elementos éimportante. Dentro do contexto de rede social, a matriz de adjacência também pode ser chamadade matriz social. Na Figura 2.6a é apresentado um exemplo de rede social. Nessa rede existemtrês elementos: Daniela, Celia e Flávia. As linhas que unem os elementos da rede informam seelas são amigas no Facebook1. Ao invés de serem utilizados nomes para identificar os vérticesdo grafo, rotulam-se os vértices com letra e número. O indivíduo i é representado pelo vérticerotulado como vi. Assim, de acordo com a rede social em 2.6a, Daniela é representada pelo
1www.facebook.com
18
vértice v1, Celia pelo vértice v2 e Flávia pelo vértice v3. Nas Figuras 2.6b e 2.6c são apresentadosdois exemplos de grafos que podem descrever a rede social apresentada em 2.6a.
Daniela
Celia Flávia
(a) Rede social
v1
v2 v3
(b) G1: grafo direcionado
v1
v2 v3
(c) G2: grafo não-direcionado
Figura 2.6: Rede social e exemplos de grafos possíveis para descrever a rede.
Observe que linhas que unem os atores em 2.6a não possuem uma direção. Quando a direçãodas ligações entre os atores não é relevante, diz-se que a relação é bidirecional. Dado que adireção da ligação não é importante, um grafo não-direcionado é mais apropriado para descreveressa rede social. Portanto, o grafo G2 em 2.6c é o que melhor descreve a rede em 2.6a.
Em uma primeira classificação, as redes sociais são divididas em redes sociais direcionadase não-direcionadas. O Facebook, por exemplo, é uma rede social não direcionada pois a relaçãode amizade nessa rede social é bidirecional, já que a relação de amizade ocorre de ambos oslados. Se, por exemplo, o indivíduo A adiciona o indivíduo B no Facebook e este último aceita,eles se tornarão amigos a partir do momento da aceitação da solicitação de amizade. Já o Twitteré uma rede social direcionada pois a relação de amizade pode ocorrer apenas de um lado. Oindivíduo A pode seguir (uma espécie de adicionar no Twitter) o indivíduo B no Twitter, semque o B tenha que fazer o mesmo. A uma rede social não-direcionada associamos um grafonão-direcionado e a uma rede social direcionada associamos o que chamamos de dígrafo ougrafo direcionado.
Se a rede social é não direcionada e definimos Yij como sendo 1 se existe uma ligação dei para j e 0 caso contrário, as variáveis Yij e Yji são iguais e consequentemente assumem osmesmos valores. Se a rede social é direcionada,Yij e Yji são variáveis diferentes que podem ounão assumir os mesmos valores.
Serão apresentados a seguir dois exemplos com redes sociais distintas. O primeiro exemploserá baseado em uma rede social formada por um conjunto de indivíduos, com uma relaçãode amizade bidirecional cujo interesse é estudar a relação entre todos os indivíduos da rede.O segundo exemplo será baseado em uma rede social formada por dois grupos distintos deindivíduos, com uma relação de amizade unidirecional cujo interesse é estudar as relações
19
direcionais dos elementos do primeiro conjunto com os elementos do segundo conjunto.
Exemplo 1: Um conjunto de indivíduos, relação de amizade bidi-recional e interesse em estudar a relação entre todos os elementosda rede.
A rede social apresentada abaixo é formada por quatro indivíduos e a relação de amizadeentre eles se dá de maneira bidirecional. Define-se Yij como sendo:
Yij =
1, se existe uma relação de amizade entre o ator i e o ator j;
0, caso contrário.(2.2)
Como existem 4 indivíduos, então i, j = 1, ..., 4 e VG = v1, v2, v3, v4, que são os vértices dografo. Suponha que a rede social em que estão inseridos esses quatro indivíduos seja dada pelaFigura 2.7:
v1
v2 v3
v4
(a) Grafo.
v1 v2 v3 v4
v1 0 1 1 1
v2 1 0 1 0
v3 1 1 0 0
v4 1 0 0 0
(b) Matriz Social.
Figura 2.7: Estrutura de uma rede social com 4 indivíduos.
Como a rede é não-direcionada, os valores das variáveis Yij e Yji são iguais para i, j = 1, ..4..Note que neste exemplo foi avaliada a relação de amizade de cada um dos indivíduos da redecom os outros indivíduos restantes.
O modelo de Barberá (2015), que será apresentado no Capítulo 4, trata do caso em que nãoé necessário avaliar todas as relações da amizade da rede social porque existem relações quegeram pouca informação e por isso elas não serão analisadas.
Exemplo 2: Dois conjuntos de indivíduos e relação de amizadeunidirecional
Os dados que serão utilizados nesta dissertação são provenientes do Twitter, uma rede social
20
direcionada. Por isso, entender como funciona uma relação de amizade dentro dessa rede éde extrema importância. A rede social apresentada abaixo é formada por dois conjuntos deindivíduos: usuários comuns e os atores políticos que eles seguem no Twitter. No caso em queexistem dois conjuntos de indivíduos diferentes dentro de uma rede social, assuma que o índicei se refere ao primeiro conjunto e o índice j ao segundo. Se o primeiro conjunto é formado porn indivíduos e o segundo porm indivíduos, então i = 1, ..., n e j = 1, ...,m.
Suponha que existem apenas dois usuários comuns denominados de cidadãoA e cidadãoB equatro políticos denominados de João, Maria, Carlos e Bruna. Suponha também que não se teminteresse em avaliar a relação de amizade entre os políticos ou entre os usuários comuns. Tem-seinteresse apenas em avaliar a relação de amizade dos usuários comuns para com os políticos. Ocidadão A segue os políticos João, Maria e Carlos e o cidadão B segue os políticos Carlos eBruna. Para representar esses dois conjuntos de indivíduos em uma matriz de adjacência serápreciso utilizar uma matriz aumentada. A matriz final de interesse será uma parte dessa matrizaumentada. A estrutura da rede social apresentada pode ser vista na Figura 2.8.
Cidadão A Cidadão B
João Maria Carlos Bruna
Figura 2.8: Estrutura da rede social descrita no Exemplo 2.
Define-se Yij como sendo:
Yij =
1, se existe uma relação de amizade do elemento i para o elemento j;
0, caso contrário.(2.3)
O índice i se refere ao primeiro conjunto de dados, que de acordo com a rede social dada serefere aos dois usuários comuns A e B e o índice j se refere aos atores políticos que os usuárioscomuns seguem no Twitter. Assim, i = 1, 2 e j = 1, 2, 3, 4. O número de vértices do grafo éigual a 6. Para representar a rede social através de grafo será preciso rotular cada nó com osvalores de 1 a 6. As representações dos nós são: (v1) Cidadão A, (v1) Cidadão B, (v3) João, (v4)Maria, (v5) Carlos, (v6) Bruna. A rede social em que estão inseridos esses seis indivíduos estáapresentada abaixo:
21
v1 v2
v3 v4 v5 v6
(a) Grafo referente à rede descrita no Exemplo 2.
Cidadao A Cidadao B Joao Maria Carlos Bruna
Cidadao A − − 1 1 1 0
Cidadao B − − 0 0 1 1
Joao − − − − − −Maria − − − − − −Carlos − − − − − −Bruna − − − − − −
(b) Matriz social aumentada
Figura 2.9: Estrutura da rede social com 6 indivíduos descrita no Exemplo 2.
A parte delimitada na matriz social aumentada será a parte considerada pelo modelo deBarberá (2015), que é a matriz social de interesse. As outras relações foram representadas comtraços porque nesse contexto elas trazem pouca informação para o modelo.
2.4 Modelos de espaços latentesHoff et al. (2002) propuseram um modelo que assume que as relações observadas são
determinadas pelas características latentes não observadas dos atores. As características latentessão as posições desconhecidas dos atores no espaço latente euclidiano. O modelo tambémassume que a probabilidade de ligação entre dois atores é descrita por uma função da distânciadas posições latentes e que dadas as posições latentes de dois atores, a ligação entre eles éindependente das outras ligações da rede, isto é, o modelo assume independência condicional.
22
Considere uma rede formada porN atores (ou nós) e defina yij = 1, se existe uma ligação doelemento i para o elemento j ou yij = 0, caso contrário, para i, j = 1, ..., N . Denota-se por Y amatriz N ×N formada pelos elementos yij , que é chamada de matriz de adjacência ou matrizsocial. Assume-se que o vetor xij = (xij1, xij2, ..., xijL) representa às L covariáveis avaliadasno par (i, j) e X é a matriz que engloba todos esses vetores. Denota-se por Z a matriz N × kcuja i-ésima linha é formada pelo vetor zi de tamanho k, denotando a posição do elemento i noespaço euclidiano de dimensão k. O modelo é definido como:
P (Y|Z,X,θ) =∏i 6=j
P (yi,j|zi, zj, xij,θ), (2.4)
sendo xi,j as características observadas para cada par de atores, e θ e Z os parâmetros e asposições a serem estimados. Para a estimação desses parâmetros, Hoff et al. (2002) assumiramque P (yi,j|zi, zj, xij, θ) é descrito como um modelo logístico e que a probabilidade de ligaçãoentre dois atores depende da distância euclidiana entre zi e zj ,
ηij = log(
P (yij = 1|zi, zj, xij, α, β)
1− P (yij = 1|zi, zj, xij, α, β)
)= α + β
′xij − |zi − zj|.
Note que de acordo com o modelo, quanto menor a distância entre as posições latentes de doisatores, maior é a probabilidade deles estarem conectados. Essa característica está inteiramenteligada ao conceito de homofilia apresentado na Seção 1.1. A homofilia, como já foi visto, é atendência dos indivíduos semelhantes se relacionarem entre si. Para avaliar o quanto a distânciaentre as posições latentes influencia na probabilidade de relação entre os elementos, é possívelincluir uma constante não negativa na modelagem, representada pela letra γ:
ηij = log(
P (yij = 1|zi, zj, xij, γ, α, β)
1− P (yij = 1|zi, zj, xij, γ, α, β)
)= α + β
′xij − γ|zi − zj|.
No modelo de Barberá (2015), que será visto adiante, essa constante γ também está inclusa.
23
Capítulo 3
Revisão de Inferência Bayesiana
Em muitas áreas do conhecimento, o investigador tem interesse em analisar, descrever einterpretar os dados a fim de fazer inferências sobre eles. Em todo processo de inferênciaexiste uma componente de incerteza envolvida e o objetivo do investigador é reduzir essacomponente o máximo possível e também descrevê-la de maneira adequada. Existem duasprincipais abordagens de inferência na estatística: a inferência clássica (ou frequentista) e ainferência bayesiana. As principais diferenças entre essas abordagens e seus principais aspectosem comum serão abordados a seguir.
Ambas as abordagens utilizam modelos com parâmetros desconhecidos para descrever omundo real, isto é, observa-se a matriz social Y com densidade discreta ou contínua na famíliap(y|θ), com θ = (θ1, ..., θk)
′ ∈ Θ ⊂ Rk, sendo Θ o espaço paramétrico de θ. O marco teóricosobre o qual a inferência bayesiana se desenvolve é similar ao da clássica: existem parâmetrospopulacionais sobre os quais se deseja realizar o processo de inferência, descritos pelos vetorθ = (θ1, ..., θk)
′. A principal diferença entre a inferência clássica e a bayesiana é o tratamentodado aos parâmetros desconhecidos que se deseja estimar. Na inferência clássica, os parâmetrossão quantidades fixas e desconhecidas pertencentes a um determinado espaço e na inferênciabayesiana eles são tratados como variáveis aleatórias. O enfoque frequentista não supõe nenhumconhecimento prévio a respeito dos parâmetros, mas o enfoque bayesiano assume incertezados parâmetros que é representada pela priori. A distribuição a priori pode ser baseada emexperiências prévias similares ou pode apenas expressar uma crença subjetiva do investigador.
A metodologia bayesiana envolve três passos principais:
1º passo: escolher um modelo probabilístico para p(y|θ), a função de verossimilhança.
24
2º passo: escolher um modelo probabilístico para p(θ), a distribuição a priori.
3º passo: aplicar a regra de Bayes e calcular p(θ|y), a distribuição a posteriori.
Denota-se o espaço paramétrico por Θ e cada valor específico do parâmetro por θ. Ainformação amostral é representada por variáveis aleatórias com função de densidade oufunção de distribuição de probabilidade denotada por p(y|θ). No enfoque bayesiano p(y|θ) éinterpretada como a distribuição condicional da amostra y dado θ.
Uma vez observada a amostra y, é possível calcular a distribuição condicional de θ dado y.Essa distribuição é conhecida como distribuição a posteriori e é denotada por π(θ|y). Para obteressa distribuição, é necessário assumir uma distribuição a priori p(θ) para o vetor de parâmetrosθ, que representa o conhecimento ou ausência de conhecimento prévio que se tem sobre osparâmetros e estabelecer um modelo observacional p(y|θ) que representa a probabilidade de seobservar uma determinada amostra dado θ. O modelo observacional, quando considerado umafunção de θ, também é conhecido como função de verossimilhança. Para obter a distribuição aposteriori, utiliza-se o teorema de Bayes, que permite agregar o conhecimento prévio sobre θ eas informações provenientes da amostra. Dessa maneira tem-se que
π(θ|y) =p(y|θ)p(θ)
p(y),
sendo
p(y) =
∫Θ
p(y|θ)p(θ)dθ.
Observe que p(y) é uma constante de normalização que não depende de θ.
3.1 Estimação PontualO objetivo aqui é utilizar a distribuição a posteriori para obter um estimador pontual para
Θ. Seja Θ o espaço paramétrico ou espaço de estados da natureza, A o conjunto de decisõespossíveis, chamado de espaço de ações do tomador de decisão e a ∈ A uma ação. Associada comcada estimador a existe uma função perda L : Θ×A 7→ [0,+∞), L(θ, a), que é interpretadacomo a perda sofrida ao estimar θ por a. Define-se a perda esperada a posteriori como:
E[L(θ, a)|y] =
∫Θ
L(θ, a)π(θ|y)dθ
25
e o estimador pontual de θ é obtido através da minimização dessa perda esperada.Existem muitas funções perdas que podem ser utilizadas. A escolha particular de uma delas
depende do contexto do problema. As mais comumente usadas são:
• Função de perda quadrática: L(θ, a) = (θ − a)2
• Função de perda absoluta: L(θ, a) = |θ − a|
• Função de perda 0-1: L(θ, a) =
1, se |θ − a| > ε ;
0, se |θ − a| ≤ ε, sendo ε ≥ 0.
3.1.1 Estimadores de Bayes
O estimador de Bayes de θ é definido como aquele valor a = a(y) ∈ Θ que minimiza aperda esperada a posteriori, ou seja,
E[L(θ, a(y))|y] = mina∈Θ
E[L(θ, a(y)].
Os estimadores para as três funções de perda dadas acima são:
• Função de perda quadrática: o estimador de Bayes é a média a posteriori
θ∗(y) = E(θ|y).
• Função de perda absoluta: o estimador de Bayes é a mediana a posteriori
θ∗(y) = mediana(θ|y).
• Função de perda 0-1: o estimador de Bayes é a moda a posteriori
θ∗(y) = moda(θ|y).
Nesta dissertação utiliza-se a média a posteriori como estimador pontual das quantidadesdesconhecidas dos modelos.
26
3.1.2 Estimação intervalar
Outra maneira de estimar um parâmetro consiste em buscar não apenas um valor para θ,mas sim um conjunto de valores, um intervalo, no qual se tem alta probabilidade de encontrarθ. Suponha que θ é uma quantidade desconhecida definida em Θ. Uma região C ∈ Θ é umintervalo de credibilidade ou um intervalo bayesiano 100(1− α)% para θ se:
P (θ ∈ C|y) ≥ 1− α
Neste caso 1−α é chamado de nível de confiança ou credibilidade. No caso escalar, a regiãoC é dada pelo intervalo [c1, c2].
O intervalo de máxima densidade a posteriori (HPD) e 100(1− α)% para θ, é o intervalobayesiano dado por:
C = {θ ∈ Θ : P (θ|y) ≥ k}
onde k é o maior número tal que∫θ:P (θ|y)≥k
P (θ|y)dθ = 1− α
3.2 Métodos de Monte Carlo via cadeias de MarkovOs métodos de Monte Carlo via Cadeias de Markov (MCMC, abreviação do inglês) são
métodos de simulação que permitem obter amostras de distribuições de probabilidade que nãosão conhecidas ou que não possuem uma forma analítica fechada. No contexto bayesiano, osmétodos MCMC são utilizados para gerar amostras da distribuição a posteriori π(θ|y) paraconseguir estimar quantidades de interesse a posteriori, como por exemplo, a média a posteriori.A ideia fundamental dos métodos MCMC é a geração de uma cadeia de Markov cuja densidadeestacionária coincide com a densidade que se deseja amostrar. Uma cadeia de Markov a tempodiscreto é uma sucessão de variáveis aleatórias Xn, n 6= 1 que tomam valores em um conjuntofinito ou enumerável ε, conhecido como espaço de estados, e que satisfaz a seguinte propriedade
P (Xn+1 = j|X0 = i0, ..., Xn−1 = in−1, Xn = in) = P (Xn+1 = j|Xn = in) (3.1)
para todo n e para quaisquer estados i0, i1, ..., in, j em ε. A propriedade 3.1 é conhecida como apropriedade de Markov, que assume que o estado futuro depende apenas do estado presente e
27
independe dos estados passados.Suponha que existe o interesse em simular valores de uma distribuição a posteriori π(θ|y).
Os métodos MCMC consistem em simular uma cadeia de Markov (θ(t))t∈N cuja distribuiçãoestacionária é a distribuição de interesse π(θ|y). Cada valor simulado, θ(t), depende apenas doseu antecessor, θ(t−1). Se o algoritmo for implementado de maneira correta, a convergência dacadeia está garantida, independentemente dos valores iniciais (Tierney, 1994). Nessa situação,existe um valor b ∈ N suficientemente grande, tal que, θ(b),θ(b+1),θ(b+2), ... ∼ π(θ|y). Nanotação dos métodos MCMC, b recebe o nome de burn-in ou período de aquecimento e indica onúmero de iterações necessárias para que a cadeia convirja para a distribuição estacionária. Osprimeiros b valores da cadeia serão descartados e serão considerados apenas os valores restantes.
As cadeias de Markov que são utilizadas nos métodos MCMC geralmente possuem umespaço de estados contínuo. Tierney (1994) mostra que os algoritmos convergem para uma dis-tribuição ergódica estacionária π(θ|y) sujeita a três condições de regularidade: irredutibilidade,aperiodicidade e invariância. Para evitar a autocorrelação entre os valores simulados, isto é,para obter uma amostra aproximadamente independente de π(θ|y), pode-se selecionar valoresigualmente espaçados. Pode-se determinar um valor k, conhecido como thin, que informa acada quantas iterações um valor da cadeia deve ser selecionado para compor a amostra. Ao final,a amostra será formada pelos valores gerados da cadeia a cada k-ésima iteração após o períodode aquecimento, ou seja, θ(b+1), θ(b+k+1),θ(b+2k+1) e assim por diante. Dois métodos MCMCbastante populares são o algoritmo de Metropolis-Hastings e a amostragem de Gibbs.
3.2.1 Algoritmo de Metropolis-Hastings
O algoritmo de Metropolis foi originalmente proposto por Metropolis et al. (1953) emodificado por Hastings (1970). Este método geralmente é utilizado quando se deseja obter umaamostra de uma distribuição de probabilidade que não é conhecida. Assuma que p(θ) é umafunção de probabilidade ou função densidade de probabilidade de interesse, da qual deseja-seobter uma amostra de valores. Como não é possível amostrar diretamente de p(θ), o algoritmoutiliza uma distribuição auxiliar para gerar uma amostra aproximada de p(θ). Essa distribuiçãoauxiliar é denominada densidade proposta e é representada por q(θ). Como já foi abordadoacima, os métodos MCMC trabalham com cadeias de Markov e portanto é necessário conhecero valor atual da cadeia para começar a geração de valores. Suponha que o valor atual da cadeiade Markov é θ(t−1) e deseja-se atualizar esse valor para θ(t). Essa atualização será feita combase em q(.|θ(t−1)), que é a densidade proposta. O valor gerado a cada iteração é representadopor θ∗. O algoritmo de Metropolis-Hastings pode ser resumido da seguinte maneira:
28
1. Defina um valor inicial θ(0) para a cadeia de Markov;
2. Inicialize o contador t = 1;
3. Gere um valor proposto θ∗ a partir da densidade proposta q(θ|θ(t−1)).
4. Calcule a probabilidade de aceitar o valor proposto
α = mín
{1,
p(θ∗)q(θ(t−1)|θ∗)p(θ(t−1))q(θ∗|θ(t−1))
}
5. Gere um valor u da U(0, 1);
6. O novo valor θ(t) será
θ(t) =
θ∗, se u ≤ α;
θ(t−1), se u > α.
7. Faça t = t+ 1;
8. Repita os passos de 3 a 7 até que a convergência seja obtida e até obter o tamanho deamostra necessário para a inferência.
Em teoria se pode utilizar qualquer densidade proposta q(.|.). O mais importante é que sejafácil amostrar dessa densidade e que ela seja capaz de gerar valores que serão aceitos. Caso issonão aconteça, a cadeia pode passar largos períodos de tempo em um mesmo estado. Por isso, adesvantagem desse algoritmo é que dependendo da escolha da distribuição proposta, o númerode valores rejeitados pode ser muito alto e isso fará com que a cadeia quase não se mova. Paramaiores informações sobre algoritmo de Metropolis veja Gamerman e Lopes (2006).
3.2.2 Amostragem de Gibbs
A amostragem de Gibbs tem suas origens no artigo de Geman e Geman (1984), que tratado processamento de imagens. Neste artigo os autores utilizaram o algoritmo para simularvalores de uma distribuição de Gibbs e por isso o algoritmo recebeu o nome de amostragemde Gibbs. Entretanto, o algoritmo só ganhou notoriedade na área da estatística a partir dotrabalho de Gelfand e Smith (1990), que foram os primeiros autores a mostrar a generalização doalgoritmo, isto é, que ele poderia ser utilizado para gerar valores de outras distribuições que não adistribuição de Gibbs. A amostragem de Gibbs é um caso particular do algoritmo de Metropolisem que as distribuições condicionais completas assumem o papel da distribuição proposta e onde
29
a probabilidade de aceitação de cada valor gerado é 1. A ideia do algoritmo é transformar umproblema multivariado em uma sequência de problemas de menor dimensão e de fácil resolução.Seja π(θ|y) a distribuição de interesse da qual deseja-se amostrar, θ = (θ1, ..., θk)
′. Seja θ−l ovetor composto por todos os elementos de θ, exceto θl, isto é, θ−l = (θ1, θ2..., θl−1, θl+1, ..., θk)
′.Sejam p(θl|y,θ−l) as distribuições condicionais completas que são assumidas serem conhecidas.Suponha que para todo l = 1, ..., k seja possível simular da distribuição condicional completap(θl|y,θ−l). A amostragem de Gibbs consiste em um esquema iterativo de amostragem baseadoem sucessivas gerações das distribuições condicionais completas. Pode-se descrever o algoritmoda seguinte maneira:
1. Defina um vetor de valores iniciais para θ
θ(0) = (θ(0)1 , ..., θ
(0)k )′
2. Inicialize o contador em t = 1;
3. Obtenha θ(t) = (θ(t)1 , ..., θ
(t)k )′ através das sucessivas gerações das distribuições condicio-
nais completas, ou seja,
θ(t)1 ∼ π(θ1|y, θ(t−1)
2 , θ(t−1)3 , ..., θ
(t−1)k )
θ(t)2 ∼ π(θ2|y, θ(t)
1 , θ(t−1)3 , ..., θ
(t−1)k )
...
θ(t)k ∼ π(θk|y, θ(t)
1 , θ(t)2 , ..., θ
(t)k−1)
4. Faça t = t+ 1;
5. Repita os passos de 3 e 4 até que a convergência seja obtida e até obter o tamanho deamostra necessário para a inferência.
Após a convergência, todos os valores resultantes formam uma amostra de π(θ|y). Como naamostragem de Gibbs a probabilidade de aceitação de cada valor gerado é igual a 1, a cadeiasempre se moverá (Brown e Draper, 2000). A construção do algoritmo depende do conhecimentodas distribuições condicionais completas, então se essas distribuições não são conhecidas, épossível utilizar amostragem de Gibbs com passos de Metropolis.
Para maiores detalhes sobre os métodos MCMC veja Gamerman e Lopes (2006) e Robert eCasella (2009).
30
3.3 Critérios de seleção de modelosExistem muitos métodos para comparação e seleção de modelos. Não existe uma opinião
unânime sobre qual é o melhor critério para seleção de modelos, por isso aqui serão consideradoscritérios de informação e critérios preditivos. De acordo com García et al. (2014), os critériosde informação são funções do logaritmo da verossimilhança e possuem um termo de penalidadebaseado no número de parâmetros do modelo. Eles medem o ajuste de um modelo maximizandoo valor da função de verossimilhança com o uso de diferentes funções de penalidade. Os critériospreditivos utilizam os valores preditivos no cálculo. Nesta dissertação serão consideradoscritérios que possam ser obtidos via métodos MCMC, que são: o critério de informação dodesvio (DIC), Spiegelhalter et al. (2002), e o logaritmo da verossimilhança pseudo marginal(LPML), Ibrahim et al. (2001).
3.3.1 Critério de informação do desvio
O critério de informação do desvio (DIC), proposto por Spiegelhalter et al. (2002), é umcritério bayesiano baseado no desvio. É uma generalização do critério de informação de Akaike(AIC). O desvio é obtido a partir da seguinte equação:
D(θ) = −2logL(θ|y) + 2logf(y)
sendo L(θ|y) a verossimilhança e logf(y) um termo que depende unicamente dos dados. Comologf(y) não depende do vetor paramétrico θ, o termo 2logf(y) pode ser tratado como umaconstante. O DIC é calculado através da soma de duas componentes. A primeira é uma medidade adequação do modelo, chamada de desvio médio a posteriori e representada por D. Asegunda é uma medida de penalidade, chamada de número efetivo de parâmetros do modelo erepresentada por pD. As duas componentes são dadas pelas seguintes expressões:
D = Eθ|y[D(θ)] = Eθ|y[−2logL(θ|y) + 2logf(y)], e
pD =Eθ|y[D(θ)]−D(Eθ|y(θ))
=Eθ|y[−2logL(θ|y) + 2logf(y)] + 2logL(θ|y)
=D −D(θ).
A componente D(θ) utilizada no cálculo do pD representa o desvio avaliado em θ, que é
31
a média a posteriori de θ. É possível estimar D e D(θ) utilizando amostras da distribuição aposteriori. Seja (θ(1),θ(2), ...,θ(L)) amostra da distribuição a posteriori, sendo L o tamanho daamostra. Utilizando essa amostra, pode-se aproximar a medida D e D(θ) por:
D ≈ L−1
L∑l=1
−2logL(θ(l)|y),
D(θ) ≈ D
(L−1
L∑l=1
θ(l)
).
Finalmente o critério de informação do desvio de um modelo é definido como:
DIC = D + pD = 2D −D(θ) = D(θ) + 2pD
De acordo com este critério, o modelo com melhor ajuste será aquele com o menor valor deDIC.
3.3.2 Logaritmo da verossimilhança pseudo marginal
Para avaliar o desempenho dos modelos propostos também será utililizada a estatísticalogaritmo da verossimilhança pseudo marginal (LPML, abreviação do inglês). A estatísticaordenada preditiva condicional (CPO, abreviação do inglês) é uma ferramenta muito útil para aseleção de modelos que tem sido largamente utilizada na área da estatística em muitos contextose que é utilizada no cálculo do LPML. Uma descrição detalhada de como calcular o CPO podeser encontrada em Gelfand et al. (1992) e em Chen et al. (2012). Suponha que os dados y sãocompostos pelas observações y1, y2, ..., yn, assuma que condicionalmente a θ essas observaçõessão independentes e que y−i representa o conjunto de dados y sem a i-ésima observação yi.Desse modo, o CPO para a i-ésima observação é definido como:
CPOi = f(yi|y−i) =
[f(yi, y−i)f(y−i)
]=
[f(y)
f(y−i)
]=
[f(y−i)f(y)
]−1
=
[∫f(y−i|θ)f(θ)
f(y)dθ
]−1
=
[∫1
f(yi|θ)
f(y|θ)f(θ)
f(y)dθ
]−1
=
[∫1
f(yi|θ)f(θ|y)dθ
]−1
=
[Eθ|y
(1
f(yi|θ)
)]−1
32
sendo f(yi|y−i) a distribuição preditiva de yi, dadas as outras observações da amostra. Um valoralto de CPOi indica um bom ajuste do modelo. Chen et al. (2012) mostraram que o CPOi podeser aproximado por:
CPOi =
[1
L
L∑l=1
1
f(yi|θ(l))
]−1
em que θ(l), l = 1, ..., L é uma amostra da distribuição a posteriori de θ.De acordo com Upadhyay et al. (2015), a informação fornecida pelo CPOi sobre o ajuste do
modelo pode ser sumarizada usando a estatística LPML representada por:
LPML =n∑i=1
log(CPOi)
sendo n o tamanho da amostra observada. Um valor alto de LPML indica um melhor modelo(maior capacidade preditiva).
3.4 Diagnósticos de ConvergênciaQuando se executa um algoritmo MCMC, é importante verificar se os valores simulados
convergem para a distribuição estacionária π(θ|y). Existem vários procedimentos na literaturapara estudar a convergência de uma cadeia. A seguir será apresentado um breve resumo dosprocedimentos utilizados nesta dissertação para avaliar a convergência das cadeias.
3.4.1 Análise visual
Uma inspeção visual dos traços (representação gráfica como uma série temporal, dos valoresgerados a cada iteração) das cadeias é uma forma simples de monitorar a convergência. Aobservação das trajetórias de diferentes cadeias partindo de valores iniciais distintos permiteverificar se existe uma mistura das cadeias à medida que aumenta o número de iterações,indicando convergência em distribuição. Quando o traço da cadeia tem uma aparência aleatóriae estacionária, diz-se que existe indício de convergência.
3.4.2 Critério de Raftery e Lewis
Raftery e Lewis (1992) desenvolveram um método que determina o número de iteraçõesnecessárias para se obter a convergência, o número de iterações iniciais que devem ser descartadas(burn-in) e a distância mínima de uma iteração à outra para se obter uma amostra independente
33
(thin). Essa distância mínima é representada pela letra k e também pode ser chamada de fator dedependência. Esses valores são calculados garantindo que um quantil q seja estimado com umaprecisão r pré especificada, com probabilidade s. Para obter esses valores é necessário:
1. Especificar o quantil de interesse q (por exemplo, o quantil 0,025).
2. Especificar a precisão r para o quantil de interesse (por exemplo, se r = 0, 005, entãosignifica que deseja-se estimar o quantil 0,025 com precisão de ±0, 005).
3. Especificar a probabilidade s tal que q ∈ [q − r, q + r].
4. Calcular o comprimento mínimo da cadeia:
nmin =
[φ−1
(s+ 1
2
) √q(1− q)r
]2
.
sendo φ−1(.) a inversa da função de distribuição acumulada da normal padrão.Nesta dissertação será utilizado o programa JAGS1 (Just Another Gibbs Sampler, (Plummer,
2009)) e o pacote rjags (Plummer, 2013) do software estatístico livre R (Team, 2014) pararealizar as análises.
1http://mcmc-jags.sourceforge.net/
34
Capítulo 4
Metodologia
4.1 Modelos ajustadosBarberá (2015) propôs um modelo que permite a estimação das posições ideológicas dos
usuários comuns com base em quem eles seguem no Twitter. Assuma que cada usuárioi ∈ {1, ..., n} do Twitter pode escolher entre seguir ou não seguir outro usuário j ∈ {1, ...,m}.Nesta dissertação o índice i se refere aos deputados federais e aos senadores que possuem contano Twitter e o índice j aos atores políticos que possuem conta no Twitter. Para relembrar, osatores políticos são os formadores de opinião, isto é, partidos políticos, políticos, principaisjornais e revistas, pessoas influentes, etc.
Seja Yij uma variável dicotômica que informa se usuário i segue o ator político j no Twitter.Note que essa variável analisa se o usuário j é um following (amigo) do usuário i. Assim,define-se Yij como sendo:
Yij =
1, se o usuário i segue o ator político j no Twitter (i→ j);
0, caso contrário (i 6→ j).(4.1)
O conjunto com todas as variáveis Yij’s formam a rede de conectividade ou a rede social. Ahipótese chave do modelo de Barberá (2015) assume que o Twitter é uma rede social homofílica.No contexto desta dissertação, assumir homofilia é o mesmo que dizer que os usuários comunsdo Twitter preferem seguir atores políticos que tenham posições ideológicas similares às deles.Portanto, o valor da variável Yij é influenciado pelo grau de semelhança entre as posiçõesideológicas do usuário i e do ator político j. Quanto mais próximas forem as posições ideológicasdesses dois indivíduos, mais provável será a relação de amizade entre eles.
Seja θi a posição ideológica (ou ponto ideal) do usuário i e φj , o ponto ideal do ator
35
político j. Assume-se também que θi, φj ∈ <, ou seja, que a posição ideológica é uma variávelunidimensional (Poole e Rosenthal, 2000).
Com base na hipótese de homofilia, a probabilidade de um usuário i seguir ou não umdeterminado ator político j será função da distância euclidiana das posições ideológicas dessesdois usuários comuns: d(θi, φj) = γ‖θi − φj‖2, sendo γ uma constante de normalização.
A probabilidade do usuário i siga o ator político j também será função de duas outrasquantidades: αi e βj . O parâmetro αi mede o nível de interesse político do usuário i e βj mede apopularidade do ator político j. O primeiro leva em conta que alguns usuários comuns são maispoliticamente ativos do que outros, isto é, mais interessados em política. O segundo leva emconsideração o fato de que alguns atores políticos são mais provavelmente seguidos que outros,devido à popularidade do usuário do Twitter. Para evidenciar isso, Barberá (2015) comentaque o presidente dos Estados Unidos, Barack Obama, é mais provável de ser seguido que ummembro do congresso, pelo simples fato de que o presidente é mais popular nas redes sociaisqualquer um dos membros do congresso.
Nenhuma das quantidades descritas até aqui podem ser estimadas diretamente, pois sãoquantidades latentes. Portanto, existe o interesse em estimar, condicional aos dados observados,os valores de α = (α1, ..., αn)′, β = (β1, ..., βm)′, θ = (θ1, ..., θn)′, φ = (φ1, ..., φm)′ e γ.
Como Yij é uma variável binária que só pode assumir dois valores, sucesso (seguir) oufracasso (não seguir), pode-se dizer que Yij segue uma distribuição Bernoulli com média igual aπij , isto é: Yij|πij ∼ Bernoulli(πij) com E(Yij) = πij , i = 1, 2, ..., n e j = 1, 2, ...,m.
A probabilidade de que o usuário i siga o perfil do ator político j é formulada como:
P (yij = 1|αi, βj, γ, θi, φj) = πij =Ψ(αi + βj − γ×d(θi, φj))
=Ψ(αi + βj − γ‖θi − φj‖2)
=Ψ(ηij),
(4.2)
sendo ηij = αi + βj − γ‖θi − φj‖2 e Ψ uma função definida nos reais cuja imagem pertence aointervalo [0, 1]. O inverso de Ψ, ou seja, Ψ−1 é chamado de função de ligação. Serão ajustadostrês modelos nesta dissertação, o modelo do Barberá (M1) que considera função de ligaçãologit, o modelo de Imai et al. (2016) (M2) que considera função de ligação probit e o modeloproposto (M3) nesta dissertação, que considera como função de ligação a inversa da função dedistribuição acumulada t-Student. Então, os três modelos que serão ajustados são definidos por:
• M1 = Ψ−1(πij) = logit(πij) = log(
πij1−πij
);
36
• M2 = Ψ−1(πij) = probit(πij) = Φ−1(πij), sendo Φ a função de distribuição acumuladada normal padrão; e
• M3 = Ψ−1(πij) = F−11 (πij), sendo F1 a função de distribuição acumulada da t-Student
com 1 grau de liberdade.
Na Figura 4.1 são apresentadas as curvas do inverso das três funções de ligações:
−4 −2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
x
f(x)
probitlogitt−Student
Figura 4.1: Curvas do inverso das funções de ligações probit, logit e t-Student.
Pela Figura 4.1 é possível observar que as três curvas diferem nas caudas, isto é, nasprobabilidades referentes aos valores extremos. De acordo com Stock e Watson (2004), afunções de ligação logit e probit são semelhantes, exceto pela função utilizada para o cálculoda probabilidade. Elas são ditas semelhantes pois a curva logit tem a cauda ligeiramentemais pesada que a probit, produzindo uma estimação mais robusta. Em relação aos modelos,pode-se afirmar que o modelo logit é mais robusto que o modelo probit. O modelo t-Student éconsiderado mais robusto do que os outros dois modelos, pois permite acomodar valores maisextremos. Espera-se que o modelo t-Student produza uma estimação robusta que permita umamaior separabilidade entre os indivíduos mais extremos na escala latente.
37
4.2 Distribuição a posteriori
Nos três modelos é assumida independência local, ou seja, dados os parâmetros, as decisõesdos usuários comuns em seguir atores políticos distintos são estatisticamente independentes.Portanto, assumindo independência local, a função de verossimilhança é dada por:
p(y|θ,φ,α,β, γ) =n∏i=1
m∏j=1
πyijij (1− πij)1−yij ,
com y representando o vetor de dados observados yij para i ∈ {1, ..., n} e j ∈ {1, ...,m}. Oenfoque bayesiano será utilizado para a inferência das quantidades desconhecidas do modelo.Para completar o modelo, define-se a distribuições a priori como γ∼G(aγ, bγ), αi∼N (µα, σ
2α),
θi∼N (µθ, σ2θ) para i = 1, 2, ..., n, e βj∼N (µβ, σ
2β) e φj∼N (µφ, σ
2φ) para j = 1, 2, ...,m.
A distribuição a posteriori é, portanto, dada por
p(θ,φ,α,β, γ|y) ∝ p(y|θ,φ,α,β, γ)p(θ,φ,α,β, γ,µ,σ)
=n∏i=1
m∏j=1
πyijij (1− πij)1−yij
×n∏i=1
[N (αi|µα, σ2
α)N (θi|µθ, σ2θ)]
×m∏j=1
[N (βj|µβ, σ2
β)N (φj|µφ, σ2φ)]G(γ|aγ, bγ),
com N (x|µ, σ2) representando a função de densidade de probabilidade da variável X comdistribuição normal com média µ e variância σ2, e G(x|a, b) a função de densidade deprobabilidade da variável X com distribuição gama com média a/b e variância (a/b2).
Como a distribuição a posteriori não possui uma forma analítica fechada, a inferência dosparâmetros será feita através da amostra desta distribuição a posteriori obtida por métodos deMonte Carlo via cadeias de Markov.
4.3 Problemas de identificaçãoAlguns modelos paramétricos são não-identificáveis. Um modelo paramétrico é dito ser
não-identificável quando a expressão matemática do modelo permite que vários valores deparâmetros levem ao mesmo valor da verossimilhança. Neste caso não é possível identificar qualdos valores é o mais verossímil gerador dos dados da amostra. Se o modelo é não-identificável,pode ser possível identificá-lo reparametrizando-o ou impondo restrições sobre os parâmetros.
38
Os problemas de identificação existentes nos modelos tratados nesta dissertação são: additivealising, multiplicative alising e reflection invariance (Bafumi et al., 2005). Para resolver essesproblemas de identificação, alguns hiperparâmetros terão seus valores fixados.
• Additive Alising em α e β: o modelo é invariante a soma de uma constante k aos parâmetrosα’s e β’s.
P (yij = 1|αi, βj, γ, θi, φj) =Ψ(αi + βj − γ‖θi − φj‖2)
=Ψ((αi + k)︸ ︷︷ ︸α∗i
+ (βj − k)︸ ︷︷ ︸β∗j
−γ‖θi − φj‖2)
Observe que os vetores (αi, βj, γ, θi, φj) e (αi∗, βj
∗, γ, θi, φj) levam ao mesmo valor daverossimilhança. Conforme apresentado em Barberá (2015), para resolver esse problemade identificação, é possível fixar o valor de µα ou o valor de µβ. Também é possívelimpor uma restrição linear nos α’s ou nos β’s, como por exemplo fixar α1 = 0 ouβ1 = 0 ou impor uma restrição sobre a soma, como por exemplo assumir
∑ni=1 αi = 0 ou∑m
j=1 βj = 0. Optou-se em fixar o valor de µα em 0.
• Additive Alising em θ e φ: o modelo é invariante a soma de uma constante k aos θ’s e φ’s.
P (yij = 1|αi, βj, γ, θi, φj) =Ψ(αi + βj − γ‖θi − φj‖2)
=Ψ(αi + βj − γ‖ (θi + k)︸ ︷︷ ︸θ∗i
− (φj + k)︸ ︷︷ ︸φ∗j
‖2) (4.3)
Observe que os vetores (αi, βj, γ, θi, φj) e (αi, βj, γ, θi∗, φj
∗) levam ao mesmo valor daverossimilhança. Para resolver esse problema de identificação é necessário fixar o valor deµθ ou o valor de µφ. Também é possível resolver esse problema fixando θ1 = 1 ou φ1 = 1.Optou-se em fixar o valor de µθ em 0 (Barberá, 2015).
• Multiplicative Alising: o modelo é invariante a multiplicação de constante k 6= 0.
P (yij = 1|αi, βj, γ, θi, φj) =Ψ(αi + βj − γ‖θi − φj‖2)
=Ψ(αi + βj − (γ
k2︸︷︷︸γ∗
)× ( θik︸︷︷︸θ∗i
− φjk︸︷︷︸φ∗j
)2) (4.4)
39
Observe que os vetores (αi, βj, γ, θi, φj) e (αi, βj, γ, θi∗, φj
∗) levam ao mesmo valor daverossimilhança. Para resolver esse problema de identificação é necessário fixar o valorde σ2
θ ou o valor de σ2φ. Também é possível resolver esse problema fixando θ1 = −1 ou
φ1 = −1. Optou-se em fixar o valor de σ2θ em 1 (Barberá, 2015). No caso especial em
que k = −1, é possível chamar esse problema de reflection invariance.
Aos outros hiperparâmetros restantes foram atribuídas distribuições a priori vagas. As distri-buições a priori atribuídas a esses hiperparâmetros foram: µβ∼N (0; 1000), σ2
α∼GI(0, 01; 0, 01),σ2β∼GI(0, 01; 0, 01), µφ∼N (0; 1000), σ2
φ∼GI(0, 01; 0, 01) e γ∼G(0, 01; 0, 01).
40
Capítulo 5
Estudo de Simulação
Neste capítulo será apresentado um estudo simulação para avaliar a eficiência dos modeloslogit, probit e t-Student, apresentados no Capítulo 4. O objetivo deste estudo é analisar ocomportamento das estimativas bayesianas dos parâmetros, isto é, dos θ’s, α’s, β’s, φ’s e γ, combase no erro quadrático médio e na taxa de cobertura e comparar os três modelos através doscritérios DIC e LPML. Os dados para o estudo de Monte Carlo, também chamados de réplicasde Monte Carlo, foram gerados a partir dos três modelos, considerando o mesmo tamanho de nem.
Antes da realização do estudo de simulação, realizou-se uma análise de sensibilidade emtorno do hiperparâmetro µβ, para escolher um valor que fosse capaz de refletir a hipótese dehomofilia assumida nos modelos.
5.1 Análise de sensibilidadeNesta seção serão avaliadas as estruturas das matrizes sociais (dados simulados) em função
dos valores de µβ e o quanto essas estruturas influenciam na qualidade do ajuste.Foram geradas R = 5 réplicas de Monte Carlo a partir dos três modelos, com n = 200
e m = 20 e para quatro valores diferentes de µβ: µ∗β = (0, 1, 2, 3). Portanto, 20 réplicas deMonte Carlo foram geradas a partir do modelo logit: cinco réplicas considerando µβ = 0, cincoréplicas considerando µβ = 1, cinco réplicas considerando µβ = 2 e cinco réplicas considerandoµβ = 3. O mesmo vale para os dados probit e t-Student. Os dados foram gerados com aseguinte configuração de hiperparâmetros e do parâmetro γ: µα = 0, σ2
α = 0, 25, σ2β = 0, 25,
µθ = 0, σ2θ = 1, µφ = 0, σ2
φ = 3, 25 e γ = 0, 8. Considerou-se o ajuste dos conjuntos dedados logit ao modelo logit, dos conjuntos de dados probit ao modelo probit e dos conjuntos de
41
dados t-Student ao modelo t-Student. Para cada conjunto de dados , considerou-se 3 cadeiasde Markov de tamanho 25.000, com um período de aquecimento (burn-in) de 5.000, e umadefasagem de 50, resultando em uma amostra final de tamanho 1.200. Para cada réplica foramobtidos a média e o desvio padrão a posteriori dos parâmetros e o viés relativo médio (VRM),
dado por V RM(θ) =R∑i=1
(θ(i) − θv)2/(|θv|R), sendo θ o parâmetro de interesse, θ(i) a média da
distribuição a posteriori do parâmetro θ para a réplica i, θv o valor verdadeiro do parâmetro θ eR o número de réplicas de Monte Carlo.
Para analisar a influência de µβ sobre a composição de uma dada matriz social, assumiu-seque suas linhas e colunas foram reorganizadas, seguindo a mesma ordem dos parâmetros θ’s eφ’s verdadeiros. Ao final, cada matriz ficou dividida em quatro partes como apresentado naTabela 5.1.
Tabela 5.1: Composição da matriz social para avaliar a influência de µβ .
θ’s verdadeiros
φ’s verdadeiros︷ ︸︸ ︷- +
- Esquerda-Esquerda Esquerda-Direita+ Direita-Esquerda Direita-Direita
Emcadamatriz é esperado que a proporção de 1’s no primeiro (esquerda-esquerda) e no quarto(direita-direita) quadrantes sejam superior à proporção de 1’s no segundo (esquerda-direita) eterceiro (direita-esquerda) quadrantes, devido a hipótese de homofilia.
A Tabela 5.2 apresenta a proporção de 1’s em cada quadrante de cada um dos conjuntos dedados gerados para diferentes valores de µβ. Note que quanto maior o valor de µβ, maior é aproporção de 1’s em cada quadrante de cada um dos conjuntos de dados gerados. À medida queµβ aumenta, a soma das colunas também aumenta, indicando que os atores políticos estão sendomais seguidos pelos usuários comuns. Avaliando a influência de µβ sobre a esparsidade damatriz, pode-se afirmar que quanto maior o valor µβ , menor é a quantidade de zeros na matrizsocial e portanto menos esparsa é a matriz social. É importante acrescentar que toda essa análisetambém poderia ter sido feita com µα.
Para construir a Tabela 5.2 foi necessário primeiramente ordenar os valores verdadeiros dosθ’s e dos φ’s para descobrir o número máximo de ligações (1’s) em cada quadrante de cadamatriz social. Dos θ’s verdadeiros, 103 são negativos e 97 são positivos e dos φ’s verdadeiros,9 são negativos e 11 são positivos. A proporção de 1’s foi calculada com base na quantidademáxima de ligações em cada quadrante, que está descrita na Tabela 5.3.
42
Tabela5.2:
Prop
orçãode
1’se
mcada
quadrantede
umdeterm
inadoconjun
tode
dado
sreorganizadocom
base
nosv
alores
verdadeirosd
osθ’se
dosφ
’s.
Dado
slog
itDa
dosp
robit
Dado
st-Stude
nt
Esquerda
Esquerda-
Dire
itaDire
ita-
Esquerda
Dire
itaEs
querda
Esquerda-
Dire
itaDire
ita-
Esquerda
Dire
itaEs
querda
Esquerda-
Dire
itaDire
ita-
Esquerda
Dire
ita
µβ
=0
Dado1
38,4%
12,0%
11,0%
33,6%
35,2%
6,80
%8,25
%31
,7%
38,6%
14,7%
13,7%
33,6%
Dado2
39,7%
11,1%
12,6%
34,5%
34,4%
6,53
%7,79
%29
,5%
37,8%
14,4%
14,7%
35,8%
Dado3
37,9%
10,4%
12,5%
36,4%
33,8%
6,88
%8,02
%31
,3%
39,1%
15,7%
14,9%
35,0%
Dado4
39,1%
11,2%
12,9%
35,2%
35,7%
6,18
%9,05
%33
,5%
38,9%
14,2%
14,9%
35,5%
Dado5
38,7%
12,1%
13,1%
36,8%
36,6%
6,88
%9,62
%32
,3%
38,7%
13,8%
15,5%
37,3%
µβ
=1
Dado1
58,0%
22,8%
22,6%
55,9%
61,3%
18,5%
19,1%
58,9%
58,5%
25,2%
25,5%
56,8%
Dado2
57,4%
21,7%
21,6%
57,9%
62,2%
18,9%
19,2%
60,5%
58,4%
24,2%
23,5%
59,2%
Dado3
60,8%
22%
20,6%
54,5%
61,7%
18,0%
18,9%
57,1%
60,6%
25,6%
23,1%
54,8%
Dado4
58,5%
21,1%
23,5%
55,5%
62,5%
19,6%
20,6%
59,1%
59,3%
23,0%
24,9%
56,3%
Dado5
59,1%
21,3%
23,1%
56,3%
62,7%
19,7%
19,9%
58,9%
59,9%
24,4%
25,4%
57,1%
µβ
=2
Dado1
75,4%
36,5%
33,9%
72,6%
81,2%
34,9%
33,8%
80,3%
74,6%
38,3%
35,5%
71,2%
Dado2
75,9%
35,8%
36,1%
75,4%
81,7%
35,1%
35,5%
80,3%
73,7%
37,5%
37,9%
74,4%
Dado3
75,5%
35,2%
35,1%
72,5%
82,4%
34,3%
34,2%
80,1%
75,3%
37,2%
36,7%
72,2%
Dado4
74,0%
34,0%
33,7%
70,9%
81,7%
34,2%
33,7%
81,1%
73,4%
35,4%
34,6%
70,6%
Dado5
76,7%
37,4%
36,1%
71,1%
83,3%
36,4%
36,5%
79,4%
76,2%
39,5%
37,6%
70,9%
µβ
=3
Dado1
87,1%
48,5%
47,9%
86,4%
92,0%
50,0%
49,7%
92,0%
83,2%
48,5%
47,4%
82,7%
Dado2
86,9%
47,6%
48,1%
84,5%
92,0%
49,9%
49,7%
91,5%
83,5%
48,2%
47,7%
82,4%
Dado3
87,9%
48,8%
46,6%
86,2%
92,6%
50,3%
48,2%
92,4%
84,7%
48,2%
48,1%
82,8%
Dado4
86,1%
47,4%
45,6%
85,3%
92,2%
49,9%
48,1%
92,4%
81,8%
47,3%
45,7%
81,8%
Dado5
87,3%
49,0%
47,2%
86,6%
92,4%
50,2%
49,0%
92,9%
84,6%
49,4%
47,8%
82,3%
43
Tabela 5.3: Número máximo de 1’s em cada quadrante da matriz social para calcular asproporções.
θ’s verdadeiros
φ’s verdadeiros︷ ︸︸ ︷- +
- 103× 9 = 927 103× 11 = 1133
+ 97× 9 = 873 97× 11 = 1067
Com o objetivo de estudar as propriedades frequentistas da média a posteriori, comoestimador dos parâmetros de interesse, construiu-se a Tabela 5.4, que apresenta a média dasmédias a posteriori, o desvio padrão das médias a posteriori e o viés relativo médio (VRM) dasmédias a posteriori calculados com base nas 5 réplicas de Monte Carlo geradas a partir dos trêsmodelos e para cada valor de µβ .
Tabela 5.4: Sumário da distribuição a posteriori dos parâmetros γ, θ5, φ5, θ10 e φ10 sob o ajustedo modelo gerador para 5 réplicas de Monte Carlo de cada modelo e para cada valor de µβ .
logit-logit probit-probit Student-StudentValor
verdadeiroMédia (DP) VRM Média (DP) VRM Média (DP) VRM
µβ = 0
γ 0,80 0,816 (0,067) 0,005 0,775 (0,089) 0,009 0,781 (0,092) 0,009θ5 -1,58 -1,197 (0,359) 0,160 -1,207 (0,189) 0,109 -1,056 (0,654) 0,393φ5 -2,58 -2,259 (0,138) 0,046 -2,279 (0,232) 0,052 -2,040 (0,311) 0,143θ10 0,56 0,590 (0,366) 0,191 0,488 (0,202) 0,068 0,437 (0,550) 0,457φ10 -1,53 -1,416 (0,242) 0,039 -1,570 (0,114) 0,008 -1,662 (0,177) 0,028
µβ = 1
γ 0,80 0,817 (0,083) 0,007 0,798 (0,035) 0,001 0,754 (0,106) 0,014θ5 -1,58 -1,658 (0,272) 0,041 -1,64 (0,391) 0,079 -1,676 (0,330) 0,060φ5 -2,58 -2,36 (0,145) 0,025 -2,408 (0,137) 0,017 -2,371 (0,262) 0,038θ10 0,56 0,701 (0,206) 0,093 0,705 (0,157) 0,070 0,744 (0,26) 0,153φ10 -1,53 -1,485 (0,152) 0,013 -1,417 (0,02) 0,008 -1,565 (0,222) 0,027
µβ = 2
γ 0,80 0,820 (0,056) 0,004 0,850 (0,031) 0,004 0,825 (0,086) 0,008θ5 -1,58 -1,759 (0,226) 0,045 -1,585 (0,168) 0,014 -1,684 (0,144) 0,017φ5 -2,58 -2,342 (0,09) 0,025 -2,321 (0,112) 0,030 -2,316 (0,182) 0,037θ10 0,56 0,543 (0,200) 0,058 0,557 (0,073) 0,008 0,559 (0,157) 0,035φ10 -1,53 -1,421 (0,171) 0,023 -1,420 (0,070) 0,010 -1,413 (0,118) 0,016
µβ = 3
γ 0,80 0,841 (0,054) 0,005 0,812 (0,035) 0,001 0,866 (0,088) 0,013θ5 -1,58 -1,729 (0,245) 0,043 -1,673 (0,112) 0,011 -1,707 (0,196) 0,029φ5 -2,58 -2,295 (0,042) 0,032 -2,321 (0,054) 0,027 -2,249 (0,107) 0,046θ10 0,56 0,697 (0,110) 0,048 0,663 (0,125) 0,039 0,714 (0,129) 0,063φ10 -1,53 -1,438 (0,169) 0,020 -1,435 (0,089) 0,010 -1,366 (0,115) 0,024
Pode-se observar na Tabela 5.4 que os parâmetros estão sendo satisfatoriamente estimadospois as médias das médias a posteriori estão bem próximas do verdadeiro valor do parâmetro,
44
com desvios padrões e vícios relativos médios pequenos. Os valores em negrito na Tabela 5.4indicam para qual valor de µβ os parâmetros obtiveram o menor vício relativo médio. Então, porexemplo, considerando os dados logit sob o ajuste do modelo logit (primeira coluna da tabela),note que o parâmetro γ obteve o menor vício relativo médio (0,004) para µβ = 2 e o parâmetroθ5 obteve o menor vício relativo médio (0,041) para µβ = 1. Considerando os dados probit sobo ajuste do modelo probit (segunda coluna da tabela), note que o parâmetro γ obteve o menorvício relativo médio (0,001) para µβ = 3 e o parâmetro θ5 obteve o menor vício relativo médio(0,011) para µβ = 3.
Para resumir toda a informação proveniente do VRM de todos os parâmetros, calculou-se aquantidade de θ’s e φ’s que obtiveram seu menor VRM sob um determinado valor de µβ . Essainformação está resumida na Tabela 5.5.
Tabela 5.5: Número de θ’s e φ’s que obtiveram menor VRM para cada valor de µβ considerado.
logit-logit probit-probit student-studentµβ = 0 31 16 18µβ = 1 44 64 44µβ = 2 55 68 65µβ = 3 94 78 96
É possível verificar na Tabela 5.5 que, sob o ajuste do modelo logit, 31 θ’s e φ’s tiverammenor VRM quando os dados logit foram gerados a partir de µβ = 0, 44 θ’s e φ’s tiveram menorVRM quando os dados logit foram gerados a partir de µβ = 1, 55 θ’s e φ’s tiveram menor VRMquando os dados foram gerados a partir de µβ = 2 e 94 θ’s e φ’s tiveram menor VRM quando osdados foram gerados a partir de µβ = 3. Pode-se perceber que conforme aumenta o tamanho deµβ , maior o número de θ’s e φ’s que são estimados com menor VRM. Isso vale também para osdados probit ajustados sob o modelo probit e para os dados t-Student ajustados sob o modelot-Student.
Para a geração dos conjuntos de dados do estudo de simulação escolheu-se µβ = 1, poiso objetivo desta análise de sensibilidade era determinar um valor de µβ que gerasse matrizessociais informativas e representativas da realidade. Obviamente, matrizes sociais geradas apartir de µβ = 2 ou µβ = 3 são muito informativas, mas, não são tão representativas da realidadedevido à enorme quantidade de ligações existentes entre os elementos das linhas e das colunas.
Um fato importante é que não faz diferença fixar µβ = 1 ou µα = 1 para a geração dosconjuntos de dados. Fixando um ou outro as estimativas dos θ’s e φ’s serão as mesmas no final.
45
5.2 Resultados do estudoNesta seção serão apresentados os resultados do estudo de simulação. O estudo foi dividido
em três cenários descritos na Tabela 5.6.
Tabela 5.6: Cenários utilizados na implementação do estudo de simulação.
Cenários Modelo Verdadeiro Modelo AjustadoCenário 1 logit logit, probit, t-StudentCenário 2 probit logit, probit, t-StudentCenário 3 t-Student logit, probit, t-Student
Foram geradas R = 100 réplicas de Monte Carlo a partir dos três modelos, com n = 200 em = 20. Dentro do contexto da estimação de posição ideológica política, isso equivale a 200usuários comuns e 20 atores políticos. Os dados foram gerados com a seguinte configuração dehiperparâmetros e do parâmetro γ: µα = 0, σ2
α = 0, 25, µβ = 1 σ2β = 0, 25, µθ = 0, σ2
θ = 1,µφ = 0, σ2
φ = 3, 25 e γ = 0, 8. θ’s, α’s e β’s verdadeiros foram gerados a partir das distribuiçõesN (0; 1), N (0; 0, 25) e N (1; 0, 25), respectivamente, e os φ’s verdadeiros a partir da mistura0, 5N (−1, 5; 1)+0, 5N (1, 5; 1), conforme descrito em Barberá (2015). Com essas informações,foi possível calcular ηij para cada i e cada j, e gerar yij do modelo Bernoulli com probabilidadesde seguimento do elemento i para o elemento j dadas por logit−1(ηij), probit−1(ηij) e F1(ηij),como indicado em 4.2. Considerou-se o ajuste de cada conjunto de dados aos três modelos, quediferem apenas na função de ligação. No processo de estimaçao, foi necessário fixar µα = 0,µθ = 0 e σ2
θ = 1 para resolver os problemas de identificação dos modelos. Para cada conjunto dedados , considerou-se 3 cadeias de Markov de tamanho 25.000, com um período de aquecimento(burn-in) de 5.000, e uma defasagem de 50, resultando em uma amostra final de tamanho 1.200.
Após o ajuste, via MCMC, de cada um dos três modelos a cada uma das 100 réplicas deMonte Carlo e após a verificação da convergência dos parâmetros, foram calculados o EQM (erroquadrático médio) e a taxa de cobertura (proporção de vezes que o verdadeiro valor do parâmetroestava contido nos intervalos de credibilidade). O erro quadrático médio é definido como
EQM(θ) =R∑i=1
(θ(i) − θv)2/R, sendo θ o parâmetro de interesse, θ(i) a média da distribuição a
posteriori do parâmetro θ para a réplica i, θv o valor verdadeiro do parâmetro θ e R o número deréplicas de Monte Carlo.
Para avaliar a convergência das cadeias, utilizou-se a função raftery.diag do pacote coda,disponível no programa R, para calcular o critério de Raftery e Lewis (1992) e analisou-se os
46
traços das cadeias. Como cada réplica foi gerada com n = 200 e m = 20, 441 parâmetros(200 α’s, 200 θ’s, 20 β’s, 20 φ’s e 1 γ) e 5 hiperparâmetros (µβ, µφ, σ2
α, σ2β e σ2
φ) foramestimados. Considerando todas as 100 réplicas simuladas do modelo logit, probit e t-Student,foram analisados 133.800 gráficos com os traços das cadeias dos parâmetros. Como é inviávelrepresentar todos esses gráficos nesta dissertação, para fins da análise de convergência, serãoapresentados apenas os resultados provenientes do critério de Raftery e Lewis (1992). Conformedescrito em 3.4.2, o critério fornece, para cada um dos parâmetros, o número mínimo deiterações necessárias para atingir a convergência. Para resumir a informação, para cada um dosconjuntos de dados calculou-se o máximo dos nmin produzidos a fim de encontrar um númerode iterações que fosse suficiente para garantir a convergência de todos os parâmetros. Porque,por exemplo, se um parâmetro precisa de no mínimo 10 iterações para atingir a convergência eum outro precisa de pelo menos 100, o ideal é considerar um período de aquecimento de 100iterações para garantir que os dois parâmetros convirjam. A Figura 5.1 apresenta os máximosdesses números mínimos para todos os dados logit, probit e t-Student.
Máx
imo
de n
mín
020
060
010
00
1 25 50 75 100
●
●
●●●
●●●●
●●
●
●
●
●
●●●
●●
●●●●●●
●
●●
●
●●●
●
●
●
●●●●
●
●
●
●
●
●●●
●
●●●●
●
●
●●
●
●●●●
●●
●
●●●●
●
●●●
●
●●●
●
●●●●
●
●
●●
●
●
●●
●
●
●●●●
●
●●●
Dados logit
●
logitprobitt−Student
Máx
imo
de n
mín
020
060
010
00
1 25 50 75 100
●●
●
●●●●●
●●
●●●●
●
●●●●
●●●
●
●●●●●●●●●
●●
●
●●●
●●●●●
●●●
●
●●
●●●
●
●●
●●●●●●●●
●●
●
●●●
●●
●
●●●●●●●
●●
●●
●
●
●●
●
●
●●●●●●●
●●●
●
Dados probit
●
logitprobitt−Student
Máx
imo
de n
mín
020
060
010
00
1 25 50 75 100
●
●
●●●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●●
●●
●
●●●
●●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●●●●
●
●
●●
●
●●●●●●
●
●
●
●●
●
●
●
●
●●●●
●
●
●●
●
●
●
●●
●
●
●●
●
●●●●
●●●
●●
Dados t−Student
●
logitprobitt−Student
Figura 5.1: Máximo, para cada conjunto dado e considerando todos os parâmetros, do númeromínimo de iterações necessárias para atingir a convergência, para cada ajuste.
Pode-se observar na Figura 5.1, que para o ajuste de 99 dados logit aos três modelos, sãonecessárias no mínimo 400 iterações para garantir a convergência de todos os parâmetros. Parao ajuste de um dado logit ao modelo logit são necessárias no mínimo 800 iterações para garantira convergência. Para o ajuste de todos os dados probit aos três modelos são necessárias nomínimo 200 iterações e para o ajuste de 98 dados t-Student aos três modelos são necessárias nomínimo 400 iterações. Para o ajuste de dois dados t-Student ao modelo t-Student são necessáriasno mínimo 800 iterações.
Conforme já informado, no estudo de simulação, para o ajuste de cada conjunto de dados aostrês modelos foi considerado um período de aquecimento (burn-in) de 5.000. Como a Figura
47
5.1 mostra que era necessário descartar apenas as 1.000 primeiras iterações para garantir aconvergência, pode-se afirmar que todos os parâmetros convergiram.
5.2.1 Cenário 1
Nesta seção serão descritos os resultados obtidos pelo ajuste dos dados logit aos três modelosapresentados nesta dissertação. A fim de estudar as propriedades frequentistas dos estimadoresbayesianos, foram construídos gráficos com base nas médias a posteriori. A Figura 5.2 apresentaum resumo das estimativas pontuais e intervalares das médias a posteriori de uma parcela dosα’s (mais especificamente α5, α6, α7, α8, α9, α10, α71, α72, α73, α74, α75, α136, α137, α138, α139,α140, α196, α197, α198, α199 e α200), dos β’s e dos hiperparâmetros relativos à α e β, obtidaspelo ajuste das 100 réplicas simuladas do modelo logit aos modelos logit, probit e t-Student.O primeiro painel da Figura 5.2 se refere aos α’s, o segundo painel aos β’s e o terceiro aoshiperparâmetros.
O primeiro painel mostra que as estimativas dos α’s estão próximas de zero em todas asestimações, conforme esperado. No contexto desta dissertação e baseados nessas estimativas, épossível afirmar que os 20 usuários comuns avaliados não possuem muito interesse político.Comparando as estimativas dos α’s produzidas pelos três modelos, note que o modelo t-Studentproduz estimativas mais acuradas e menos precisas e o modelo probit produz estimativas maisprecisas e menos acuradas. A precisão aqui refere-se a largura do intervalo e a acurácia avalia seo intervalo contém o verdadeiro valor do parâmetro.
Observe que a variabilidade dos α’s nos modelos logit e probit é menor que a variabilidade nomodelo t-Student. Comparando o ajuste probit e logit, perceba que os α’s avaliados apresentammaior variabilidade sob o ajuste do modelo logit. Espera-se que σ2t−Student
α > σ2logit
α > σ2probit
α ,em que σ2M
α é a estimativa da média das médias a posteriori do parâmetro σ2α obtida via ajuste
do modeloM . O terceiro painel mostra que a média das médias a posteriori de σ2α é menor sob
o ajuste do modelo probit e maior sobre o ajuste do modelo t-Student corroborando o que foidito acima. Em termos de valores, σ2probit
α = 0, 07, σ2logit
α = 0, 20 e σ2t−Studentα = 0, 28.
O segundo painel mostra que as estimativas dos β’s estão próximas de um em todas asestimações. No contexto desta dissertação e baseados nessas estimativas, é possível afirmarque todos os atores políticos avaliados são razoavelmente populares. As estimativas dos β’sem termos de acurácia e precisão possuem as mesmas características das estimativas dos α’s.A variabilidade dos β’s nos modelos logit e probit é menor que a variabilidade no modelot-Student.
48
−3
−2
−1
01
23
α1 α5 α74 α138 α197
●● ●
● ●
● ● ●● ●
●
●
●●
●● ● ●
●●
Modelo logit
−3
−2
−1
01
23
α1 α5 α74 α138 α197
● ● ●● ●
● ● ● ● ●●
●●
●● ● ● ●
●●
Modelo probit
−3
−2
−1
01
23
α1 α5 α74 α138 α197
●● ●
●●
● ● ●● ●
●
●
●
●
●● ●
●
●
●
Modelo t−Student−
3−
2−
10
12
3
β1 β5 β9 β13 β17
●
● ●
●
● ●●
●
● ●●
●
●
●
●●
●
●
●
●
Modelo logit
−3
−2
−1
01
23
β1 β5 β9 β13 β17
●
● ●
●
● ●●
●
● ● ●●
●
●
●●
●
●
●
●
Modelo probit
−3
−2
−1
01
23
β1 β5 β9 β13 β17
●
● ●
●
● ●●
●
● ●●
●
●
●
●●
●
●
●
●
Modelo t−Student
01
2
µβ σα2 σβ
2
●
●
●
Modelo logit
01
2
µβ σα2 σβ
2
●
●●
Modelo probit
01
2
µβ σα2 σβ
2
●
●
●
Modelo t−Student
Figura 5.2: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de α e β,respectivamente, µα e µβ . Os modelos logit, probit e t-Student são comparados em cada painel.
49
Comparando o ajuste probit e logit, perceba que os β’s avaliados apresentam maiorvariabilidade sob o ajuste do modelo logit. Espera-se que σ2t−Student
β > σ2logit
β > σ2probit
β . Emtermos de valores, σ2probit
β = 0, 11, σ2logit
β = 0, 30 e σ2t−Student
β = 0, 36.A maior parte das estimativas dos β’s estão próximas 1, mas alguns valores são maiores,
evidenciando o fato de que alguns atores políticos são mais populares do que outros. Parece quesob o ajuste do modelo probit os β’s estão sendo consistentemente subestimados. Espera-seque µt−Studentβ > µlogitβ > µprobitβ , em que µMβ é a estimativa da média das médias a posteriorido parâmetro µβ obtida via ajuste do modelo M . Em termos de valores, µprobitβ = 0, 59,µlogitβ = 1, 01 e µt−Studentβ = 1, 15. Comparando as estimativas dos hiperparâmetros µβ , σ2
α e σ2β
produzidas pelos três modelos, note que o modelo t-Student produz estimativas mais acuradas emenos precisas e o modelo probit produz estimativas mais precisas e menos acuradas.
De acordo as análises feitas, não é possível afirmar que os α’s e β’s diferem nas trêsestimações devido à sobreposição dos intervalos.
No primeiro painel da Figura 5.2 só foram avaliados 20 α’s, então na Figura 5.3 são mostradosos gráficos dos valores verdadeiros versus os valores estimados (média a posteriori) de todos osα’s obtidos pelo ajuste dos dados logit aos três modelos. Os resultados confirmam que os α’ssão satisfatoriamente estimados, independente do modelo utilizado e parece não haver diferençassignificativas entre eles nas três estimações.
Valor verdadeiro de αMéd
ia d
as m
édia
s a
post
erio
ri de
α−
1.5
−0.
50.
51
1.5
−1.5 −0.5 0.5 1 1.5
●
●●
●●
●
●
●●
●
●●
●
●●
●●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●●
●
●●
●
●
●●●
●
●●
●
●
●
● ●●
●●
●
●
●
●
● ●●
●
●
●
●
●●
●
●
●
●
●●●
●●
●
●●
● ●●
●●
●
●
●
●
●●
●
●●●●
●
●
●
●●
●
●● ●●
●●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●●●
●
●●●
●
●●
●
●●
●
●
●
●
●●
●●
●
●●
●●
● ●
●
●
●
●
●
●●
● ●
●●●
●
●
●
●●
●●
●●●
●
●
● ●
●
●●● ●●
●
●
●
●
●●●●
●
●
●●
●
●●
●
●
●
Modelo logit
Valor verdadeiro de αMéd
ia d
as m
édia
s a
post
erio
ri de
α−
1.5
−0.
50.
51
1.5
−1.5 −0.5 0.5 1 1.5
●● ●
●●
●
●● ●●
●●●
●●●
●●
●●
●●
●
●
●●
● ●
●
●
●
●
●●
●● ●
●
●●●●
●
●●
●●
●
● ●●●●
●
●
●
●
● ●●
●
●●
●●●
●
●
●●
●●●●●
●
●● ● ●●
●●
●●
●
●
●● ●
●●●●●
●
●●
●●
●● ●● ● ●●
●
●
●●●
●
●●
●●●●
●
●
●●
●●
●●●●
●
● ●●
●●
●
●
●
●
● ●●●
●
●●
● ●● ●
●
●
●
●●
●●
● ●
●●●
●
●●
●●
●●
●● ●●
●● ●
●●●
● ●●●
●
●
●●●
●●●●
●●
●●● ●
●
●
Modelo probit
Valor verdadeiro de αMéd
ia d
as m
édia
s a
post
erio
ri de
α−
1.5
−0.
50.
51
1.5
−1.5 −0.5 0.5 1 1.5
●
●●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●●●
●
●●
●
●
●
● ●●
●●
●
●
●
●
● ●●
●
●
●
●
●●
●
●
●
●
●●●
●●
●
●●
● ●●
●●
●
●
●
●
●
●●
●●●●
●
●
●
●●
●
●●●
●●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●●
●●●
●
●
● ●
●
●●
●●●
●
●
●
●
●●
●●
●
●
●●
●
●●
●
●
●
Modelo t−Student
Figura 5.3: Valores verdadeiros versus valores estimados dos α’s.
50
A Figura 5.4 apresenta os erros quadráticos médios e as taxas de cobertura de todos osparâmetros α’s e β’s obtidos através do ajuste dos dados logit aos três modelos. Neste Cenário1, espera-se que o modelo logit produza menores erros quadráticos médios e maiores taxas decobertura, por ser o modelo gerador dos dados. Os gráficos apresentados na Figura 5.4 mostramque essa suposição é válida pois os EQM’s de quase todos os α’s e para todos os β’s são menoressob o ajuste do modelo logit. O modelo probit tende a subestimar os valores dos parâmetrosdevido à forma da função de ligação. Por isso, sob o ajuste desse modelo os EQM’s tendem aser maiores. Observando as taxas de cobertura, note que os modelos logit e t-Student produzemas maiores taxas de cobertura para os α’s e β’s.
α
00.
51
1.5
1 50 100 150 200
●●
●
●●
●
●●
●
●
●
●
●
●●●●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●●●●
●●●
●
●
●
●
●●●●●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●●●
●
●
●
●●
●
●●●●●
●
●●●
●
●
●●
●
●●
●
●
●●●●●●●●
●
●
●●
●
●
●
●●●
●●
●●
●●
●●
●
●●●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●●●●●●
●
●●●●
●
●
●
●●
●
●●
●
●
●
●
●●
●●
●
●●●
●
●
●●
●●●
●
●
●
●●●●●●
●
●
●
●
●●
●●
●
EQM
●
logitprobitt−Student
α
0%20
%40
%60
%80
%10
0%
1 50 100 150 200
●●●
●●
●
●●
●
●
●●●
●●●●●●●●
●●
●●
●
●●
●
●
●
●
●●
●
●●
●●●●●●●
●
●
●
●
●●●●●●
●
●
●
●●●
●
●
●
●●●
●
●
●●
●
●
●●●
●
●
●
●●
●
●●●●●●●●●
●
●●●
●
●●●●●●●●●●●●●
●●●
●
●
●●●●●●●
●●●●●●●●●
●
●
●
●
●●
●
●
●●●●
●
●
●
●●●●●●
●
●●●●
●
●●●●●●●
●
●●
●
●●
●●
●
●●●
●
●
●
●●●●●●●●●●●
●●●
●
●●
●
●
●●
●
Taxa de cobertura●logit probit t−Student
β
00.
51
1.5
1 5 10 15 20
●● ●
●
●
● ● ● ●●
●●
●
●
●●
● ●●
●
EQM
●
logitprobitt−Student
β
0%20
%40
%60
%80
%10
0%
1 5 10 15 20
●
●●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
Taxa de cobertura●logit probit t−Student
Figura 5.4: Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às 100réplicas simuladas do modelo logit.
51
−3
−2
−1
01
23
θ1 θ5 θ74 θ138 θ197
●
● ●
●
●
●
●●
● ●
●
●
● ●●
●
●
●
●
●
Modelo logit
−3
−2
−1
01
23
θ1 θ5 θ74 θ138 θ197
●
● ●
●
●
●
●●
● ●
●
●
● ●●
●
●
●
●
●
Modelo probit
−3
−2
−1
01
23
θ1 θ5 θ74 θ138 θ197
●
● ●
●
●
●
●●
● ●
●
●
● ●●
●
●
●
●
●
Modelo t−Student−
3−
2−
10
12
3
φ1 φ5 φ9 φ13 φ17
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●●
●●
●
Modelo logit
−3
−2
−1
01
23
φ1 φ5 φ9 φ13 φ17
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●●
●●
●
Modelo probit
−3
−2
−1
01
23
φ1 φ5 φ9 φ13 φ17
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●
Modelo t−Student
01
23
4
µφ σφ2
●
●
Modelo logit
01
23
4
µφ σφ2
●
●
Modelo probit
01
23
4
µφ σφ2
●
●
Modelo t−Student
Figura 5.5: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ e φ,respectivamente, µθ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel.
52
A Figura 5.5 apresenta um resumo das estimativas pontuais e intervalares das médias aposteriori de uma parcela dos θ’s (mais especificamente θ5, θ6, θ7, θ8, θ9, θ10, θ71, θ72, θ73,θ74, θ75, θ136, θ137, θ138, θ139, θ140, θ196, θ197, θ198, θ199 e θ200), dos φ’s e dos hiperparâmetrosrelativos à φ, obtidas pelo ajuste das 100 réplicas simuladas do modelo logit aos modelos logit,probit e t-Student. Os dois primeiros paineis mostram que não existem diferenças nos θ’s eφ’s, nem em termos das estimativas pontuais (média das médias a posteriori), nem termosde tamanho do intervalo. Esperava-se essa diferença entre as estimativas obtidas pelos trêsmodelos, mas como isso não ocorreu, cogitou-se que talvez o parâmetro γ possa estar fazendouma espécie de compensação, como será visto mais adiante.
De acordo com o terceiro painel da Figura 5.5, percebe-se que o parâmetro µφ está sendobem estimado nos três modelos e o parâmetro σ2
φ está sendo subestimado nos três modelos. Emtermos de valores, µprobitφ = 0, 06, µlogitφ = 0, 06 e µt−Studentφ = 0, 07 estão próximos do valorverdadeiro de µφ, que é 0. As estimativas σ2probit
φ = 2, 19, σ2logit
φ = 2, 17 e σ2t−Student
φ = 2, 13
confirmam que o parâmetro está sendo subestimado nos três ajustes.Na Figura 5.6 são apresentados os valores verdadeiros versus os valores estimados (média
a posteriori) de todos os θ’s obtidos pelo ajuste dos três modelos. Note que os θ’s sãosatisfatoriamente estimados, independente do modelo utilizado e parece não haver diferençassignificativas entre eles nas três estimações.
Valor verdadeiro de θ
Méd
ia d
as m
édia
s a
post
erio
ri de
θ−
3−
2−
10
12
3
−3 −2 −1 0 1 2 3
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
● ●●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
Modelo logit
Valor verdadeiro de θ
Méd
ia d
as m
édia
s a
post
erio
ri de
θ−
3−
2−
10
12
3
−3 −2 −1 0 1 2 3
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
● ●●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
Modelo probit
Valor verdadeiro de θ
Méd
ia d
as m
édia
s a
post
erio
ri de
θ−
3−
2−
10
12
3
−3 −2 −1 0 1 2 3
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
● ●●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
Modelo t−Student
Figura 5.6: Valores verdadeiros versus valores estimados dos θ’s.
A Figura 5.7 apresenta os erros quadráticos médios e as taxas de cobertura de todos osparâmetros θ’s e φ’s obtidos através do ajuste dos dados logit aos três modelos. Assim comodescrito para os α’s e β’s, espera-se que o modelo gerador dos dados, no caso logit, produzamenores os erros quadráticos médios e as maiores taxas de cobertura para θ’s e φ’s. Os gráficosda Figura 5.7 corroboram essa suposição pois os EQM’s são menores sob o ajuste do modelologit para todos os θ’s e φ’s. O modelo t-Student foi o que produziu maiores EQM’s para os
53
θ’s e φ’s. Analisando as taxas de cobertura, note que todos os três modelos produzem taxasrelativamente altas.
θ
00.
20.
40.
6
1 50 100 150 200
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●●
●
●
●●
●
●
●●●●●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●●
●
●●●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
EQM
●
logitprobitt−Student
θ
0%20
%40
%60
%80
%10
0%
1 50 100 150 200
●●●●
●
●
●
●●
●
●
●●
●
●
●●●
●
●
●
●●
●●
●
●
●●
●
●
●●●●●
●
●
●●
●
●
●
●
●●●●●●
●●●
●●
●
●●
●
●●
●
●
●
●
●
●●●
●●
●●
●●●
●
●
●
●●
●●●
●
●●
●
●
●
●●
●●
●●●
●
●
●
●
●
●●
●●●
●
●
●
●
●●●●
●●
●●●
●●●●●
●●
●
●●
●●
●
●
●●●●●●
●
●
●
●
●●●●●
●●
●
●
●
●●●●●
●
●
●●●
●●●●●●●●●●
●
●
●●●
●●
●
●●●
●●
●●●●●●
●
●●●
●
●
●
Taxa de cobertura●logit probit t−Student
φ
00.
10.
2
1 5 10 15 20
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●●
●
●
EQM
●
logitprobitt−Student
φ
0%20
%40
%60
%80
%10
0%
1 5 10 15 20
●
●● ●
● ●
●
● ● ●●
● ●
●
● ●
● ● ●●
Taxa de cobertura●logit probit t−Student
Figura 5.7: Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às 100réplicas simuladas do modelo logit.
Como foi dito acima, acredita-se que o parâmetro γ possa estar influenciando na estimaçãodos θ’s e φ’s, funcionando como um fator de acomodação. A Figura 5.8 apresenta um resumo dasestimativas pontuais e intervalares das médias a posteriori do parâmetro γ, obtidas pelo ajuste das100 réplicas simuladas do modelo logit aos três modelos. Pela Figura 5.8 é possível notar que aestimativa pontual e os intervalos de γ foram diferentes em cada modelo. Como era de se esperar,o modelo logit produz uma estimativa mais acurada, isto é, mais próxima do valor verdadeiro.Em termos de valores, tem-se que γlogit = 0, 79 e (qγ0,025, q
γ0,975)logit = (0, 7; 0, 9), γprobit = 0, 46
e (qγ0,025, qγ0,975)probit = (0, 4; 0, 52) e γt−Student = 1 e (qγ0,025, q
γ0,975)t−Student = (0, 86; 1, 16).
54
0.3
0.8
1.2
γlogit γprobit γt−Student
●
●
●
Dados logit
Figura 5.8: Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejada em vermelhorepresenta o valor verdadeiro de γ, 0,8, utilizado para a simulação dos dados logit.
O intervalo obtido sob o ajuste do modelo logit não se sobrepõe ao obtido sob o modeloprobit, por isso há indícios de que γlogit e γprobit sejam significativamente diferentes. Uma partedo intervalo obtido sob o ajuste do modelo logit se sobrepõe ao obtido via ajuste do modelot-Student, por isso existe uma probabilidade não nula de que γlogit e γprobit sejam iguais e porisso não se pode afirmar que eles são diferentes.
Acredita-se que γ está funcionando como fator de acomodação fornecendo maior ou menorpeso nas caudas. Para avaliar isso, foi necessário retirar a influência de γ sobre os θ’s e os φ’s,através da multiplicação de sua raiz pelos valores a posteriori dos θ’s e dos φ’s. Criaram-seassim os parâmetros θ∗’s e φ∗’s. Relembrando o escopo do modelo apresentado no Capítulo 4,tem-se que:
P (yij = 1|αi, βj, γ, θi, φj) = πij =Ψ(αi + βj − γ‖θi − φj‖2)
=Ψ(αi + βj − ‖√γθi −
√γφj‖2)
=Ψ(αi + βj − ‖θ∗i − φ∗j‖2).
A Figura 5.9 apresenta um resumo das estimativas pontuais e intervalares das médias aposteriori de uma parcela dos θ∗’s (mais especificamente θ∗5, θ∗6, θ∗7, θ∗8, θ∗9, θ∗10, θ∗71, θ∗72, θ∗73, θ∗74,θ∗75, θ∗136, θ∗137, θ∗138, θ∗139, θ∗140, θ∗196, θ∗197, θ∗198, θ∗199 e θ∗200) e φ∗’s, obtidas pelo ajuste das 100réplicas simuladas do modelo logit aos modelos logit, probit e t-Student.
55
−3
−2
−1
01
23
θ1* θ5
* θ74* θ138
* θ197*
●
● ●
●
●
●
●●
● ●
●
●
● ●●
●
●
●
●
●
Modelo Logit
−3
−2
−1
01
23
θ1* θ5
* θ74* θ138
* θ197*
●● ●
●
●
●
● ●
● ●
●
●
● ●●
●
●
●
●
●
Modelo Probit
−3
−2
−1
01
23
θ1* θ5
* θ74* θ138
* θ197*
●
● ●
●
●
●
●●
● ●
●
●
● ●●
●
●
●
●
●
Modelo t−Student−
3−
2−
10
12
3
φ1* φ5
* φ9* φ13
* φ17*
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●●
●●
●
Modelo Logit
−3
−2
−1
01
23
φ1* φ5
* φ9* φ13
* φ17*
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●●
●●
●
●
Modelo Probit
−3
−2
−1
01
23
φ1* φ5
* φ9* φ13
* φ17*
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●
Modelo t−Student
Figura 5.9: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. Aslinhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ∗ =
√γθ e
φ∗ =√γφ, respectivamente, µ∗θ e µ∗φ. Os modelos logit, probit e t-Student são comparados em
cada painel.
De acordo com o primeiro painel da 5.9, parece não existir tantas diferenças nos θ’s emtermos das estimativas pontuais, mas parece existir uma leve diferença em termos dos tamanhosdos intervalos. Assumiu-se uma priori com média 0 para os θ’s, e por isso a multiplicaçãode √γ pelos valores a posteriori dos θ’s só acarretará diferença na amplitude dos intervalos.Olhando para o segundo painel da 5.9, parece haver uma leve diferença nos φ’s em termos dasestimativas pontuais, mas parece existir uma diferença maior entre as estimações em termosdos tamanhos dos intervalos. Comparando as estimativas dos θ∗’s e φ∗’s produzidas pelos trêsmodelos, note que o modelo t-Student produz estimativas mais acuradas e menos precisas eo modelo probit produz estimativas mais precisas e menos acuradas. É possível afirmar quebaseando-se na escala transformada, o modelo t-Student é mais robusto porque consegue estimarmelhor as posições ideológicas de todos os indivíduos do estudo (usuários comuns e atores
56
políticos).A Figura 5.10 apresenta as probabilidades de seguimento verdadeiras e estimadas. É possível
notar que as probabilidades estão sendo bem estimadas pelos modelos logit e t-Student.
Fre
quên
cia
020
060
010
00
0 0.2 0.4 0.6 0.8 1
Modelo logit
Probabilidade verdadeira
Probabilidade estimada
Fre
quên
cia
020
060
010
00
0 0.2 0.4 0.6 0.8 1
Modelo probit
Probabilidade verdadeira
Probabilidade estimada
Fre
quên
cia
020
060
010
00
0 0.2 0.4 0.6 0.8 1
Modelo t−Student
Probabilidade verdadeira
Probabilidade estimada
Figura 5.10: Probabilidades de seguimento verdadeiras e estimadas.
Considerando os dados logit, observou-se que o modelo t-Student produziu as estimativasmais acuradas para os parâmetros e hiperparâmetros avaliados, mas menos precisas. O objetivoprincipal sempre foi produzir estimativas acuradas, buscando, sempre que possível, aumentara precisão das estimativas. O ideal, então, seria buscar um modelo que produzisse ao mesmotempo estimativas acuradas e precisas. O modelo logit foi o que melhor cumpriu esse papel paraos dados logit.
5.2.2 Cenário 2
Nesta seção serão descritos os resultados obtidos pelo ajuste dos dados probit aos trêsmodelos apresentados nesta dissertação. O primeiro painel da Figura 5.11 mostra que asestimativas dos α’s estão próximas de zero em todas as estimações. Comparando as estimativasdos α’s produzidas pelos três modelos, note que o modelo probit é o que produz estimativasmais acuradas e precisas.
Observe que a variabilidade dos α’s nos modelos logit e probit é menor que a variabilidade nomodelo t-Student. Comparando o ajuste probit e logit, perceba que os α’s avaliados apresentammaior variabilidade sob o ajuste do modelo logit. Espera-se que σ2t−Student
α > σ2logit
α > σ2probit
α .O terceiro painel mostra que a média das médias a posteriori de σ2
α é menor sob o ajuste domodelo probit e maior sobre o ajuste do modelo t-Student corroborando o que foi dito acima.Em termos de valores, σ2probit
α = 0, 21, σ2logit
α = 0, 63 e σ2t−Studentα = 1, 23.
57
−3
−2
−1
01
23
α1 α5 α74 α138 α197
●
●●
●●
●● ●
●●
●
●
●
●
●● ●
●
●
●
Modelo logit
−3
−2
−1
01
23
α1 α5 α74 α138 α197
●
●●
●●
● ● ●● ●
●
●
●
●
●● ●
●
●
●
Modelo probit
−3
−2
−1
01
23
α1 α5 α74 α138 α197
●
●
●
●
●
●
●●
●●
●
●
●
●
●
● ●
●
●
●
Modelo t−Student−
10
12
34
56
β1 β5 β9 β13 β17
●
●●
●
●●
●
●
● ●●
●
●
●
●
●
●
●
●
●
Modelo logit
−1
01
23
45
6
β1 β5 β9 β13 β17
●
● ●
●
● ●●
●
● ●●
●
●
●
●●
●
●
●
●
Modelo probit
−1
01
23
45
6
β1 β5 β9 β13 β17
●
●●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
Modelo t−Student
01
23
µβ σα2 σβ
2
●
●
●
Modelo logit
01
23
µβ σα2 σβ
2
●
●●
Modelo probit
01
23
µβ σα2 σβ
2
●
●
●
Modelo t−Student
Figura 5.11: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de α e β,respectivamente, µα e µβ . Os modelos logit, probit e t-Student são comparados em cada painel.
O segundo painel da Figura 5.11 mostra que as estimativas dos β’s estão próximas de um,sob o ajuste do modelo probit, próximas de dois, sob o ajuste do modelo logit e próximas de trêssob o ajuste do modelo t-Student. É de se esperar que µt−Studentβ > µlogitβ > µprobitβ . Em termosde valores, µprobitβ = 1, 01, µlogitβ = 1, 74 e µt−Studentβ = 2, 37.
58
As estimativas dos β’s em termos de acurácia e precisão possuem as mesmas característicasdas estimativas dos α’s. A variabilidade dos β’s nos modelos logit e probit é menor quea variabilidade no modelo t-Student. Comparando o ajuste probit e logit, perceba que osβ’s avaliados apresentam maior variabilidade sob o ajuste do modelo logit. Espera-se queσ2t−Student
β > σ2logit
β > σ2probit
β . Em termos de valores, σ2probit
β = 0, 31, σ2logit
β = 0, 92 eσ2t−Student
β = 1, 74. Comparando as estimativas dos hiperparâmetros µβ, σ2α e σ2
β produzidaspelos três modelos, note que o modelo probit é o que produz estimativas mais acuradas e precisas.De acordo as análises feitas, não é possível afirmar que os α’s e β’s diferem nas três estimaçõesdevido à sobreposição dos intervalos.
Na Figura 5.12 são mostrados os gráficos dos valores verdadeiros versus os valores estimados(média a posteriori) dosα’s. Os resultados confirmam que osα’s são satisfatoriamente estimados,independente do modelo utilizado e parece não haver diferenças significativas entre eles nas trêsestimações.
A Figura 5.13 apresenta os erros quadráticos médios e as taxas de cobertura dos α’s e β’s.Neste Cenário 2, espera-se que o modelo probit produza menores erros quadráticos médios emaiores taxas de cobertura, por ser o modelo gerador dos dados. Os gráficos apresentados naFigura 5.13 corroboram essa suposição pois os EQM’s são menores sob o ajuste do modeloprobit para todos os α’s e β’s. Observando as taxas de cobertura, note que os modelos logite t-Student produzem as maiores taxas de cobertura para os α’s, e modelo probit produz asmaiores taxas para os β’s.
Valor verdadeiro de αMéd
ia d
as m
édia
s a
post
erio
ri de
α−
2−
10
12
−2 −1 0 1 2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●●
●
●●
●
●
●
●●●
●●
●
●
●
●
● ●●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●
Modelo logit
Valor verdadeiro de αMéd
ia d
as m
édia
s a
post
erio
ri de
α−
2−
10
12
−2 −1 0 1 2
●
●●
●●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●●●
●
●●
●
●
●
●●●●
●
●
●
●
●
● ●●
●
●
●
●
●●
●
●
●
●
●●●
●●
●
●
●●
●
●
●●
●
●
●
●
● ●●
●●
●●
●
●
●
●●
●
●●●
●●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●●●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●●
● ●
●●
●
●
●
●
●
●
●
●●
● ●●
●
●
●
●
●
●●
●●●
●
●
●●
●
●●
●●
●
●
●
●
●
●●
●●
●
●
●●
●
●●
●
●
●
Modelo probit
Valor verdadeiro de αMéd
ia d
as m
édia
s a
post
erio
ri de
α−
2−
10
12
−2 −1 0 1 2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●●
●
●●
●
●
●
●●●
●
●
●
●
●
●
● ●●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
● ●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
Modelo t−Student
Figura 5.12: Valores verdadeiros versus valores estimados dos α’s.
59
α
00.
51
1.5
1 50 100 150 200
●●●●●
●●●●●
●
●
●●●●
●●●
●
●●
●
●●●●●●●●
●
●●●
●
●
●
●●●●
●
●●●●●●●●●
●
●
●
●●●●●●●
●●
●
●
●●●●
●●●●
●●
●●●
●
●●●●●
●●●
●●
●●●●●
●●
●
●●●●
●●
●●●●●
●
●●●●
●
●●
●●●●●●●
●
●●●●●
●●
●●●●
●
●
●●
●
●●●●●●
●
●●●
●
●●●●●●
●●●●●
●
●●●●●●●●●
●●●
●
●
●●●●●
●●●
●●●
●●
●
●●
●●●
●
●
●
EQM
●
logitprobitt−Student
α
0%20
%40
%60
%80
%10
0%
1 50 100 150 200
●●●●●
●
●
●
●
●
●●●
●●●●●●●●●
●
●●●●●●
●
●●●●
●●
●●
●
●●
●●●●●●●●●
●
●
●●●
●●●●●
●
●
●●●●●
●
●●●●●●●●●●
●●
●●●●●
●
●●●
●
●●●●●●●●●
●●●
●●●●●
●
●●
●
●●●
●
●●●●●●
●●
●●●●●●●●●●●●
●
●●●●●●●●●
●●
●●●●●●●●●
●
●●●●●
●●●●●
●
●
●●●●●●●●●●●
●
●
●●●●●●●
●●●●●●
●●●●●
Taxa de cobertura●logit probit t−Student
β
02
46
8
1 5 10 15 20
●
●●
●●
●
●
●
● ●●
●●
●
●
●
●
●
●●
EQM
●
logitprobitt−Student
β
0%20
%40
%60
%80
%10
0%
1 5 10 15 20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
Taxa de cobertura●logit probit t−Student
Figura 5.13: Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às100 réplicas simuladas do modelo probit.
A Figura 5.14 apresenta um resumo das estimativas pontuais e intervalares das médias aposteriori de uma parcela dos θ’s, dos φ’s e dos hiperparâmetros relativos à φ, obtidas peloajuste das 100 réplicas simuladas do modelo probit aos modelos logit, probit e t-Student. Os doisprimeiros painéis da Figura 5.14 mostram que não existem diferenças entre os θ’s e φ’s, nem emtermos das estimativas pontuais (média das médias a posteriori), nem termos de tamanho dointervalo, mas essa diferença era esperada.
De acordo com o terceiro painel da Figura 5.14, percebe-se que o parâmetro µφ está sendobem estimado nos três modelos e o parâmetro σ2
φ está sendo subestimado nos três modelos. Emtermos de valores, µprobitφ = 0, 07, µlogitφ = 0, 07, µt−Studentφ = 0, 08 estão próximos do valorverdadeiro de µφ, que é 0. As estimativas σ2probit
φ = 2, 19, σ2logit
φ = 2, 20 e σ2t−Student
φ = 2, 23
confirmam que o parâmetro está sendo subestimado nos três ajustes.
60
−3
−2
−1
01
23
θ1 θ5 θ74 θ138 θ197
●
● ●
●
●
●
●●
●●
●
●
● ●●
●
●
●
●
●
Modelo logit
−3
−2
−1
01
23
θ1 θ5 θ74 θ138 θ197
●
● ●
●
●
●
●●
●●
●
●
● ●●
●
●
●
●
●
Modelo probit
−3
−2
−1
01
23
θ1 θ5 θ74 θ138 θ197
●
● ●
●
●
●
●●
●●
●
●
● ●
●
●
●
●
●
●
Modelo t−Student−
3−
2−
10
12
3
φ1 φ5 φ9 φ13 φ17
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●●
●●
●
Modelo logit
−3
−2
−1
01
23
φ1 φ5 φ9 φ13 φ17
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●●
●●
●
Modelo probit
−3
−2
−1
01
23
φ1 φ5 φ9 φ13 φ17
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●●
●●
●
Modelo t−Student
01
23
4
µφ σφ2
●
●
Modelo logit
01
23
4
µφ σφ2
●
●
Modelo probit
01
23
4
µφ σφ2
●
●
Modelo t−Student
Figura 5.14: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ e φ,respectivamente, µθ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel.
61
Valor verdadeiro de θ
Méd
ia d
as m
édia
s a
post
erio
ri de
θ−
3−
2−
10
12
3
−3 −2 −1 0 1 2 3
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
Modelo logit
Valor verdadeiro de θ
Méd
ia d
as m
édia
s a
post
erio
ri de
θ−
3−
2−
10
12
3
−3 −2 −1 0 1 2 3
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
Modelo probit
Valor verdadeiro de θ
Méd
ia d
as m
édia
s a
post
erio
ri de
θ−
3−
2−
10
12
3
−3 −2 −1 0 1 2 3
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
● ●●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
Modelo t−Student
Figura 5.15: Valores verdadeiros versus valores estimados dos θ’s.
θ
00.
10.
20.
30.
4
1 50 100 150 200
●●●
●
●
●
●
●
●●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●●●●●
●
●
●
●
●●
●
●
●●●
●●
●
●
●
●
●
●●
●●
●●
●
●
●●●
●
●
●●
●●
●
●
●●●
●
●●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●●●
●
●
●●
●
●
●
●
●
EQM
●
logitprobitt−Student
θ
0%20
%40
%60
%80
%10
0%
1 50 100 150 200
●●
●
●
●●●●
●●●
●●
●
●
●●●●
●●●●●
●●
●
●●
●●
●●
●
●●
●
●
●
●●●
●●●
●●
●●
●
●
●
●
●●●
●●
●●●●●
●
●
●●
●●
●●●
●●
●
●●
●
●
●●●●
●
●
●●
●
●
●
●●●
●
●●
●●
●●●
●
●●
●●
●●
●
●●●
●●●
●●
●●
●●●
●
●●
●
●
●
●
●
●●
●
●●
●●●●●
●
●
●●●●
●●●
●
●
●●
●●
●●●
●●●●●●
●
●
●
●
●●●●●●●●
●●●
●
●
●
●●●
●
●●●
●●●●●
●
●●
●
●●
Taxa de cobertura●logit probit t−Student
φ
00.
050.
1
1 5 10 15 20
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●
●
EQM
●
logitprobitt−Student
φ
0%20
%40
%60
%80
%10
0%
1 5 10 15 20
●
●
● ●● ● ●
●
●
●
●
● ●
●
● ● ● ● ● ●
Taxa de cobertura●logit probit t−Student
Figura 5.16: Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às100 réplicas simuladas do modelo probit.
62
Na Figura 5.15 são apresentados os valores verdadeiros versus os valores estimados (médiaa posteriori) de todos os θ’s. Note que os θ’s são satisfatoriamente estimados, independente domodelo utilizado e parece não haver diferenças significativas entre eles nas três estimações.
A Figura 5.16 apresenta os erros quadráticos médios e as taxas de cobertura dos θ’s e φ’s.Assim como descrito para os α’s e β’s, espera-se que o modelo gerador dos dados, no casoprobit, produza menores os erros quadráticos médios e as maiores taxas de cobertura para θ’s eφ’s. Os gráficos da Figura 5.16 corroboram essa suposição pois os EQM’s são menores sob oajuste do modelo probit para todos os θ’s e φ’s. O modelo t-Student foi o que produziu maioresEQM’s para os θ’s e φ’s. Analisando as taxas de cobertura, note que todos os três modelosproduzem taxas relativamente altas.
Acredita-se que o parâmetro γ possa estar influenciando na estimação dos θ’s e φ’s,funcionando como um fator de acomodação. A Figura 5.17 apresenta um resumo das estimativaspontuais e intervalares das médias a posteriori do parâmetro γ, obtidas pelo ajuste das 100réplicas simuladas do modelo probit aos três modelos.
0.5
11.
52
2.5
γlogit γprobit γt−Student
●
●
●
Dados probit
Figura 5.17: Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejada em vermelhorepresenta o valor verdadeiro de γ, 0,8, utilizado para a simulação dos dados probit.
Pela Figura 5.17 é possível notar que a estimativa pontual e os intervalos de γ foramdiferentes em cada modelo. Como era de se esperar, o modelo probit produz uma estimativa maisacurada, isto é, mais próxima do valor verdadeiro. Em termos de valores, tem-se que γlogit =
1, 38 e (qγ0,025, qγ0,975)logit = (1, 21; 1, 52), γprobit = 0, 79 e (qγ0,025, q
γ0,975)probit = (0, 7; 0, 87) e
γt−Student = 1, 94 e (qγ0,025, qγ0,975)t−Student = (1, 7; 2, 2). Os intervalos obtidos sob o ajuste
dos três modelos não se sobrepõem, então pode-se afirmar que γlogit, γprobit e γt−Student sãosignificativamente diferentes.
63
−3
−2
−1
01
23
θ1* θ5
* θ74* θ138
* θ197*
●
● ●
●
●
●
●●
●●
●
●
● ●
●
●
●
●
●
●
Modelo Logit
−3
−2
−1
01
23
θ1* θ5
* θ74* θ138
* θ197*
●
● ●
●
●
●
●●
●●
●
●
● ●●
●
●
●
●
●
Modelo Probit
−3
−2
−1
01
23
θ1* θ5
* θ74* θ138
* θ197*
●
● ●
●
●
●
●●
●●
●
●
● ●
●
●
●
●
●
●
Modelo t−Student−
4−
20
24
φ1* φ5
* φ9* φ13
* φ17*
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●●
●●
●
Modelo Logit
−4
−2
02
4
φ1* φ5
* φ9* φ13
* φ17*
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●●
●●
●
Modelo Probit
−4
−2
02
4φ1
* φ5* φ9
* φ13* φ17
*
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●●
●●
●
Modelo t−Student
Figura 5.18: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. Aslinhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ∗ =
√γθ e
φ∗ =√γφ, respectivamente, µ∗θ e µ∗φ. Os modelos logit, probit e t-Student são comparados em
cada painel.
A Figura 5.18 apresenta um resumo da distribuição a posteriori de alguns θ∗’s e todos osφ∗’s estimados sob o ajuste dos modelos logit, probit e t-Student para 100 réplicas simuladas domodelo probit. De acordo com o primeiro painel da 5.18, parece não existir tantas diferençasnos θ’s, em termos das estimativas pontuais, mas parece existir uma leve diferença em termosdos tamanhos dos intervalos. Olhando para o segundo painel da 5.18, parece haver uma levediferença nos φ’s em termos das estimativas pontuais, mas parece existir uma diferença maiorentre as estimações em termos dos tamanhos dos intervalos. Comparando as estimativas dos θ∗’se φ∗’s produzidas pelos três modelos, note que o modelo probit é o que produz estimativas maisacuradas e precisas. É possível afirmar que baseando-se na escala transformada, o modelo probité mais robusto porque consegue estimar melhor as posições ideológicas de todos os indivíduosdo estudo (usuários comuns e atores políticos). Considerando os dados probit, observou-se que
64
o modelo probit produziu as estimativas mais acuradas e mais precisas para os parâmetros ehiperparâmetros avaliados.
A Figura 5.19 apresenta as probabilidades de seguimento verdadeiras e estimadas. É possívelnotar que as probabilidades estão sendo bem estimadas pelos modelos logit e t-Student.
Fre
quên
cia
020
060
010
00
0 0.2 0.4 0.6 0.8 1
Modelo logit
Probabilidade verdadeira
Probabilidade estimada
Fre
quên
cia
020
060
010
00
0 0.2 0.4 0.6 0.8 1
Modelo probit
Probabilidade verdadeira
Probabilidade estimada
Fre
quên
cia
020
060
010
00
0 0.2 0.4 0.6 0.8 1
Modelo t−Student
Probabilidade verdadeira
Probabilidade estimada
Figura 5.19: Probabilidades de seguimento verdadeiras e estimadas.
5.2.3 Cenário 3
Nesta seção serão descritos os resultados obtidos pelo ajuste dos dados t-Student aos trêsmodelos apresentados nesta dissertação. O primeiro painel da Figura 5.20 mostra que asestimativas dos α’s estão próximas de zero em todas as estimações, como esperado. Comparandoas estimativas dos α’s produzidas pelos três modelos, note que o modelo t-Student produzestimativas mais acuradas e menos precisas e o modelo probit produz estimativas mais precisase menos acuradas.
Observe que a variabilidade dos α’s nos modelos logit e probit é menor que a variabilidade nomodelo t-Student. Comparando o ajuste probit e logit, perceba que os α’s avaliados apresentammaior variabilidade sob o ajuste do modelo logit. Espera-se que σ2t−Student
α > σ2logit
α > σ2probit
α .O terceiro painel mostra que a média das médias a posteriori de σ2
α é menor sob o ajuste domodelo probit e maior sobre o ajuste do modelo t-Student corroborando o que foi dito acima.Em termos de valores, σ2probit
α = 0, 05, σ2logit
α = 0, 14 e σ2t−Studentα = 0, 20.
O segundo painel da Figura 5.20 mostra que as estimativas dos β’s estão próximas deum em todas as estimações. Parece que sob o ajuste do modelo probit os β’s estão sendoconsistentemente subestimados. É de se esperar que µt−Studentβ > µlogitβ > µprobitβ . Em termosde valores, µprobitβ = 0, 5, µlogitβ = 0, 85 e µt−Studentβ = 1, 01.
65
−3
−2
−1
01
23
α1 α5 α74 α138 α197
●● ●
● ●● ● ●
● ●●
●●
●●
● ● ●●
●
Modelo logit
−3
−2
−1
01
23
α1 α5 α74 α138 α197
● ● ●● ●
● ● ● ● ●●
●●
●● ● ● ●
●●
Modelo probit
−3
−2
−1
01
23
α1 α5 α74 α138 α197
●● ●
● ●● ● ●
● ●●
●●
●
● ● ● ●
●●
Modelo t−Student−
3−
2−
10
12
3
β1 β5 β9 β13 β17
●
●●
●
●
●●
●
● ●●
●
●
●
●●
●
●
●●
Modelo logit
−3
−2
−1
01
23
β1 β5 β9 β13 β17
●
● ●
●
●●
●
●
● ● ● ●●
●
●●
●
●
●●
Modelo probit
−3
−2
−1
01
23
β1 β5 β9 β13 β17
●
● ●
●
● ●●
●
● ●●
●
●
●
●●
●
●
●
●
Modelo t−Student
01
2
µβ σα2 σβ
2
●
●
●
Modelo logit
01
2
µβ σα2 σβ
2
●
●●
Modelo probit
01
2
µβ σα2 σβ
2
●
●
●
Modelo t−Student
Figura 5.20: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de α e β,respectivamente, µα e µβ . Os modelos logit, probit e t-Student são comparados em cada painel.
66
As estimativas dos β’s em termos de acurácia e precisão possuem as mesmas característicasdas estimativas dos α’s. A variabilidade dos β’s nos modelos logit e probit é menor quea variabilidade no modelo t-Student. Comparando o ajuste probit e logit, perceba que osβ’s avaliados apresentam maior variabilidade sob o ajuste do modelo logit. Espera-se queσ2t−Student
β > σ2logit
β > σ2probit
β . Em termos de valores, σ2probit
β = 0, 13, σ2logit
β = 0, 32 eσ2t−Student
β = 0, 29. Comparando as estimativas dos hiperparâmetros µβ, σ2α e σ2
β produzidaspelos três modelos, note que o modelo t-Student produz estimativas mais acuradas e menosprecisas e o modelo probit produz estimativas mais precisas e menos acuradas.
Valor verdadeiro de αMéd
ia d
as m
édia
s a
post
erio
ri de
α−
1.5
−0.
50.
51
1.5
−1.5 −0.5 0.5 1 1.5
●●
●
●●
●
●●
●●
●●
●
●●●
●●
●
●
●●
●
●
●●
●●
●
●
●
●
●●
●
● ●
●
●
●●●
●
●●
●
●
●
● ●●●
●●
●
●
●
● ●●
●
●
●
●
●●
●
●
●
●
●●●●●
●
●●● ●
●
●●
●
●
●
●
●
●●
●●●●
●
●
●
●●
●●● ●●●
●●
●
●
●●
●
●
●●
●●
●●
●
●
●
●●●
●●●
●
●
● ●
●
●●
●
●
●
●
● ●
●●●
●●
● ●● ●
●
●
●
●●
●●
● ●
●●
●
●
●●
●●
●●
●● ●●
●
● ●●
●●● ●●
●
●
●
●
●●●●
●
●
●●
●
●● ●
●
●
Modelo logit
Valor verdadeiro de αMéd
ia d
as m
édia
s a
post
erio
ri de
α−
1.5
−0.
50.
51
1.5
−1.5 −0.5 0.5 1 1.5
●● ●
●●●
●● ●●
●●●
●●●● ●
●
●●●
●
●
●●
● ●●
●
●
●
●●●
● ●
●
●●●●
●●●
●●
●● ●●
●●●
●
●
●
● ●●
●
●●
●●●
●
●
●●
●●●●●
●
●● ● ●●
●●
●●
●●
●● ●
●●●●●
●●
● ●●
●● ●● ● ●●●
●
●●●
●
●●
●●●●
●
●
●●
●●●●●●
●● ●
●●●
●
●●
●
● ●●●
●
●●
● ●● ●
●
●
●●
●
●●
● ●● ●●
●●
●●
●
●●●● ●
●●
● ●●
●●● ●●●
●●
●●●
●●●●
●●
●●● ●
●●
Modelo probit
Valor verdadeiro de αMéd
ia d
as m
édia
s a
post
erio
ri de
α−
1.5
−0.
50.
51
1.5
−1.5 −0.5 0.5 1 1.5
●
●●
●●
●
●
●●
●
●●
●
●●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●●●
●
●●
●
●
●
● ●●●
●
●
●
●
●
● ●●
●
●
●
●
●●
●
●
●
●
●●●
●●
●
●●
● ●●
●●
●
●
●
●
●
●●
●●●●
●
●
●
●●
●
●● ●●
●●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●●
●●●
●
●
●●
●
●●
●
●
●
●
●●
●●●
●●
● ●●
●
●
●
●
●
●
●●
● ●
●●●
●
●
●
●
●
●●
●● ●●
●
● ●
●
●●● ●●
●
●
●
●
●●
●●
●
●
●●
●
●●●
●
●
Modelo t−Student
Figura 5.21: Valores verdadeiros versus valores estimados dos α’s.
Na Figura 5.21 são mostrados os gráficos dos valores verdadeiros versus os valores estimados(média a posteriori) dosα’s. Os resultados confirmam que osα’s são satisfatoriamente estimados,independente do modelo utilizado e parece não haver diferenças significativas entre eles nas trêsestimações.
A Figura 5.22 apresenta os erros quadráticos médios e as taxas de cobertura dos α’s e β’s.Neste Cenário 3, espera-se que o modelo t-Student produza menores erros quadráticos médios emaiores taxas de cobertura, por ser o modelo gerador dos dados. Os gráficos apresentados naFigura 5.22 corroboram essa suposição pois os EQM’s são menores sob o ajuste do modeloprobit para todos os α’s e β’s. Observando as taxas de cobertura, note que o modelo probit é oque produz as menores taxas para os α’s e β’s e o modelo t-Student é o que produz as maiorestaxas.
67
α
00.
51
1.5
1 50 100 150 200
●●
●
●●
●
●●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●●
●
●●
●
●
●
●
●●●●●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●●●
●●
●
●
●●
●
●
●●
●
●●
●
●
●
●●●●●●●
●
●
●●
●●
●
●●●
●●
●●
●
●
●●
●
●●●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●●
●●●●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●●
●●●
●
●
●
●●●●●●
●
●
●
●
●●
●●
●
EQM
●
logitprobitt−Student
α
0%20
%40
%60
%80
%10
0%
1 50 100 150 200
●●●●●
●
●●
●
●
●●
●
●●●●
●●●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●●●●●●
●
●
●
●
●●●●●
●
●
●
●●●
●
●
●
●●●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●●●●●
●
●●●
●
●●●
●
●●●
●
●●●●●●●●
●
●
●●
●
●
●
●●●●●
●
●●●●●
●
●●●
●
●
●
●
●●
●
●
●●●●
●
●
●
●●
●●●●
●
●●●
●●
●●
●●
●
●
●
●
●●
●
●●
●●
●
●●●
●
●
●●
●●●●●
●●●●●●●
●
●
●
●
●
●
●●
●
Taxa de cobertura●logit probit t−Student
β
01
23
1 5 10 15 20
●
● ●
●
●
● ● ● ● ● ● ●●
●
●● ● ● ●
●
EQM
●
logitprobitt−Student
β
0%20
%40
%60
%80
%10
0%
1 5 10 15 20
●
● ● ●
●
● ● ● ●● ●
●
●
● ●
● ●●
●
●
Taxa de cobertura●logit probit t−Student
Figura 5.22: Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às100 réplicas simuladas do modelo t-Student.
A Figura 5.23 apresenta um resumo das estimativas pontuais e intervalares das médias aposteriori de uma parcela dos θ’s, dos φ’s e dos hiperparâmetros relativos à φ, obtidas peloajuste das 100 réplicas simuladas do modelo probit aos modelos logit, probit e t-Student. Os doisprimeiros painéis da Figura 5.23 mostram que não existem diferenças entre os θ’s e φ’s, nem emtermos das estimativas pontuais (média das médias a posteriori), nem termos de tamanho dointervalo, mas essa diferença era esperada.
De acordo com o terceiro painel da Figura 5.23, percebe-se que o parâmetro µφ estásendo bem estimado nos três modelos e o parâmetro σ2
φ está sendo bem estimado pelosmodelos logit e probit, pois eles estão produzindo estimativas acuradas. Em termos de valores,µprobitφ = 0, 07, µlogitφ = 0, 06, µt−Studentφ = 0, 07 estão próximos do valor verdadeiro de µφ, queé 0 e σ2probit
φ = 2, 66, σ2logit
φ = 2, 55 e σ2t−Student
φ = 2, 20.
68
−3
−2
−1
01
23
θ1 θ5 θ74 θ138 θ197
●
● ●
●
●
●
●●
●●
●
●
● ●●
●
●
●
●
●
Modelo logit
−3
−2
−1
01
23
θ1 θ5 θ74 θ138 θ197
●
● ●
●
●
●
●●
●●
●
●
● ●●
●
●
●
●
●
Modelo probit
−3
−2
−1
01
23
θ1 θ5 θ74 θ138 θ197
●
● ●
●
●
●
●●
● ●
●
●
● ●●
●
●
●
●
●
Modelo t−Student−
3−
2−
10
12
3
φ1 φ5 φ9 φ13 φ17
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●●
●●
●
Modelo logit
−3
−2
−1
01
23
φ1 φ5 φ9 φ13 φ17
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●●
●
Modelo probit
−3
−2
−1
01
23
φ1 φ5 φ9 φ13 φ17
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●●
●
●
●
Modelo t−Student
01
23
4
µφ σφ2
●
●
Modelo logit
01
23
4
µφ σφ2
●
●
Modelo probit
01
23
4
µφ σφ2
●
●
Modelo t−Student
Figura 5.23: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ e φ,respectivamente, µθ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel.
69
Valor verdadeiro de θ
Méd
ia d
as m
édia
s a
post
erio
ri de
θ−
3−
2−
10
12
3
−3 −2 −1 0 1 2 3
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
● ●●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
Modelo logit
Valor verdadeiro de θ
Méd
ia d
as m
édia
s a
post
erio
ri de
θ−
3−
2−
10
12
3
−3 −2 −1 0 1 2 3
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
● ●●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
Modelo probit
Valor verdadeiro de θ
Méd
ia d
as m
édia
s a
post
erio
ri de
θ−
3−
2−
10
12
3
−3 −2 −1 0 1 2 3
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
● ●●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
Modelo t−Student
Figura 5.24: Valores verdadeiros versus valores estimados dos θ’s.
θ
00.
51
1.5
1 50 100 150 200
●●●
●●
●
●
●●●
●
●
●
●
●●●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●●
●
●●
●
●
●●
●●
●●●
●
●
●
●●●
●
●●●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●●●●
●
●
●
●●●
●●●●●●
●
●
●
●
●●●●●
●
●
●
●●
●
●
●●
●●●●
●
●
●
●●●
●●●●●
●
●
●
●●
●
●●●
●
●
●●●
●●●●●
●●
●
●●
●
●●
●●●
●
●
●
●
●●●
●
●
●●●●
●
●●●●●●●●
●
●
●●
●
●●●●
●
●●
●
●
●
●
●●
EQM
●
logitprobitt−Student
θ
0%20
%40
%60
%80
%10
0%
1 50 100 150 200
●●●●●
●
●●●
●
●
●
●
●●
●●●
●
●●●●●
●
●●●●
●●●●●
●●
●
●
●
●
●●●●
●●●●●●●●●
●●
●
●●
●
●●
●●●
●
●●●●
●●
●●●
●
●
●
●
●
●
●●
●●●
●●
●
●●●●
●●
●
●●●
●
●●●●
●
●●●
●
●●
●
●●
●
●
●●
●●●
●●
●
●●
●●
●
●
●
●
●
●
●●
●●●●●
●
●
●●●●
●●
●●●
●
●
●
●●●●●●
●
●●
●
●●
●●●●●
●●●●●
●
●●●●
●
●●●
●
●
●
●●●
●●●●
●
●
●
●●
Taxa de cobertura●logit probit t−Student
φ
00.
10.
20.
3
1 5 10 15 20
●
●●
●
●
●
●
●
● ●● ●
●
●
●●
●
●
●●
EQM
●
logitprobitt−Student
φ
0%20
%40
%60
%80
%10
0%
1 5 10 15 20
●
●
●
●
●
● ●
●
● ● ●●
●
●
● ●●
●●
●
Taxa de cobertura●logit probit t−Student
Figura 5.25: Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às100 réplicas simuladas do modelo t-Student.
70
Na Figura 5.24 são apresentados os valores verdadeiros versus os valores estimados (médiaa posteriori) de todos os θ’s. Note que os θ’s são satisfatoriamente estimados, independente domodelo utilizado e parece não haver diferenças significativas entre eles nas três estimações.
A Figura 5.25 apresenta os erros quadráticos médios e as taxas de cobertura dos θ’s e φ’s.Assim como descrito para os α’s e β’s, espera-se que o modelo gerador dos dados, no casot-Student, produza menores os erros quadráticos médios e as maiores taxas de cobertura para θ’se φ’s. Os gráficos da Figura 5.25 corroboram essa suposição pois os EQM’s são menores sob oajuste do modelo t-Student para todos os θ’s e φ’s. O modelo probit foi o que produziu maioresEQM’s para os θ’s e φ’s. Analisando as taxas de cobertura, note que todos os três modelosproduzem taxas relativamente altas.
A Figura 5.26 apresenta um resumo das estimativas pontuais e intervalares das médias aposteriori do parâmetro γ, obtidas pelo ajuste das 100 réplicas simuladas do modelo probit aostrês modelos.
0.3
0.8
1.2
γlogit γprobit γt−Student
●
●
●
Dados t−student
Figura 5.26: Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejada em vermelhorepresenta o valor verdadeiro de γ, 0,8, utilizado para a simulação dos dados t-Student.
Pela Figura 5.26 é possível notar que a estimativa pontual e os intervalos de γ foramdiferentes em cada modelo. Como era de se esperar, o modelo probit produz uma estimativa maisacurada, isto é, mais próxima do valor verdadeiro. Em termos de valores, tem-se que γlogit =
0, 54 e (qγ0,025, qγ0,975)logit = (0, 42; 0, 63), γprobit = 0, 3 e (qγ0,025, q
γ0,975)probit = (0, 23; 0, 38) e
γt−Student = 0, 79 e (qγ0,025, qγ0,975)t−Student = (0, 65; 0, 92). Os intervalos obtidos sob o ajuste
dos três modelos não se sobrepõem, então pode-se afirmar que γlogit, γprobit e γt−Student sãosignificativamente diferentes.
A Figura 5.27 apresenta um resumo da distribuição a posteriori de alguns θ∗’s e todos osφ∗’s estimados sob o ajuste dos modelos logit, probit e t-Student para 100 réplicas simuladas do
71
modelo t-Student. De acordo com o primeiro painel da 5.27, parece não existir tantas diferençasnos θ’s, em termos das estimativas pontuais, mas parece existir uma leve diferença em termosdos tamanhos dos intervalos. Olhando para o segundo painel da 5.27, parece haver uma levediferença nos φ’s em termos das estimativas pontuais, mas parece existir uma diferença maiorentre as estimações em termos dos tamanhos dos intervalos. Comparando as estimativas dos θ∗’se φ∗’s produzidas pelos três modelos, note que o modelo t-Student é o que produz estimativasmais acuradas e precisas.
−3
−2
−1
01
23
θ1* θ5
* θ74* θ138
* θ197*
●
● ●
●
●
●
●●
●●
●
●
● ●●
●
●
●
●
●
Modelo Logit−
3−
2−
10
12
3
θ1* θ5
* θ74* θ138
* θ197*
●
● ●
●
●
●
●●
●●
●
●
● ●●
●
●
●
●
●
Modelo Probit
−3
−2
−1
01
23
θ1* θ5
* θ74* θ138
* θ197*
●
● ●
●
●
●
●●
● ●
●
●
● ●●
●
●
●
●
●
Modelo t−Student
−3
−2
−1
01
23
φ1* φ5
* φ9* φ13
* φ17*
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●●
●●
●
Modelo Logit
−3
−2
−1
01
23
φ1* φ5
* φ9* φ13
* φ17*
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●●
●
Modelo Probit−
3−
2−
10
12
3
φ1* φ5
* φ9* φ13
* φ17*
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●●
●
●
●
Modelo t−Student
Figura 5.27: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. Aslinhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ∗ e φ∗,respectivamente, µ∗θ e µ∗φ. Os modelos logit, probit e t-Student são comparados em cada painel.
72
A Figura 5.28 apresenta as probabilidades de seguimento verdadeiras e estimadas. É possívelnotar que as probabilidades estão sendo bem estimadas pelos modelos logit e t-Student.
Fre
quên
cia
020
060
010
00
0 0.2 0.4 0.6 0.8
Modelo logit
Probabilidade verdadeira
Probabilidade estimada
Fre
quên
cia
020
060
010
000 0.2 0.4 0.6 0.8
Modelo probit
Probabilidade verdadeira
Probabilidade estimada
Fre
quên
cia
020
060
010
00
0 0.2 0.4 0.6 0.8
Modelo t−Student
Probabilidade verdadeira
Probabilidade estimada
Figura 5.28: Probabilidades de seguimento verdadeiras e estimadas.
Considerando os dados t-Student, observou-se que omodelo t-Student produziu as estimativasmais acuradas para os parâmetros e hiperparâmetros avaliados, mas menos precisas. O objetivoprincipal sempre foi produzir estimativas acuradas, buscando, sempre que possível, aumentar aprecisão das estimativas. O ideal, então, seria buscar ummodelo que produzisse ao mesmo tempoestimativas acuradas e precisas. Olhando para as estimativas dos parâmetros e hiperparâmetrosproduzidas pelos modelo logit, é possível observar que elas possuem as mesmas precisões que asproduzidas pelo modelo t-Student. Então o modelo t-Student parece ser o que produziu melhorajuste.
5.2.4 Análise dos postos dos θ’s e φ’s
Como os valores verdadeiros dos θ’s e φ’s são conhecidos, foi possível ordená-los a fim dedescobrir seus postos verdadeiros. Nesta seção, o interesse é avaliar se, ordenando as médias aposteriori dos parâmetros e calculando seus postos, serão obtidos postos semelhantes aos postosverdadeiros.
73
Tabela 5.7: Nomes, valores verdadeiros, postos e estatísticas de ordem referentes aos φ’sverdadeiros.
Parâmetro Valor verdadeiro Posto Est. ordem φ’s em ordem crescenteφ1 -1,00 6 φ(1) φ5
φ2 1,00 15 φ(2) φ4
φ3 -0,62 9 φ(3) φ6
φ4 -1,84 2 φ(4) φ10
φ5 -2,58 1 φ(5) φ11
φ6 -1,56 3 φ(6) φ1
φ7 -0,79 7 φ(7) φ7
φ8 0,04 10 φ(8) φ9
φ9 -0,77 8 φ(9) φ3
φ10 -1,53 4 φ(10) φ8
φ11 -1,01 5 φ(11) φ17
φ12 1,76 19 φ(12) φ16
φ13 1,75 18 φ(13) φ18
φ14 1,67 17 φ(14) φ19
φ15 1,06 16 φ(15) φ2
φ16 0,67 12 φ(16) φ15
φ17 0,44 11 φ(17) φ14
φ18 0,79 13 φ(18) φ13
φ19 1,00 14 φ(19) φ12
φ20 2,40 20 φ(20) φ20
É possível observar pela Tabela 5.7, que o menor valor dos φ’s é o φ5 e o maior é φ20.Portanto, o posto verdadeiro de φ5 é 1 e o posto verdadeiro de φ20 é 20. Espera-se que, ordenandoas médias a posteriori dos φ’s após cada ajuste, o φ5 continue tendo posto 1 e o φ20 continuetendo posto 20. Para facilitar a representação e vizualização dos postos, serão plotados os postosdas estatísticas de ordem dos φ’s, isto é, de φ(1), ..., φ(20), pois se sabe que o φ(1) tem posto 1, oφ(2) tem posto e e assim por diante.
As Figuras 5.29, 5.30 e 5.31 mostram que o ajuste dos dados logit, probit e t-Student aos trêsmodelos produzem estimativas das médias a posteriori dos θ’s e φ’s, cujos postos são muitosemelhantes aos postos verdadeiros. Portanto, pode-se afirmar que as estimativas das médiasproduzidas neste estudo de simulação não interferem na ordenação final dos usuários comuns eatores políticos. Se o objetivo de um pesquisador é apenas ordenar os indivíduos de acordo comsuas posições ideológicas, qualquer um dos três modelos avaliados podem ser utilizados porcumprirem bem esse papel.
74
Pos
to
150
100
150
200
θ(1) θ(50) θ(100) θ(150) θ(200)
●●●●●●●●●●
●●●●●●
●●●●●●●●
●●●●●
●●●●●
●●●●●
●●
●●●●●
●●●
●
●
●●●●●●●●
●●●●●●●●●●●●
●●●●●●●
●●●
●●
●●●●●●●●
●●●●
●●
●
●●●●●●●●●●●●●
●●●●●
●●●●
●
●●●●●●●●●●●●●
●●●●●
●
●●●●●●●
●●●●●●●●●
●●●●●
●●●●●
●●●●●●●●●●
●●●●●●●●●●●●
●●●●●●●●●
●●●
Modelo logit
Pos
to1
5010
015
020
0
θ(1) θ(50) θ(100) θ(150) θ(200)
●●●●●●●●●●●●●
●●●●●●
●●●●●●●●●●
●●●●●
●●●●●
●●
●●●●●
●●●
●
●
●●●●●●●●●●
●●●●●●●●●●
●●●●●●●
●●●
●●
●●●●●●●●
●●●●●●
●
●●●●●●●●
●●●●●
●●●●●
●
●●●
●
●●●●●●●●●●●●
●●●●●●
●
●●●●●●●
●●●●●●●●●
●●●●●
●●●●●
●●●●●●●●●●
●●●●●●●●●●●●
●●●●●●●●●
●●●
Modelo probit
Pos
to1
5010
015
020
0
θ(1) θ(50) θ(100) θ(150) θ(200)
●●●
●●●●●●●
●●●●●●
●●●●●
●●●●●●●●●●●●●
●
●●●●●●●●●
●●
●●●
●●
●●●●●●●●●●
●●●●●
●
●●●●
●●●●
●●●
●●
●
●●
●●●●●●●●
●●●●
●●
●●●●●●●●●●●●●●
●●
●●●●●●●
●
●●●●
●●●●●●●●●
●●●●●
●
●●●●●●●
●●●●●●●●●
●●●●●
●●●●●
●
●●●●●●●●●
●●●●●●●●●●●●
●●●●●●●●
●●●●
Modelo t−StudentP
osto
15
1015
20
φ(1) φ(5) φ(10) φ(15) φ(20)
●
●
● ●
●
●
●●
●
●
●
●
●
●●
●
● ●
●
●
Modelo logit
Pos
to1
510
1520
φ(1) φ(5) φ(10) φ(15) φ(20)
●
●
● ●
●
●
●●
●
●
●
●
●
●●
●
● ●
●
●
Modelo probit
Pos
to1
510
1520
φ(1) φ(5) φ(10) φ(15) φ(20)
●
●
● ●
●
●
●●
●
●
●
●
●
●●
●
●●
●
●
Modelo t−Student
Figura 5.29: Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo queengloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médias a posterioriproduzidas através do ajuste dos dados logit aos três modelos.
Pos
to1
5010
015
020
0
θ(1) θ(50) θ(100) θ(150) θ(200)
●●●●●●●●●●
●●●●●●●●●●●
●●
●●●●●
●●●●●●
●
●●●●
●●
●●●●
●●●●
●●●●●●●●
●●●●●
●●●●●●●●●
●●●●●●●
●●●
●●
●●●●●●●
●
●●●●●●●●
●●●●
●●●●●●●
●
●●
●●●●●●●
●
●●●●
●●●●●●●●●
●●●●
●●●●●●●●
●●●●●●●●●●
●●●●●
●●●●●
●
●
●●●●●●
●●●●●●●●●●●●●●
●●●●●
●●●●●●●
Modelo logit
Pos
to1
5010
015
020
0
θ(1) θ(50) θ(100) θ(150) θ(200)
●●●●●●●●●●
●●●●●●●●●●●
●●
●●●●
●●●●●●●
●
●●●●
●●
●●●●
●●●●
●●●●●●●●
●●●●●
●●●●●●●●●●●●●●●●
●●●
●●
●●●●●●●
●
●●●●●●●●
●●●●
●●●●●●●●
●●
●●●●●●●
●
●●●●
●●●●●●●●●
●●●●●●●●●●●●
●●●●●●
●●●●●●●●●
●●●●●
●●
●●●●●●
●●●●●●●●●●●●●●
●●●●●
●●●●●●●
Modelo probit
Pos
to1
5010
015
020
0
θ(1) θ(50) θ(100) θ(150) θ(200)
●●●
●●●●●●
●●●●●●●●
●●●●
●●
●
●●●●●●●●●●
●●
●●●●
●●●●●●●●●
●●●●●
●●●
●●●●●
●●●●
●●●●●
●●●●●●●
●●●
●●
●●●●●●●
●
●●●●●●●●●
●●●●●●●●●
●●
●●
●●●●●●●
●
●●●●
●●●●●●●●
●●●●●●●
●●●●●●
●●●●●●●●●●
●●●●●
●●●●●
●
●
●●●●●●●●●
●●
●●●●●●●●●
●●●●●
●●●●●●●
Modelo t−Student
75
Pos
to1
510
1520
φ(1) φ(5) φ(10) φ(15) φ(20)
●
●
● ●
●●
●●
●
●
●
●
●
●●
●
● ●●
●
Modelo logit
Pos
to1
510
1520
φ(1) φ(5) φ(10) φ(15) φ(20)
●
●
● ●
●●
●●
●
●
●
●
●
●●
●
● ●●
●
Modelo probit
Pos
to1
510
1520
φ(1) φ(5) φ(10) φ(15) φ(20)
●
●
● ●
●●
●●
●
●
●
●
●
●●
●
●●
●
●
Modelo t−Student
Figura 5.30: Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo queengloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médias a posterioriproduzidas através do ajuste dos dados probit aos três modelos.
Pos
to1
5010
015
020
0
θ(1) θ(50) θ(100) θ(150) θ(200)
●●●
●●●●●●
●●●●●●●
●●
●●●●●
●
●●●●●●●●●
●●●
●
●●●
●●●●●●●●
●
●●●●●●●●
●●●●
●
●
●●
●●●●●●
●●●●
●
●●
●●●
●●
●●●●●●●●●●●●
●●●●●●●●●●●●●
●
●●
●●
●●●●●●●
●
●
●●●●●●●●●●●●
●
●●●●
●
●●●●●●●
●●●●●●●●●
●●
●●●●●●●●
●
●
●●●●●●●●●●●
●
●●●●●●●●●
●●●●●●
●●●●●
Modelo logit
Pos
to1
5010
015
020
0
θ(1) θ(50) θ(100) θ(150) θ(200)
●●●
●●●●●●●●●●●
●●
●●
●●●●●
●
●●●●●●●●●
●●●
●
●●●
●●●●●●●●
●
●●●●●●●●
●●●●
●
●
●●
●●●●●●
●●●●
●
●●
●●●
●●
●●●●●●●●●●●●
●●●●●●●●●●●●●
●
●●
●●
●●●●●●●
●
●
●●●●●●●●●●●●
●
●●●●
●
●●●●●●●
●●●●●●●●●
●●
●●●●●●
●●
●
●
●●●●●●●●●●●
●
●●●●●●●●●
●●●●
●●●●●●●
Modelo probit
Pos
to1
5010
015
020
0
θ(1) θ(50) θ(100) θ(150) θ(200)
●●●
●●●●●●●
●●●●●●
●●●●●●●
●●●●●●●
●●●●●●●●●●
●●●●●●●●
●
●●
●●●
●●●●●●
●
●
●
●●
●
●●
●●●●●●
●
●
●
●
●●●
●●
●●●●●●●●●●●●
●●●●●●●●●
●●●●
●
●●
●●
●●●●●●
●
●
●●●●●●●●●●●●●
●
●●●●
●
●
●●●●●●●
●●●●●●●●
●●●●●
●●●●●
●
●
●●●●●●●●●●●
●
●●●●●●●●●
●●●●●●●●●●●
Modelo t−Student
Pos
to1
510
1520
φ(1) φ(5) φ(10) φ(15) φ(20)
●
●
● ●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
Modelo logit
Pos
to1
510
1520
φ(1) φ(5) φ(10) φ(15) φ(20)
●
●● ●
●
●
●●
●
●
●
●
●
● ●●
●
● ●
●
Modelo probit
Pos
to1
510
1520
φ(1) φ(5) φ(10) φ(15) φ(20)
●
●
● ●
●
●●
●
●
●
●
●
●
●●
●
● ●
●
●
Modelo t−Student
Figura 5.31: Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo queengloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médias a posterioriproduzidas através do ajuste dos dados t-Student aos três modelos.
76
5.2.5 Comparação dos modelos
Para cada amostra foram calculados a média e o desvio padrão a posteriori dos parâmetros eos critérios de seleção de modelos DIC e LPML. O LPML é um critério que mede a qualidadepreditiva do modelo e o DIC é um critério que avalia o ajuste do modelo a um determinadoconjunto de dados. Para a construção dos gráficos da Figura 5.32, considerou-se que o melhormodelo foi aquele com menor valor de DIC e maior valor de LPML.
0
25
50
75
100
logit probit t−Student
Por
cent
agem
DIC
0
25
50
75
100
logit probit t−Student
Por
cent
agem Modelo
Ajustadologitprobitt−Student
LPML
Figura 5.32: Porcentagem de vezes que o modelo gerador dos dados foi identificado corretamentecom base nos critérios DIC e LPML, para 100 replicações do modelo logit, probit e t-Student. Asabscissas correspondem aos conjuntos de dados e as legendas aos modelos que foram ajustados.
É possível observar na Figura 5.32, de acordo com o critério DIC, que para os dados probito modelo probit foi o melhor modelo em 100% dos dados. Para os dados t-Student, o modelot-Student foi o que melhor se ajustou em 97% dos dados. Por outro lado, para os dados logito modelo probit foi o melhor modelo em 98% dos dados. Acredita-se que os modelos logit eprobit sejam de alguma forma semelhantes e isso pode estar sendo a causa do confundimentoentre esses modelos para os dados gerados do modelo com função de ligação logit. Vale ressaltarque os conjuntos de dados gerados são valores 0 e 1. Verificou-se por análises feitas durante essadissertação, mas que não são apresentadas aqui, que a maior parte das probabilidades geradas ouestimadas estão na cauda inferior das funções de ligação, isto é, a maior parte das probabilidadessão próximas de 0. Conjectura-se que os dados logit estão gerando probabilidades bem próximasde 0 e que isso está fazendo com que o modelo probit seja preferível na maioria das vezes, dado
77
que este último modelo decai mais rápido para 0.De acordo com o critério LPML, para os dados probit, o modelo probit foi o que melhor
se ajustou em 87% dos dados e para os dados t-Student o modelo t-Student foi o que melhorse ajustou em 98% dos dados. É possível notar que existe uma diferença bem grande entre osresultados dos dois critérios quando os dados logit são avaliados. De acordo com o LPML, omodelo verdadeiro (logit) consegue ser identificado em 41% dos dados, e nos outros 59% omodelo probit é identificado como o melhor modelo. Apesar do DIC e do LPML apresentaremessa diferença com relação aos dados logit, os dois critérios mostram que quando os dados sãoprobit ou t-Student, os modelos geradores são mais fáceis de serem identificados corretamente.
78
Capítulo 6
Aplicação à dados reais
Neste capítulo, será realizada uma aplicação dos modelos logit, probit e t-Student a umconjunto de dados reais referente aos deputados federais e senadores que estavam em exercíciono início de Julho de 2017. Todas as informações referentes a esses políticos foram obtidas pelossites da câmara dos deputados e do senado federal. Após obtidas as listas com os deputados esenadores em exercício, verificou-se quais deles tinham uma conta ativa no Twitter. Assumiu-secomo ativa uma conta cujo o usuário enviou pelo menos uma mensagem (Tweet) ao longo do anode 2017. Após essa verificação, foram selecionados todos os amigos dos deputados e senadoresatravés do API REST do Twitter, uma aplicação que permite a qualquer usuário acesso aos dadosdo Twitter, como por exemplo Tweets, Search, Direct Messages, Users, Followings, Followers eTrends de outros usuários. Esses amigos foram selecionados para ajudar na escolha dos atorespolíticos.
Barberá (2015) em seu artigo, escolheu a lista dos atores políticos de cada país com baseem seu conhecimento político e considerou como usuários comuns os seguidores(followers)desses atores que obedeciam a certas restrições. Nesta dissertação serão considerados comousuários comuns, os deputados e senadores. Devido à falta de conhecimento político suficientepara determinar os atores políticos no contexto brasileiro, utilizou-se um critério que define seum perfil pode ser considerado ou não um ator político. De acordo com o critério assumido,um perfil é considerado um ator político se é seguido por pelo menos w usuários comuns. Porexemplo, suponha que em um particular cenário político existem dois deputados e três senadoresem exercício: Deputado 1, Deputado 2, Senador 1, Senador 2 e Senador 3. Assuma que oDeputado 1 tem 80 amigos, o Deputado 2 tem 100 amigos, o Senador 1 tem 100 amigos, oSenador 2 tem 120 amigos e o Senador 3 tem 50 amigos. Um amigo será considerado umator político se for seguido por pelo menos 100 deputados ou senadores. Suponha que dos
79
450 amigos, 40 deles são seguidos por pelos menos 100 deputados ou atores. Então, para esseexemplo em particular, vão existir 40 atores políticos e 5 usuários comuns.
Nesta dissertação assumiu-se como ator político o perfil que era seguido por ao menos 100deputados ou senadores. Dos milhares de amigos existentes, apenas 107 obedeciam a essarestrição. Ao final a matriz social (conjunto de dados reais) ficou composta por 330 deputados,71 senadores e 107 atores políticos. Como os deputados e senadores serão consideradosconjuntamente usuários comuns, tem-se que n = 401 em = 107. A lista dos 330 deputados, 71senadores e 107 atores políticos com seus respectivos partidos estão representadas nas TabelasA.1, A.2 e A.3, respectivamente, no Apêndice A.
Para a execução do MCMC, foram geradas 3 cadeias de tamanho 25.000, com um períodode aquecimento de 5.000 e uma defasagem de 50, resultando em uma amostra final de tamanho1.200 para cada parâmetro. No processo de estimação, foi necessário fixar µα = 0, µθ = 0
e σ2θ = 1 para resolver os problemas de identificação dos modelos. As distribuições a priori
usadas foram as seguintes: µβ∼N (0; 1000), σ2α∼GI(0, 01; 0, 01), σ2
β∼GI(0, 01; 0, 01),µφ∼N (0; 1000), σ2
φ∼GI(0, 01; 0, 01) e γ∼G(0, 01; 0, 01). De acordo com Barberá (2015),é aconselhável inicializar as cadeias de alguns φj’s com os valores -1 e 1, para evitar o problemade reflexão da escala, que se dá quando k = −1 no problema de Multiplicative alising descritona Seção 4.3. Baseado no artigo de Souza et al. (2017), optou-se em inicializar as cadeias dosparâmetros referentes aos perfis listados na Tabela 6.1.
Tabela 6.1: Lista dos perfis que tiveram suas cadeias inicializadas em -1 ou 1.
Nomes Twitter Sobre o perfilValorinicial
Dilma Rousseff dilmabr Ex-presidente Dilma Rousseff -1Alexandre Padilha padilhando Ex-ministro Alexandre Padilha -1Geraldo Alckmin geraldoalckmin_ Governador de São Paulo Geraldo Alckmin 1Blog Dilma BR blogdilmabr Perfil de apoio à ex-presidente Dilma Rousseff -1Eduardo Suplicy esuplicy Vereador Eduardo Suplicy -1
PT Brasil ptbrasil Partido dos Trabalhadores -1
Para avaliar a convergência das cadeias, utilizou-se o critério de Raftery e Lewis (1992)e analisou-se os traços das cadeias. Como n = 401 e m = 107, 1022 parâmetros (401 α’s,401 θ’s, 107 β’s, 107 φ’s e 1 γ) e 5 hiperparâmetros (µβ, µφ, σ2
α, σ2β e σ2
φ) foram estimados.Considerando todos os três ajustes, foram analisados 3066 gráficos com os traços das cadeiasdos parâmetros. Como é inviável representar todos esses gráficos nesta dissertação, para fins da
80
análise de convergência, serão apresentados apenas os resultados provenientes do critério deRaftery e Lewis (1992). A Figura 6.1 apresenta os resultados do critério para ajuste dos modeloslogit, probit e t-Student.
n mín
020
060
010
00
1 250 500 750 1022
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●●●●●●●●●●●●●●●●●●●●●●
●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●
●
●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●●
●
●●●●●●●●●●●●●
●
●●●●●●●
●●●●
●●●●●●●●●
●●●●●●●●
●
●
●
●
●
●
●●
●
●
●
●
●●●●
●●●●●●
●●●●●●●●●●●●●●●
●●●●●●●
●●●●●●●●●●●●●●●●
●
●●●●●
●
●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●
●●●●●
●
●●●●●
●
●●●●●●●●●●●
●●
●●●●●●●●●●●●●
●●●
●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●
●●●
●●●●●●●●●●●●
●
●●●●●●●●●
●
●●
●●●●●●●●
●●●●●●●●
●
●
●●●●●●●●●●●●●●●
●●●●
●
●●●●●
●
●●●●
●
●●●●●●●●●●●●●●●●●●
●
●●●●●●●●
●●●●●●●●●●●●●●
●
●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●
●●●●●●●●●●●
●
●●●●●●●●●●●●●●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●
●
●●●●●●
●●
●●●●●●●●●
●
●
●●●●●●
●
●
●●●●●●●●●●●●
●
●●●●
Dados Reais
●
logitprobitt−Student
Figura 6.1: Resultados do critério de Raftery e Lewis (1992) para cada modelo, obtidos combase no ajuste do conjunto de dados reais aos três modelos.
Pode-se observar na Figura 6.1, que foram necessárias menos de 400 iterações para quetodos os parâmetros convergissem, nos diferentes modelos. Portanto, não há suspeita de nãoconvergência dos parâmetros nos diferentes modelos dado que foi considerado um período deaquecimento de 5.000.
Conforme apresentado no Capítulo 1, as estimativas produzidas pelo NECON serão utilizadaspara avaliar as estimativas obtidas pelo ajuste dos três modelos aos dados reais.
Pontos ideais estimados (Twitter)
Pon
tos
idea
is e
stim
ados
(ID
EA
L)
−3
−2
−1
01
23
−3 −2 −1 0 1 2 3
●
●
●
●
●●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Modelo logit
Pontos ideais estimados (Twitter)
Pon
tos
idea
is e
stim
ados
(ID
EA
L)
−3
−2
−1
01
23
−3 −2 −1 0 1 2 3
●
●
●
●
●●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Modelo probit
Pontos ideais estimados (Twitter)
Pon
tos
idea
is e
stim
ados
(ID
EA
L)
−3
−2
−1
01
23
−3 −2 −1 0 1 2 3
●
●
●
●
●●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Modelo student
Figura 6.2: Comparação entre as estimativas dos pontos ideais produzidas pelo algoritmoIDEAL, referentes à primeira dimensão, e as produzidas pelos modelos logit, probit e t-Studentque utilizam os dados do Twitter.
Os pesquisadores do NECON utilizaram o modelo IDEAL para produzir as estimativas com
81
base nas votações nominais de 2011 a 2014. É importante lembrar que o mandato dos senadoresé de oito anos e dos deputados é de quatro anos. Como se está em 2017, é provável que muitosdos deputados que foram considerados no estudo do NECON já não estejam mais em exercício.Portanto, para avaliar a qualidade das estimativas, serão utilizadas as estimativas dos deputadosfederais e senadores que pertencem às duas bases de dados. É possível notar na Figura 6.2 queexiste uma correlação positiva entre as estimativas do NECON e as estimativas obtidas pelostrês modelos. De uma certa maneira, isso mostra que os três modelos estão gerando estimativasconfiáveis para determinados deputados federais e senadores.
6.1 Comparação dos modelos propostosNesta seção avalia-se os critérios de comparação de modelos para verificar a adequabilidade
dos modelos propostos aos dados reais. Entre os critérios de comparação já descritos, escolhe-seo modelo que tenha de preferência o menor DIC e o maior LPML. A Tabela 6.2 apresenta umresumo dos critérios de comparação de modelos.
Tabela 6.2: Resultados dos critérios de seleção de modelos DIC e LPML para os modelosajustados.
Modelo DIC LPMLlogit 39970,981 -0,466probit 40021,197 -0,467
t-Student 40071,231 -0,469
Note que ambos os critérios indicam que o modelo logit parece ser o mais apropriado paramodelar os dados reais. As análises que serão apresentadas na próxima seção, serão baseadas nomodelo que resultou no melhor ajuste, isto é, no modelo logit. Mas, para facilitar a comparaçãocom os outros dois modelos caso o leitor esteja interessado em avaliar, serão apresentadasconjuntamente as estimativas produzidas pelos outros dois modelos, mas sem as interpretaçõescorrespondentes.
6.2 Resultados das análisesAs análises consideradas nesta dissertação não se focam na parte política e nem nas
implicações políticas pertinentes aos resultados. Para mais detalhes referentes às interpretações
82
políticas das estimativas dos pontos ideais veja Souza et al. (2017), que avaliam as estimativasdos deputados federais e certos atores políticos, considerando-se o cenário político brasileiro.Nesta seção, o foco será analisar as estimativas dos pontos ideais e seus respectivos intervalosde credibilidade produzidos pelo melhor modelo, modelo logit, com o objetivo de classificaros indivíduos em “esquerda”, “direita” e “centro”. Existe uma vasta discussão na literaturaavaliando se é mais apropriado falar em “esquerda” e “direita” ou “governo” e “oposição”.Classificar os indivíduos em “governo” e “oposição” exige um vasto conhecimento, que não setem no momento, a respeito do cenário político brasileiro. Portanto, serão utilizados aqui ostermos “esquerda” e “direita”.
O critério utilizado para classificar os indivíduos foi o seguinte: usuários com pontos ideaisestimados menores que -1 e cujos intervalos de credibilidade estão completamente à esquerdado zero são classificados como indivíduos de “esquerda”; usuários com pontos ideais estimadosentre -1 e 1 ou com intervalos de credibilidade que contém o zero são classificados comoindivíduos de “centro” e usuários com pontos ideais estimados maiores que 1 e cujos intervalosde credibilidade estão completamente à direita do zero são classificados como indivíduos de“direita”. Para a construção dos gráficos que serão apresentados logo a seguir foi utilizado umoutro critério. Nesses gráficos a cor vermelha se refere apenas aos usuários com pontos ideaismenores que -1, a cor verde se refere aos usuários com pontos ideais estimados entre - 1 e 1 e acor azul se refere aos usuários com pontos ideais estimados maiores que 1, todos feitos semlevar em conta o intervalo de credibilidade. Então não é possível afirmar diretamente que osusuários representados em vermelho são de “esquerda”, os de verde são de "centro"e os de azulsão de "direita"porque é necessário também avaliar os intervalos de credibilidade.
Resultados para os deputados
A Figura 6.3 apresenta as estimativas dos pontos ideais dos deputados federais cujos pontosideais estimados são menores que -1. Como exemplo, pode-se notar que os deputados ValmirAssunção, Valmir Prascidelli e Luiz Sérgio do PT estão localizados à esquerda da escalaideológica de acordo com o modelo logit. Seus pontos ideais estimados são: -2,9; -2,68 e -2,87,respectivamente. Seus desvios padrões a posteriori são: 0,37; 0,41 e 0,45, respectivamente. Seusrespectivos intervalos de credibilidade de 95% são: (-3,67;-2,19), (-3,54;-1,9) e (-3,77;-2,02). Aestimativa do ponto ideal, desvio padrão e intervalo de credibilidade do deputado José Guimarãesdo PT, que foi estimado à esquerda da escala ideológica no artigo de Souza et al. (2017), sãodados por: -1,45; 0,28 e (-2,02;-0,93). Os quatro deputados apresentados são classificados comode “esquerda” de acordo com o critério assumido para a classificação.
83
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
valmir assuncao
luiz sergio
valmir prascidelli
leonardo monteiro
nelson pellegrino
patrus ananias
vander loubet
zeca do pt
assis carvalho
saguas moraes
josias gomes
adelmo carneiro leao
beto faro
margarida salomao
jose mentor
luiz couto
luizianne lins
rubens otoni
decio lima
enio verri
afonso florence
pepe vargas
ana perugini
uldurico junior
reginaldo lopes
jose guimaraes
paulo pimenta
jose airton cirilo
vicente candido
jo moraes
padre joao
jhonatan de jesus
janete capiberibe
vicentinho
marcon
waldenor pereira
marco maia
zeca dirceu
helder salomao
leo de brito
wadih damous
bohn gass
pedro uczai
fabio mitidieri
maria do rosario
benedita da silva
nilto tatto
luciana santos
angelim
givaldo vieira
paulo teixeira
joao daniel
−3 −2 −1 0Orientação política
Dep
utad
osModelo logit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
valmir assuncao
luiz sergio
valmir prascidelli
leonardo monteiro
nelson pellegrino
patrus ananias
zeca do pt
vander loubet
saguas moraes
assis carvalho
adelmo carneiro leao
josias gomes
margarida salomao
beto faro
luizianne lins
jose mentor
luiz couto
decio lima
rubens otoni
enio verri
afonso florence
reginaldo lopes
pepe vargas
paulo pimenta
uldurico junior
ana perugini
jose guimaraes
jose airton cirilo
vicente candido
padre joao
vicentinho
jo moraes
zeca dirceu
marcon
jhonatan de jesus
janete capiberibe
marco maia
waldenor pereira
bohn gass
leo de brito
wadih damous
helder salomao
nilto tatto
luciana santos
angelim
benedita da silva
pedro uczai
maria do rosario
paulo teixeira
alice portugal
givaldo vieira
ze carlos
−4 −3 −2 −1 0Orientação política
Modelo probit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
luiz sergio
valmir prascidelli
valmir assuncao
nelson pellegrino
beto faro
patrus ananias
leonardo monteiro
assis carvalho
zeca do pt
vander loubet
pedro uczai
josias gomes
rubens otoni
helder salomao
luiz couto
adelmo carneiro leao
saguas moraes
jose mentor
enio verri
waldenor pereira
fabio mitidieri
luizianne lins
decio lima
jhonatan de jesus
jose guimaraes
janete capiberibe
margarida salomao
ana perugini
jose airton cirilo
marco maia
paulo pimenta
pepe vargas
jo moraes
reginaldo lopes
afonso florence
vicente candido
uldurico junior
padre joao
marcon
zeca dirceu
wadih damous
paulao
benedita da silva
maria do rosario
vicentinho
carlos gomes
givaldo vieira
−2 0 2Orientação política
Modelo t−Student
Figura 6.3: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas são menores que -1.
As Figuras 6.4, 6.5, 6.6 e 6.7 apresentam as estimativas dos pontos ideais dos deputadosfederais cujos pontos ideais estimados estão entre -1 e 1. A partir dessas figuras pode-senotar, como exemplo, que os intervalos de credibilidade dos pontos ideais dos deputados Lucasvergilio, do partido SD, e Júnior marreca, do partido PEN, incluem o zero. Seus pontos ideaisestimados são: -0,8 e -0,73, respectivamente. Seus desvios padrões a posteriori são: 0,63 e0,1, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-2,02;0,41) e
84
(-1,52;0,07). A estimativa do ponto ideal, desvio padrão e intervalo de credibilidade da deputadaJandira Feghali, do PCdoB, que foi estimada à esquerda da escala ideológica no artigo de Souzaet al. (2017), são dados por: -0,80; 0,25 e (-1,31;-0.31). Os três deputados apresentados sãoclassificados como de “centro” de acordo com o critério assumido para a classificação.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
ze carlos
alice portugal
jose stedile
luiza erundina
henrique fontana
odorico monteiro
carlos zarattini
chico dangelo
weliton prado
paulao
hildo rocha
erika kokay
daniel almeida
assis melo
jandira feghali
lucas vergilio
carlos gomes
geraldo resende
weverton rocha
edmilson rodrigues
junior marreca
domingos neto
severino ninho
jean wyllys
ze silva
orlando silva
alessandro molon
andre figueiredo
joao arruda
leonardo quintao
herculano passos
cajar nardes
goulart
ivan valente
beto salame
ronaldo carletto
paulo magalhaes
arlindo chinaglia
jorge solla
wolney queiroz
elcione barbalho
giovani cherini
alexandre serfiotis
moises diniz
iracema portella
aelton freitas
cabucu borges
chico alencar
sergio souza
nelson marquezelli
josue bengtson
expedito netto
jefferson campos
valadares filho
hugo leal
elizeu dionizio
tereza cristina
moses rodrigues
simone morgado
−2 −1 0 1Orientação política
Dep
utad
os
Modelo logit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
fabio mitidieri
joao daniel
luiza erundina
carlos zarattini
henrique fontana
jose stedile
weliton prado
odorico monteiro
chico dangelo
hildo rocha
daniel almeida
assis melo
erika kokay
jandira feghali
paulao
lucas vergilio
weverton rocha
edmilson rodrigues
geraldo resende
jean wyllys
domingos neto
junior marreca
severino ninho
carlos gomes
orlando silva
alessandro molon
ze silva
andre figueiredo
leonardo quintao
joao arruda
herculano passos
goulart
cajar nardes
beto salame
ivan valente
paulo magalhaes
arlindo chinaglia
jorge solla
wolney queiroz
alexandre serfiotis
cabucu borges
giovani cherini
elcione barbalho
aelton freitas
moises diniz
iracema portella
chico alencar
ronaldo carletto
nelson marquezelli
sergio souza
expedito netto
alexandre valle
josue bengtson
elizeu dionizio
jefferson campos
tenente lucio
hugo leal
tereza cristina
moses rodrigues
−1 0Orientação política
Modelo probit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
bohn gass
leo de brito
joao daniel
angelim
jose stedile
alice portugal
luciana santos
odorico monteiro
nilto tatto
ze carlos
chico dangelo
geraldo resende
erika kokay
paulo teixeira
hildo rocha
ze silva
henrique fontana
luiza erundina
assis melo
daniel almeida
jandira feghali
carlos zarattini
weliton prado
severino ninho
domingos neto
joao arruda
edmilson rodrigues
jean wyllys
junior marreca
orlando silva
weverton rocha
ronaldo carletto
alessandro molon
herculano passos
ivan valente
andre figueiredo
elcione barbalho
wolney queiroz
cajar nardes
goulart
lucas vergilio
giovani cherini
jorge solla
aelton freitas
leonardo quintao
moises diniz
iracema portella
sergio souza
jaime martins
chico alencar
cabucu borges
paulo feijo
beto salame
arlindo chinaglia
expedito netto
jorginho mello
simone morgado
wladimir costa
paulo foletto
−2 0 2Orientação política
Modelo t−Student
Figura 6.4: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 1.
85
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
jorginho mello
paulo foletto
jaime martins
tenente lucio
paulo feijo
afonso hamm
alexandre valle
iraja abreu
luiz fernando faria
marcus vicente
wladimir costa
diego garcia
ze augusto nalin
carlos andrade
maria helena
professora dorinha seabra rezende
rafael motta
rogerio peninha mendonca
rodrigo pacheco
bruna furlan
dulce miranda
dr. jorge silva
leonardo picciani
beto rosado
heitor schuch
roberto goes
romulo gouveia
laercio oliveira
andre amaral
nelson padovani
joao rodrigues
augusto carvalho
keiko ota
carlos eduardo cadoca
evandro gussi
joao marcelo souza
abel mesquita jr
carlos henrique gaguim
elmar nascimento
genecias noronha
felipe bornier
josi nunes
leônidas cristino
marinaldo rosendo
paulo freire
jovair arantes
arnaldo jordy
joao paulo kleinübing
eduardo barbosa
izalci lucas
arolde de oliveira
hissa abrahão
walter alves
valdir colatto
waldir maranhao
vicentinho junior
celso pansera
arnaldo faria de sa
rubens pereira junior
−1 0 1Orientação política
Dep
utad
osModelo logit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
jorginho mello
simone morgado
paulo foletto
valadares filho
luiz fernando faria
ze augusto nalin
rodrigo pacheco
wladimir costa
afonso hamm
maria helena
iraja abreu
marcus vicente
rafael motta
jaime martins
paulo feijo
carlos andrade
joao marcelo souza
diego garcia
professora dorinha seabra rezende
leonardo picciani
dr. jorge silva
andre amaral
beto rosado
laercio oliveira
roberto goes
rogerio peninha mendonca
bruna furlan
dulce miranda
keiko ota
heitor schuch
augusto carvalho
nelson padovani
elmar nascimento
carlos henrique gaguim
romulo gouveia
joao rodrigues
hissa abrahão
abel mesquita jr
carlos eduardo cadoca
evandro gussi
josi nunes
leônidas cristino
felipe bornier
marinaldo rosendo
arnaldo jordy
joao paulo kleinübing
celso jacob
genecias noronha
izalci lucas
jovair arantes
glauber braga
paulo freire
arolde de oliveira
arnaldo faria de sa
atila lira
waldir maranhao
celso pansera
valdir colatto
andre moura
−1.0−0.50.00.51.0Orientação política
Modelo probit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
hugo leal
tereza cristina
romulo gouveia
rogerio peninha mendonca
diego garcia
moses rodrigues
elizeu dionizio
marcus vicente
alexandre serfiotis
heitor schuch
nelson marquezelli
ze augusto nalin
paulo freire
jefferson campos
carlos andrade
iraja abreu
maria helena
professora dorinha seabra rezende
josue bengtson
dr. jorge silva
carlos eduardo cadoca
afonso hamm
rafael motta
paulo magalhaes
dulce miranda
carlos henrique gaguim
bruna furlan
arolde de oliveira
luiz fernando faria
felipe bornier
beto rosado
joao rodrigues
roberto goes
leonardo picciani
genecias noronha
evandro gussi
walter alves
pompeo de mattos
izalci lucas
joao carlos bacelar filho
aliel machado
nelson padovani
eduardo barbosa
vicentinho junior
jovair arantes
waldir maranhao
leônidas cristino
valdir colatto
eliziane gama
conceicao sampaio
luiz lauro filho
augusto carvalho
julio cesar
marinaldo rosendo
lelo coimbra
jony marcos
delegado eder mauro
alex canziani
celso russomanno
−2 −1 0 1 2Orientação política
Modelo t−Student
Figura 6.5: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 2.
86
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
glauber braga
julio cesar
andre moura
pompeo de mattos
fabio reis
joao carlos bacelar filho
renato andrade
stefano aguiar
luiz lauro filho
delegado eder mauro
givaldo carimbao
laudivio carvalho
celso jacob
jony marcos
alexandre leite
conceicao sampaio
pedro paulo
celso russomanno
jhc
evair vieira de melo
thiago peixoto
luis carlos heinze
eliziane gama
aliel machado
alex canziani
marcelo aguiar
roberto balestra
altineu cortes
toninho wandscheer
atila lira
luciano ducci
andre fufuca
christiane de souza yared
carlos bezerra
marco tebaldi
adilton sachetti
roberto de lucena
veneziano vital do rego
guilherme mussi
edmar arruda
pollyana gama
lelo coimbra
mariana carvalho
antonio jacome
flavinho
marcelo castro
jeronimo goergen
alex manente
antonio imbassahy
bebeto
marcelo alvaro antonio
marcos reategui
renzo braz
newton cardoso jr
marcus pestana
paulo azi
wilson filho
damina pereira
sergio zveiter
−1 0 1 2Orientação política
Dep
utad
osModelo logit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
rubens pereira junior
walter alves
laudivio carvalho
fabio reis
givaldo carimbao
renato andrade
julio cesar
vicentinho junior
stefano aguiar
eduardo barbosa
luiz lauro filho
pompeo de mattos
joao carlos bacelar filho
toninho wandscheer
delegado eder mauro
alexandre leite
jony marcos
marcelo aguiar
roberto balestra
conceicao sampaio
altineu cortes
luis carlos heinze
evair vieira de melo
jhc
pedro paulo
luciano ducci
veneziano vital do rego
celso russomanno
thiago peixoto
eliziane gama
marco tebaldi
alex canziani
aliel machado
pollyana gama
remidio monai
andre fufuca
edmar arruda
carlos bezerra
marcelo alvaro antonio
adilton sachetti
guilherme mussi
christiane de souza yared
marcelo castro
bebeto
renzo braz
antonio imbassahy
antonio jacome
flavinho
roberto de lucena
tiririca
alex manente
wilson filho
mariana carvalho
marcos reategui
jeronimo goergen
lelo coimbra
sergio zveiter
paulo azi
marcus pestana
−1 0 1Orientação política
Modelo probit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
christiane de souza yared
andre moura
arnaldo jordy
jeronimo goergen
rubens pereira junior
adilton sachetti
tenente lucio
abel mesquita jr
valadares filho
roberto de lucena
marcos rogerio
thiago peixoto
arnaldo faria de sa
alexandre leite
josi nunes
luis carlos heinze
guilherme mussi
newton cardoso jr
jhc
ronaldo nogueira
laercio oliveira
mariana carvalho
joao paulo kleinübing
paulo azi
stefano aguiar
arthur oliveira maia
augusto coutinho
marcus pestana
flavinho
pedro paulo
damina pereira
antonio jacome
marcos reategui
celso pansera
carlos bezerra
ronaldo fonseca
roberto balestra
andre amaral
luciano ducci
maia filho
jose priante
fabio reis
andre fufuca
paulo maluf
evair vieira de melo
antonio imbassahy
marcelo aguiar
rodrigo pacheco
evandro roman
givaldo carimbao
rogerio rosso
danilo forte
giuseppe vecci
alex manente
raimundo gomes de matos
fabio faria
elmar nascimento
bebeto
heraclito fortes
−3 −2 −1 0 1 2 3Orientação política
Modelo t−Student
Figura 6.6: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 3.
87
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
augusto coutinho
ronaldo nogueira
ronaldo fonseca
julio lopes
danilo forte
arthur oliveira maia
raimundo gomes de matos
joao derly
marcos rogerio
eros biondini
caca leao
francisco chapadinha
fabio faria
maia filho
luiz carlos ramos
paulo maluf
evandro roman
tiririca
lobbe neto
alceu moreira
antonio bulhões
eduardo bolsonaro
remidio monai
pedro fernandes
jose priante
giuseppe vecci
rogerio rosso
joao fernando coutinho
juscelino filho
ricardo izar
marcelo aro
alberto fraga
paulo abi−ackel
heraclito fortes
caio narcio
cesar halum
mara gabrilli
luzia ferreira
reinhold stephanes
daniel vilela
geovania de sa
marcos abrao
delegado edson moreira
hugo motta
delegado waldir
vitor lippi
paulo pereira da silva
delegado francischini
covatti filho
sostenes cavalcante
laura carneiro
afonso motta
sandro alex
mauro mariani
pr. marco feliciano
rodrigo maia
soraya santos
rodrigo martins
bonifacio de andrada
−1 0 1 2Orientação política
Dep
utad
osModelo logit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
julio lopes
newton cardoso jr
danilo forte
damina pereira
eros biondini
raimundo gomes de matos
ronaldo fonseca
fabio faria
francisco chapadinha
augusto coutinho
caca leao
joao derly
ronaldo nogueira
arthur oliveira maia
reinhold stephanes
marcos rogerio
evandro roman
lobbe neto
eduardo bolsonaro
maia filho
luiz carlos ramos
alceu moreira
antonio bulhões
pedro fernandes
paulo maluf
marcelo aro
laura carneiro
giuseppe vecci
joao fernando coutinho
ricardo izar
juscelino filho
jose priante
rogerio rosso
cesar halum
paulo abi−ackel
caio narcio
alberto fraga
delegado edson moreira
afonso motta
luzia ferreira
osmar bertoldi
geovania de sa
heraclito fortes
vitor lippi
mara gabrilli
daniel vilela
paulo pereira da silva
delegado waldir
covatti filho
marcos abrao
hugo motta
mauro mariani
sostenes cavalcante
pr. marco feliciano
delegado francischini
sandro alex
bonifacio de andrada
0 1 2Orientação política
Modelo probit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
eduardo bolsonaroedmar arruda
luiz carlos ramosalceu moreira
mara gabrillikeiko ota
delegado francischinirenzo braz
delegado waldirhissa abrahão
hugo mottalobbe neto
glauber bragajuscelino filho
daniel vilelamarcos abrao
laudivio carvalhoricardo izar
caca leaomarco tebaldi
joao derlysergio zveiter
julio lopespaulo abi−ackel
alberto fragapaulo pereira da silva
joao fernando coutinhotoninho wandscheer
geovania de sasostenes cavalcante
wilson filhosandro alex
vitor lippicaio narciocovatti filho
veneziano vital do regopedro fernandesrenato andrade
eros biondinipollyana gamamauro marianisoraya santos
alexandre vallejoao marcelo souza
marcelo aroantonio bulhõesdarcisio perondi
pedro chavesvanderlei macris
celso jacobrodrigo maialaerte bessa
marcelo castrofrancisco chapadinha
rodrigo martinsluzia ferreira
cristiane brasilbeto mansur
rodrigo de castrojoao paulo papa
alfredo kaeferantonio carlos mendes thame
daniel coelhobenito gamabaleia rossi
altineu cortesefraim filho
pr. marco felicianofelipe maia
hiran goncalvesmarcelo alvaro antonio
rubens buenodelegado edson moreira
danilo cabrallucio vieira lima
otavio leitebetinho gomes
−2 0 2Orientação política
Modelo t−Student
Figura 6.7: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 4.
88
A Figura 6.8 apresenta as estimativas dos pontos ideais dos deputados federais cujos pontosideais estimados são maiores que 1. Como exemplo, pode-se notar que os deputados EduardoCury, do PSDB, Roberto Freire, do PPS e Jair Bolsonaro, do PSC, estão localizados à direita daescala ideológica de acordo com o modelo logit.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
antonio carlos mendes thame
cristiane brasil
darcisio perondi
alfredo kaefer
efraim filho
pedro chaves
osmar bertoldi
vanderlei macris
lucio vieira lima
laerte bessa
beto mansur
benito gama
otavio leite
giacobo
joao paulo papa
milton monti
felipe maia
onyx lorenzoni
danilo cabral
rubens bueno
daniel coelho
rodrigo de castro
baleia rossi
betinho gomes
rogerio marinho
hiran goncalves
alexandre baldy
joao campos
fabio sousa
nilson leitao
marcos montes
ezequiel teixeira
pedro cunha lima
carlos sampaio
luiz nishimori
carlos melles
sheridan
yeda crusius
pauderney avelino
jair bolsonaro
roberto freire
eduardo cury
0 1 2 3Orientação política
Dep
utad
os
Modelo logit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
rodrigo martins
rodrigo maia
antonio carlos mendes thame
cristiane brasil
soraya santos
efraim filho
alfredo kaefer
darcisio perondi
milton monti
lucio vieira lima
vanderlei macris
pedro chaves
otavio leite
laerte bessa
benito gama
beto mansur
joao campos
giacobo
onyx lorenzoni
joao paulo papa
ezequiel teixeira
rogerio marinho
felipe maia
rubens bueno
betinho gomes
danilo cabral
alexandre baldy
daniel coelho
hiran goncalves
baleia rossi
rodrigo de castro
fabio sousa
marcos montes
pedro cunha lima
nilson leitao
carlos melles
carlos sampaio
luiz nishimori
sheridan
jair bolsonaro
yeda crusius
roberto freire
pauderney avelino
eduardo cury
0 1 2 3Orientação política
Modelo probit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
fabio sousa
giacobo
onyx lorenzoni
cesar halum
carlos sampaio
sheridan
rogerio marinho
alexandre baldy
atila lira
tiririca
milton monti
bonifacio de andrada
nilson leitao
pauderney avelino
yeda crusius
afonso motta
laura carneiro
marcos montes
pedro cunha lima
joao campos
carlos melles
reinhold stephanes
roberto freire
remidio monai
osmar bertoldi
ezequiel teixeira
luiz nishimori
jair bolsonaro
eduardo cury
−2 0 2 4Orientação política
Modelo t−Student
Figura 6.8: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas são maiores que 1.
89
Seus pontos ideais estimados são: 2,66; 1,83 e 1.83 respectivamente. Seus desvios padrões aposteriori são: 0,47; 0,38 e 0.55, respectivamente. Seus respectivos intervalos de credibilidadede 95% são: (1,72;3,57), (1,16;2,59) e (0.79;2.88). A estimativa do ponto ideal, desvio padrão eintervalo de credibilidade do deputado Carlos Sampaio do PSDB, que foi estimado à direita daescala ideológica no artigo de Souza et al. (2017), são dados por: 1,50; 0,32 e (0,87;2,19). Osquatro deputados apresentados são classificados como de “direita” de acordo com o critérioassumido para a classificação.
Ao final das análises referentes aos deputados, concluiu-se que 52 deputados são classificadoscomo de “esquerda”, 238 deputados como de “centro” e 40 deputados como de “direita” deacordo com o critério assumido nesta dissertação.
Resultados para os senadores
A Figura 6.9 apresenta as estimativas dos pontos ideais de todos os senadores. Comoexemplo, pode-se notar que os senadores Humberto Costa, do PT, e Ângela Portela, do PDT,estão localizados à esquerda da escala ideológica de acordo com o modelo logit. Seus pontosideais estimados são: -2,15 e -2,71, respectivamente. Seus desvios padrões a posteriori são: 0,32e 0,45, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-2,79;-1,54)e (-3,61;-1,87). Os dois senadores apresentados são classificados como de “esquerda” de acordocom o critério assumido para a classificação.
Note também que os senadores Romário, do PODE, e Simone Tebet, do PMDB, estãolocalizados ao centro da escala ideológica de acordo com o modelo logit. Seus pontos ideaisestimados são: -0,06 e -0,10, respectivamente. Seus desvios padrões a posteriori são: 0,40 e0,79, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-0,79;0,76) e(-1,49;1,59). Os dois senadores apresentados são classificados como de “centro” de acordo como critério assumido para a classificação.
Para terminar, perceba que os senadores Antônio Anastasia e Aécio Neves, ambos do PSDB,estão localizados à direita da escala ideológica de acordo com o modelo logit. Seus pontosideais estimados são: 2,17 e 1,99, respectivamente. Seus desvios padrões a posteriori são: 0,56e 0,76, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (1,08;3,31) e(0,52;3,36). Os dois senadores apresentados são classificados como de “direita” de acordo como critério assumido para a classificação. O senador Aécio Neves foi estimado à direita da escalaideológica no artigo de Souza et al. (2017).
Ao final das análises referentes aos senadores, concluiu-se que 8 senadores são classificadoscomo de “esquerda”, 49 senadores como de “centro” e 14 senadores como de “direita” de acordo
90
com o critério assumido nesta dissertação.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
ângela portelahumberto costa
paulo rochagleisi hoffmannroberto requiãofátima bezerra
paulo paimjosé pimentel
lindbergh fariasraimundo liraelmano férrerzeze perrella
lídice da mataregina sousaotto alencar
fernando colloracir gurgacz
ataídes oliveiraeduardo braga
vanessa grazziotinjorge viana
jader barbalhoarmando monteiro
cidinho santossérgio petecão
romero jucálúcia vâniahélio josé
joão capiberibesimone tebet
romáriodavi alcolumbre
antonio carlos valadareseduardo lopes
cristovam buarquerandolfe rodrigues
vicentinho alveswellington fagundes
josé maranhãoeduardo amorim
ana améliatelmário mota
dário bergervaldir raupp
ciro nogueirajosé medeiros
cássio cunha limareguffe
renan calheiroseunício oliveira
marta suplicygladson cameli
flexa ribeiropaulo bauer
garibaldi alves filhopedro chaves
kátia abreulasier martins
ronaldo caiadoairton sandoval
wilder moraisroberto rocha
josé serratasso jereissatirose de freitas
alvaro diasricardo ferraço
josé agripinomagno maltaaécio neves
antonio anastasia
−2 0 2Orientação política
Sen
ador
es
Modelo logit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
ângela portelahumberto costa
paulo rochagleisi hoffmannfátima bezerra
roberto requiãopaulo paim
josé pimentellindbergh farias
raimundo liraelmano férrerzeze perrella
lídice da mataregina sousaotto alencar
fernando colloracir gurgacz
ataídes oliveiraeduardo braga
jorge vianavanessa grazziotin
romero jucájader barbalhocidinho santos
lúcia vâniaarmando monteiro
simone tebethélio josé
sérgio petecãoromário
joão capiberibeantonio carlos valadares
eduardo lopesdavi alcolumbre
cristovam buarquevicentinho alves
randolfe rodrigueswellington fagundes
josé maranhãoeduardo amorim
ana améliatelmário mota
dário bergervaldir raupp
ciro nogueirarenan calheiros
cássio cunha limaeunício oliveirajosé medeiros
reguffemarta suplicy
flexa ribeirogladson cameli
garibaldi alves filhopaulo bauerkátia abreu
pedro chaveslasier martins
airton sandovalronaldo caiado
wilder moraisrose de freitas
josé serraroberto rocha
tasso jereissatialvaro dias
ricardo ferraçojosé agripinomagno maltaaécio neves
antonio anastasia
−2 0 2Orientação política
Modelo probit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
ângela portelahumberto costaroberto requião
paulo rochagleisi hoffmannfátima bezerrajosé pimentel
paulo paimelmano férrerzeze perrella
lindbergh fariasraimundo liraregina sousaacir gurgacz
lídice da matafernando collor
otto alencarjorge viana
ataídes oliveiraeduardo braga
vanessa grazziotinjader barbalhosérgio petecãojoão capiberibe
armando monteirodavi alcolumbre
lúcia vâniahélio josé
cidinho santosromero jucá
antonio carlos valadarescristovam buarquerandolfe rodrigues
eduardo lopesvicentinho alveseduardo amorim
josé maranhãowellington fagundes
telmário motaromário
dário bergerjosé medeiros
valdir rauppciro nogueira
reguffepaulo bauerflexa ribeiro
marta suplicyana amélia
gladson camelipedro chavessimone tebet
eunício oliveiracássio cunha lima
garibaldi alves filhoronaldo caiado
roberto rochalasier martins
tasso jereissatialvaro dias
ricardo ferraçojosé serra
renan calheirosairton sandoval
kátia abreurose de freitas
josé agripinowilder moraismagno malta
antonio anastasiaaécio neves
−2 0 2Orientação política
Modelo t−Student
Figura 6.9: Pontos ideais estimados e intervalos de credibilidade de todos os senadores.
91
Resultados para os partidos
A Tabela 6.3 apresenta as estimativas dos pontos ideais de todos os partidos políticosprovenientes da estimação do modelo logit e a Figura 6.10 apresenta as estimativas provenientesa partir dos três modelos. Como exemplo, pode-se notar que, pelo critério assumido, apenaso PT é classificado como um partido “esquerda” e o PSDB como um partido de“direita”. Osdemais partidos são classificados como de “centro”. Para a construção da Tabela 6.3 e da Figura6.10 utilizou-se os valores a posteriori dos parâmetros e tomou-se a média.
Tabela 6.3: Estimativas das distribuições a posteriori provenientes domodelo logit com intervalosde credibilidade de 95% referentes aos partidos políticos.
Partido Média DP IC de 95%PT -1,48 0,07 (-1,63;-1,34)PMB -0,89 0,33 (-1,55;-0,26)PEN -0,73 0,41 (-1,52;0,07)
PCdoB -0,71 0,10 (-0,91;-0,52)PTC -0,54 0,25 (-1,04;-0,05)PSOL -0,53 0,13 (-0,78;-0,29)PDT -0,37 0,11 (-0,58;-0,16)PV 0,01 0,19 (-0,35;0,37)PSB 0,04 0,08 (-0,11;0,19)REDE 0,05 0,14 (-0,23;0,33)SD 0,06 0,12 (-0,18;0,3)PHS 0,09 0,15 (-0,2;0,39)PSD 0,10 0,08 (-0,06;0,25)PMDB 0,18 0,07 (0,05;0,3)PRB 0,24 0,15 (-0,04;0,53)PP 0,29 0,09 (0,12;0,46)PTB 0,30 0,10 (0,09;0,51)PROS 0,31 0,19 (-0,05;0,68)PR 0,38 0,10 (0,19;0,59)PSC 0,60 0,16 (0,3;0,93)PPS 0,62 0,11 (0,4;0,83)PODE 0,69 0,14 (0,43;0,96)DEM 0,75 0,09 (0,58;0,93)PSL 0,75 0,20 (0,38;1,17)PSDB 0,87 0,08 (0,73;1,01)
92
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
PT
PMB
PEN
PCdoB
PTC
PSOL
PDT
PV
PSB
REDE
SD
PHS
PSD
PMDB
PRB
PP
PTB
PROS
PR
PSC
PPS
PODE
DEM
PSL
PSDB
−1 0 1Orientação política
Modelo logit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
PT
PMB
PEN
PCdoB
PTC
PSOL
PDT
PSB
PV
REDE
SD
PHS
PSD
PMDB
PRB
PROS
PP
PTB
PR
PSC
PPS
PODE
DEM
PSL
PSDB
−1 0 1Orientação política
Modelo probit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
PT
PMB
PEN
PCdoB
PTC
PSOL
PDT
REDE
PV
PSB
SD
PSD
PHS
PRB
PMDB
PTB
PP
PROS
PR
PPS
PSC
PSL
DEM
PODE
PSDB
−1 0 1Orientação política
Modelo t−Student
Figura 6.10: Pontos ideais estimados e intervalos de credibilidade de todos os partidos.
Resultados para os atores
A Figura 6.11 apresenta as estimativas dos pontos ideais de todos os atores políticos.Como exemplo, pode-se notar que os atores Blog Dilma Brasil e a revista Carta capital estãolocalizados à esquerda da escala ideológica de acordo com o modelo logit. Seus pontos ideaisestimados são: -2,43 e -1,17, respectivamente. Seus desvios padrões a posteriori são: 0,28 e0,20, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-3,04;-1,91)e (-1,58;-0,80). A estimativa do ponto ideal, desvio padrão e intervalo de credibilidade daex-presidente Dilma Rousseff, do PT, que foi estimada à esquerda da escala ideológica no artigode Souza et al. (2017), são dados por: -1,67; 0,24 e (-2,17;-1,24). Os três atores apresentadossão classificados como de “esquerda” de acordo com o critério assumido para a classificação.
Note também que a Câmara dos deputados, o Senado federal, a revista Superinteressantee a política brasileira Marina Silva, do partido REDE, estão localizados ao centro da escala
93
ideológica de acordo com o modelo logit. Seus pontos ideais estimados são: -0,53, -0,34,-0,06 e 0,23, respectivamente. Seus desvios padrões a posteriori são: 0,20, 0,19, 0,21 e 0,19, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-0,92;-0,13),(-0,71;0,03), (-0,46;0,34) e (-0,13,0,63). A estimativa do ponto ideal, desvio padrão e intervalode credibilidade do atual presidente Michel Temer, filiado ao PMDB, que foi estimado ao centroda escala ideológica no artigo de Souza et al. (2017), são dados por: 0,41; 0,20 e (0,05;0,82). Oscinco atores apresentados são classificados como de “centro” de acordo com o critério assumidopara a classificação.
Para terminar, perceba que os atores Geraldo Alckmin, filiado ao PSDB, e a revista Vejaestão localizados à direita da escala ideológica de acordo com o modelo logit. Seus pontosideais estimados são: 1,67 e 1,40, respectivamente. Seus desvios padrões a posteriori são: 0,27e 0,26, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (1,17;2,23) e(0,94;1,92). Os dois atores apresentados são classificados como de “direita” de acordo com ocritério assumido para a classificação.
Ao final das análises referentes aos senadores, concluiu-se que 19 atores políticos sãoclassificados como sendo de “esquerda”, 74 atores como sendo de “centro” e 14 atores comosendo de “direita”, de acordo com o critério assumido nesta dissertação.
94
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
pt brasilblog dilma br
carta maiorricardo berzoiniconversa afiada
alexandre padilharui falcão
suplicycândido vaccarezza
dilma rousseffluis nassif
manuelaportal brasil
brasil 247tv nbr
ministério da saúdecartacapital
observatórioimprensatv brasiltwibbon
agência brasilplanejamento.gov.br
a voz do brasilipea
tv câmaraagora no planaltoministério justiçacâmara notícias
rádio câmaracâmara dos deputados
stjrádio senado
bbc brasilcnjtse
senado federalstf
jornal do brasilpapa francisco
ig último segundojosé simãoinstagram
reuters brasilcongresso em foco
mp federalsuperinteressante
revista piauíbarack obamaportal r7.com
kennedy alencarrevista vototerra brasil
correio braziliensehenrique e alves
g1 − políticamarcelo tasmarina silva
record tvfolha poder
jornal da cbnvalor econômicomônica bergamopolítica estadão
polícia federalmichel temerancelmo.com
fernando rodriguesuol notíciasjornal hoje
josias de souzauol
folha de s.paulofantástico
jornal o globorádio bandnews fm
revista istoéglobo
dora kramerg1
épocadenise rothenburg
o globo brasilexame
blog do noblatwilliam bonner
joaquim barbosaglobonews
estadãocristiana lôbo
renata lo pretejornal nacional
acm netoradar on−line
deputadoeduardocunhagerson camarotti
míriam leitao.commonica waldvogel
vera magalhãeseliane cantanhêde
andréia sadilauro jardim
vejaaloysio nunes
geraldo alckminpsdb
reinaldo azevedoo antagonista
−2 0 2Orientação política
Ato
res
polít
icos
Modelo logit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
pt brasilblog dilma br
carta maiorricardo berzoini
alexandre padilhaconversa afiada
rui falcãosuplicy
dilma rousseffcândido vaccarezza
luis nassifportal brasil
manuelabrasil 247
tv nbrministério da saúde
cartacapitalobservatórioimprensa
tv brasilagência brasil
planejamento.gov.brtwibbon
a voz do brasilipea
tv câmaraagora no planaltoministério justiça
rádio câmaracâmara notícias
câmara dos deputadosstj
rádio senadobbc brasil
cnjtse
senado federalstf
jornal do brasilpapa francisco
instagramig último segundo
josé simãoreuters brasil
mp federalcongresso em focosuperinteressante
revista piauíbarack obamaportal r7.com
kennedy alencarrevista votomarcelo tas
henrique e alvesterra brasil
marina silvacorreio braziliense
g1 − políticarecord tv
jornal da cbnfolha poder
valor econômicopolícia federal
mônica bergamopolítica estadão
michel temerfernando rodrigues
ancelmo.comjornal hoje
uol notíciasjosias de souza
uolfantástico
folha de s.paulojornal o globo
rádio bandnews fmglobo
g1revista istoé
denise rothenburgdora kramer
épocao globo brasil
william bonnerexame
blog do noblatjoaquim barbosa
estadãoglobonews
acm netocristiana lôbo
renata lo pretejornal nacional
deputadoeduardocunharadar on−line
míriam leitao.commonica waldvogelgerson camarottivera magalhães
andréia sadieliane cantanhêde
lauro jardimveja
aloysio nunesgeraldo alckmin
psdbreinaldo azevedo
o antagonista
−4 −2 0 2Orientação política
Modelo probit
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
pt brasilricardo berzoini
blog dilma brcarta maior
conversa afiadarui falcão
alexandre padilhasuplicy
cândido vaccarezzamanuela
luis nassifdilma rousseff
twibbonportal brasil
brasil 247tv nbr
ministério da saúdecartacapital
observatórioimprensatv brasil
a voz do brasilagência brasil
planejamento.gov.brtv câmara
agora no planaltoipea
câmara notíciasrádio câmara
ministério justiçacâmara dos deputados
senado federalstj
rádio senadobbc brasil
cnjtse
ig último segundostf
josé simãojornal do brasil
mp federalreuters brasil
papa franciscorevista piauí
congresso em focosuperinteressante
portal r7.cominstagram
kennedy alencarbarack obama
correio brazilienserevista voto
record tvmônica bergamo
terra brasilpolítica estadão
jornal da cbnfolha poder
g1 − políticamarina silva
valor econômicopolícia federal
marcelo tasancelmo.com
josias de souzauol notícias
fernando rodriguesjornal hoje
uolhenrique e alves
fantásticomichel temer
rádio bandnews fmfolha de s.paulo
jornal o globodora kramer
o globo brasilrevista istoé
denise rothenburgglobo
renata lo preteg1
exameépoca
blog do noblatcristiana lôbo
globonewsjoaquim barbosa
william bonnerradar on−line
estadãomonica waldvogel
jornal nacionalgerson camarotti
míriam leitao.comvera magalhães
acm netoeliane cantanhêde
deputadoeduardocunhaandréia sadi
vejaaloysio nunes
lauro jardimgeraldo alckmin
reinaldo azevedopsdb
o antagonista
−2 −1 0 1 2Orientação política
Modelo t−Student
Figura 6.11: Pontos ideais estimados e intervalos de credibilidade de todos os atores políticos.
95
Capítulo 7
Considerações finais
A presente dissertação teve como objetivo comparar os dois modelos existentes na literaturacom o modelo proposto aqui através de critérios de comparação. O modelo proposto foiconstruído a partir do modelo de Barberá (2015), que permite a estimação dos pontos ideaisdos usuários comuns com base em quem eles seguem no Twitter. A hipótese chave dessemodelo assume que o Twitter é uma rede social homofílica. No contexto desta dissertação,assumir homofilia equivale a dizer que os usuários comuns do Twitter preferem seguir atorespolíticos que tenham posições ideológicas similares às deles. Foram ajustados três modelosnesta dissertação: o modelo de Barberá (2015) que assume função de ligação logit; o modelode Imai et al. (2016) que assume função de ligação probit e o modelo que foi proposto nestadissertação, que assume função de ligação inversa da função de distribuição acumulada t-Studentcom 1 grau de liberdade.
No Capítulo 2 foram discutidas as similaridades existentes entre o modelo de Barberá (2015)e os modelos espaciais de votação nominal, modelos de teoria da resposta ao item e os modelosde espaços latentes aplicados às redes sociais. No Capítulo 3 foi feita uma breve revisão deinferência Bayesiana, dos métodos de Monte Carlo via cadeias de Markov e dos critérios deseleção de modelos e no Capítulo 4 foi descrita a metodologia utilizada nesta dissertação.
No Capítulo 5 foi conduzido um estudo de simulação baseado em dados artificiais gerados apartir dos modelos propostos, com o intuito de avaliar as estimativas bayesianas dos parâmetros,com base no erro quadrático médio e na taxa de cobertura. Verificou-se que para os dados logit,o modelo t-Student foi o que produziu estimativas mais acuradas e menos precisas, para osdados probit o modelo probit foi o que produziu estimativas mais acuradas e menos precisas epara os dados t-Student o modelo t-Student foi o que obteve melhor ajuste. Concluiu-se queo parâmetro γ funciona como um fator de acomodação, que fornece maior ou menor peso
96
nas caudas influenciando as estimativas dos θ’s e dos φ’s e por isso é necessário avaliar osparâmetros transformados θ∗’s e φ∗ a fim de observar diferenças entre os parâmetros. Avaliou-setambém que qualquer um dos três modelos preserva o ranking das posições ideológicas θ’s edos φ’s. Os critérios DIC e LPML mostraram que quando os dados são probit ou t-Student, osmodelos geradores são mais fáceis de serem identificados corretamente. Todas essas análisesapenas se baseiam nas R = 100 réplicas geradas a partir de cada um dos modelos, considerandon = 200 em = 20. A convergência das cadeias foi verificada através do critério de Raftery epela avaliação dos traços das cadeias.
No Capítulo 6 realizou-se uma aplicação dos três modelos a um conjunto de dados reaisdos deputados federais e senadores provenientes do Twitter. Constatou-se que o modelo logitforneceu o melhor ajuste de acordo com os critérios DIC e LPML. Os pontos ideais estimadosdos deputados, senadores e dos atores políticos ficaram de acordo com trabalhos existentes naliteratura.
Como trabalhos futuros propõe-se utilizar outras funções de ligação, como a normalassimétrica e a t-Student assimétrica, devido ao fato de que essas funções podem representar demaneira mais adequada a realidade política atual, onde a quantidade de indivíduos de “direita” édiferente da quantidade de indivíduos de “esquerda”. Propõe-se também considerar diferentestamanhos de amostra para avaliar a consistência dos estimadores e dos critérios de seleção eutilizar o máximo a posteriori via algoritmo EM para melhorar o tempo computacional.
97
98
Apêndice A
Apêndice A
Tabela A.1: Lista dos deputados ordenados por partido.
Deputado PartidoOSMAR BERTOLDI DEMABEL MESQUITA JR DEMALEXANDRE LEITE DEMJUSCELINO FILHO DEMRODRIGO MAIA DEM
PROFESSORA DORINHA SEABRA REZENDE DEMFELIPE MAIA DEM
MARCELO AGUIAR DEMMARCOS ROGERIO DEM
ELMAR NASCIMENTO DEMSOSTENES CAVALCANTE DEM
PAULO AZI DEMCARLOS MELLES DEM
PAUDERNEY AVELINO DEMONYX LORENZONI DEMALBERTO FRAGA DEMEFRAIM FILHO DEM
RUBENS PEREIRA JUNIOR PCdoBORLANDO SILVA PCdoBJANDIRA FEGHALI PCdoBLUCIANA SANTOS PCdoB
ASSIS MELO PCdoBJO MORAES PCdoB
DANIEL ALMEIDA PCdoBMOISES DINIZ PCdoB
ALICE PORTUGAL PCdoBLEÔNIDAS CRISTINO PDT
ROBERTO GOES PDTANDRE FIGUEIREDO PDT
CARLOS EDUARDO CADOCA PDTWOLNEY QUEIROZ PDT
POMPEO DE MATTOS PDTAFONSO MOTTA PDT
WEVERTON ROCHA PDTHISSA ABRAHÃO PDTJUNIOR MARRECA PENDR. JORGE SILVA PHSMARCELO ARO PHSDIEGO GARCIA PHS
CARLOS ANDRADE PHSGIVALDO CARIMBAO PHSWELITON PRADO PMB
ALEXANDRE SERFIOTIS PMDBSORAYA SANTOS PMDB
JOAO MARCELO SOUZA PMDBJOSE PRIANTE PMDB
ALTINEU CORTES PMDBSERGIO ZVEITER PMDBCELSO PANSERA PMDBCABUCU BORGES PMDB
Deputado PartidoNEWTON CARDOSO JR PMDB
PEDRO PAULO PMDBANDRE AMARAL PMDB
LEONARDO QUINTAO PMDBRODRIGO PACHECO PMDBPEDRO CHAVES PMDBDULCE MIRANDA PMDBALCEU MOREIRA PMDBHILDO ROCHA PMDBSERGIO SOUZA PMDBBALEIA ROSSI PMDB
ELCIONE BARBALHO PMDBJOSI NUNES PMDB
LEONARDO PICCIANI PMDBMARCELO CASTRO PMDBVALDIR COLATTO PMDBDANIEL VILELA PMDB
ZE AUGUSTO NALIN PMDBHUGO MOTTA PMDB
SIMONE MORGADO PMDBMOSES RODRIGUES PMDB
FABIO REIS PMDBROGERIO PENINHA MENDONCA PMDB
WALTER ALVES PMDBLUCIO VIEIRA LIMA PMDBMAURO MARIANI PMDBLAURA CARNEIRO PMDB
VENEZIANO VITAL DO REGO PMDBDARCISIO PERONDI PMDB
JOAO ARRUDA PMDBLELO COIMBRA PMDBCELSO JACOB PMDB
CARLOS BEZERRA PMDBFRANCISCO CHAPADINHA PODE
ALEXANDRE BALDY PODEEZEQUIEL TEIXEIRA PODE
CARLOS HENRIQUE GAGUIM PODEANTONIO JACOME PODE
LUIZ CARLOS RAMOS PODERONALDO CARLETTO PP
BETO SALAME PPANDRE FUFUCA PP
MARCUS VICENTE PPHIRAN GONCALVES PPWALDIR MARANHAO PPCONCEICAO SAMPAIO PPGUILHERME MUSSI PP
JULIO LOPES PPLUIZ FERNANDO FARIA PPRENATO ANDRADE PP
99
Deputado PartidoRICARDO IZAR PPRENZO BRAZ PPCACA LEAO PPMAIA FILHO PP
COVATTI FILHO PPLUIS CARLOS HEINZE PP
AFONSO HAMM PPROBERTO BALESTRA PP
BETO ROSADO PPPAULO MALUF PP
IRACEMA PORTELLA PPJERONIMO GOERGEN PP
ALEX MANENTE PPSLUZIA FERREIRA PPSPOLLYANA GAMA PPSELIZIANE GAMA PPS
ARTHUR OLIVEIRA MAIA PPSMARCOS ABRAO PPSARNALDO JORDY PPSROBERTO FREIRE PPSRUBENS BUENO PPSREMIDIO MONAI PRPAULO FREIRE PR
AELTON FREITAS PRLUIZ NISHIMORI PR
DELEGADO WALDIR PRALEXANDRE VALLE PR
PAULO FEIJO PRMILTON MONTI PR
DELEGADO EDSON MOREIRA PRCHRISTIANE DE SOUZA YARED PR
GIACOBO PRCAJAR NARDES PR
VICENTINHO JUNIOR PRTIRIRICA PR
LAERTE BESSA PRJOAO CARLOS BACELAR FILHO PR
GIOVANI CHERINI PRMARCELO ALVARO ANTONIO PR
JORGINHO MELLO PRANTONIO BULHÕES PRBCELSO RUSSOMANNO PRB
JONY MARCOS PRBJHONATAN DE JESUS PRB
JOAO CAMPOS PRBBETO MANSUR PRBCARLOS GOMES PRBCESAR HALUM PRB
RONALDO FONSECA PROSTONINHO WANDSCHEER PROS
Deputado PartidoEROS BIONDINI PROSFELIPE BORNIER PROS
ATILA LIRA PSBADILTON SACHETTI PSBMARIA HELENA PSB
MARINALDO ROSENDO PSBBEBETO PSB
KEIKO OTA PSBFLAVINHO PSB
DANILO CABRAL PSBHERACLITO FORTES PSBHEITOR SCHUCH PSB
JANETE CAPIBERIBE PSBLUIZ LAURO FILHO PSBLUCIANO DUCCI PSB
RODRIGO MARTINS PSBDANILO FORTE PSBHUGO LEAL PSB
JOAO FERNANDO COUTINHO PSBTENENTE LUCIO PSBRAFAEL MOTTA PSB
JHC PSBSEVERINO NINHO PSBTEREZA CRISTINA PSBPAULO FOLETTO PSBJOSE STEDILE PSB
ODORICO MONTEIRO PSBPR. MARCO FELICIANO PSC
JAIR BOLSONARO PSCEDUARDO BOLSONARO PSCAROLDE DE OLIVEIRA PSCVALADARES FILHO PSCANDRE MOURA PSC
HERCULANO PASSOS PSDMARCOS MONTES PSDEXPEDITO NETTO PSD
JOAO PAULO KLEINÜBING PSDJEFFERSON CAMPOS PSD
DELEGADO EDER MAURO PSDMARCOS REATEGUI PSDFABIO MITIDIERI PSD
PAULO MAGALHAES PSDEVANDRO ROMAN PSD
REINHOLD STEPHANES PSDSTEFANO AGUIAR PSDJOAO RODRIGUES PSD
JULIO CESAR PSDIRAJA ABREU PSD
EDMAR ARRUDA PSDDOMINGOS NETO PSD
100
Deputado PartidoROGERIO ROSSO PSDFABIO FARIA PSDGOULART PSD
SANDRO ALEX PSDJAIME MARTINS PSD
ROMULO GOUVEIA PSDTHIAGO PEIXOTO PSD
BONIFACIO DE ANDRADA PSDBEDUARDO CURY PSDB
VITOR LIPPI PSDBRAIMUNDO GOMES DE MATOS PSDB
EDUARDO BARBOSA PSDBIZALCI LUCAS PSDBYEDA CRUSIUS PSDB
SHERIDAN PSDBELIZEU DIONIZIO PSDB
VANDERLEI MACRIS PSDBMARIANA CARVALHO PSDBJOAO PAULO PAPA PSDB
PEDRO CUNHA LIMA PSDBOTAVIO LEITE PSDB
ANTONIO IMBASSAHY PSDBFABIO SOUSA PSDBCAIO NARCIO PSDB
MARCO TEBALDI PSDBLOBBE NETO PSDB
GEOVANIA DE SA PSDBGIUSEPPE VECCI PSDBCARLOS SAMPAIO PSDBPAULO ABI-ACKEL PSDBNILSON LEITAO PSDBBRUNA FURLAN PSDB
RODRIGO DE CASTRO PSDBDANIEL COELHO PSDB
GERALDO RESENDE PSDBBETINHO GOMES PSDB
ROGERIO MARINHO PSDBMARA GABRILLI PSDB
NELSON PADOVANI PSDBMARCUS PESTANA PSDBDAMINA PEREIRA PSLALFREDO KAEFER PSLCHICO ALENCAR PSOLLUIZA ERUNDINA PSOLJEAN WYLLYS PSOL
GLAUBER BRAGA PSOLIVAN VALENTE PSOL
EDMILSON RODRIGUES PSOLLUIZ SERGIO PT
VALMIR PRASCIDELLI PT
Deputado PartidoPATRUS ANANIAS PT
ARLINDO CHINAGLIA PTMARCO MAIA PT
JOSE AIRTON CIRILO PTENIO VERRI PT
WALDENOR PEREIRA PTJOSE GUIMARAES PTWADIH DAMOUS PTERIKA KOKAY PT
VICENTE CANDIDO PTJORGE SOLLA PTZECA DIRCEU PT
ASSIS CARVALHO PTPEPE VARGAS PT
LUIZIANNE LINS PTZE CARLOS PTJOAO DANIEL PTPADRE JOAO PTJOSE MENTOR PT
VALMIR ASSUNCAO PTBENEDITA DA SILVA PT
PEDRO UCZAI PTMARGARIDA SALOMAO PT
ANGELIM PTLEONARDO MONTEIRO PTCARLOS ZARATTINI PT
ANA PERUGINI PTRUBENS OTONI PT
MARIA DO ROSARIO PTHELDER SALOMAO PTAFONSO FLORENCE PT
BETO FARO PTLEO DE BRITO PTNILTO TATTO PT
VANDER LOUBET PTNELSON PELLEGRINO PT
ZECA DO PT PTSAGUAS MORAES PTJOSIAS GOMES PT
PAULAO PTHENRIQUE FONTANA PT
MARCON PTLUIZ COUTO PTDECIO LIMA PT
CHICO DANGELO PTPAULO PIMENTA PTGIVALDO VIEIRA PT
BOHN GASS PTADELMO CARNEIRO LEAO PT
PAULO TEIXEIRA PT
101
Deputado PartidoVICENTINHO PT
REGINALDO LOPES PTJOSUE BENGTSON PTB
ARNALDO FARIA DE SA PTBRONALDO NOGUEIRA PTBPEDRO FERNANDES PTBCRISTIANE BRASIL PTB
NELSON MARQUEZELLI PTBJOVAIR ARANTES PTBBENITO GAMA PTBALEX CANZIANI PTBWILSON FILHO PTBEVANDRO GUSSI PV
EVAIR VIEIRA DE MELO PVANTONIO CARLOS MENDES THAME PV
ROBERTO DE LUCENA PVULDURICO JUNIOR PV
ALESSANDRO MOLON REDEJOAO DERLY REDE
ALIEL MACHADO REDEWLADIMIR COSTA SDLUCAS VERGILIO SD
LAUDIVIO CARVALHO SDPAULO PEREIRA DA SILVA SD
ZE SILVA SDGENECIAS NORONHA SDAUGUSTO COUTINHO SDAUGUSTO CARVALHO SDLAERCIO OLIVEIRA SD
DELEGADO FRANCISCHINI SD
Tabela A.2: Senadores ordenados por partido.
Senador PartidoJosé Agripino DEM
Davi Alcolumbre DEMRonaldo Caiado DEM
Vanessa Grazziotin PCdoBÂngela Portela PDTAcir Gurgacz PDT
Airton Sandoval PMDBElmano Férrer PMDBRose de Freitas PMDBRaimundo Lira PMDBSimone Tebet PMDB
Renan Calheiros PMDBDário Berger PMDBValdir Raupp PMDBMarta Suplicy PMDBKátia Abreu PMDB
Jader Barbalho PMDBJosé Maranhão PMDBHélio José PMDB
Garibaldi Alves Filho PMDBRoberto Requião PMDBRomero Jucá PMDBZeze Perrella PMDB
Eunício Oliveira PMDBEduardo Braga PMDB
Romário PODEAlvaro Dias PODECiro Nogueira PPWilder Morais PPAna Amélia PP
Gladson Cameli PPCristovam Buarque PPSCidinho Santos PRVicentinho Alves PRMagno Malta PR
Wellington Fagundes PREduardo Lopes PRBRoberto Rocha PSBJoão Capiberibe PSB
Antonio Carlos Valadares PSBLídice da Mata PSBLúcia Vânia PSBPedro Chaves PSCSérgio Petecão PSDLasier Martins PSDOtto Alencar PSDJosé Medeiros PSDAécio Neves PSDB
Antonio Anastasia PSDBTasso Jereissati PSDBEduardo Amorim PSDBRicardo Ferraço PSDBPaulo Bauer PSDBFlexa Ribeiro PSDBJosé Serra PSDB
Ataídes Oliveira PSDBCássio Cunha Lima PSDB
Paulo Rocha PTLindbergh Farias PTGleisi Hoffmann PTJorge Viana PT
Fátima Bezerra PTRegina Sousa PT
Humberto Costa PTPaulo Paim PTJosé Pimentel PTTelmário Mota PTB
Armando Monteiro PTBFernando Collor PTC
Randolfe Rodrigues REDEReguffe S/Partido102
Tabela A.3: Lista dos atores políticos.
Ator Político PartidoVEJA
InstagramMinistério JustiçaSenado FederalRádio CâmaraCâmara Notícias
Câmara dos DeputadosTV CâmaraEstadãoG1
Dilma Rousseff PTValor EconômicoRevista ISTOÉFolha de S.PauloCartaCapitalMarina Silva REDE
Joaquim BarbosaJornal NacionalMichel Temer PMDB
DeputadoEduardoCunha PMDBExame
ACM Neto DEMRádio BandNews FM
TSESTF
Radar On-lineCongresso em Foco
Reuters BrasilJornal O Globo
Reinaldo Azevedojosias de souza
iG Último SegundoJornal do Brasil
Correio Brazilienserevista piauí
Alexandre Padilha PTA Voz do BrasilBarack ObamaO Globo BrasilFolha Poder
Cristiana LôboAgora No Planalto
GloboNewsTerra Brasil
Aloysio Nunes PSDBAgência BrasilGeraldo Alckmin PSDB
Marcelo TasPSDB
Mônica BergamoDora KramerLauro Jardim
Denise Rothenburg
Ator Político PartidoÉpoca
Ancelmo.ComBlog do Noblat
FantásticoGlobo
UOL NotíciasMonica WaldvogelMíriam Leitao.comRenata Lo Prete
Eliane CantanhêdeGerson CamarottiAndréia SadiMP Federal
STJCNJ
Jornal da CBNBBC Brasil
Política EstadãoHenrique E Alves PMDB
TV BrasilWilliam Bonner
UOLPortal R7.comConversa Afiada
Fernando RodriguesBrasil 247Luis NassifJosé SimãoPortal BrasilCarta Maior
Blog Dilma BRVera MagalhãesO AntagonistaRui Falcão PTG1 - PolíticaJornal Hoje
Papa FranciscoMinistério da Saúde
TwibbonPolícia FederalRádio Senado
SuperinteressanteTV NBRRecord TV
Planejamento.gov.brIpea
Kennedy AlencarObservatórioImprensa
Suplicy PTCândido Vaccarezza PT
PT BrasilRicardo Berzoini PT
Manuela PCdoBRevista VOTO
103
Referências Bibliográficas
Aguirre, J.-L. (2011). Introducción al análisis de redes sociales. Documentos de Trabajo delCentro Interdisciplinario para el Estudio de Políticas Públicas, 82:1–59.
Bafumi, J., Gelman, A., Park, D. K., e Kaplan, N. (2005). Practical issues in implementing andunderstanding Bayesian ideal point estimation. Political Analysis, 13(2):171–187.
Barberá, P. (2015). Birds of the same feather tweet together: Bayesian ideal point estimationusing Twitter data. Political Analysis, 23(1):76–91.
Birnbaum, A. (1968). Some latent train models and their use in inferring an examinee’s ability.Statistical Theories of Mental Test Scores, pages 395–479.
Brown, W. e Draper, D. (2000). A comparison of Bayesian and likelihood methods for fittingmultilevel models. London: Mathematical Sciences Group, Institute of Education, Universityof London.
Carroll, R., Lewis, J. B., Lo, J., Poole, K. T., e Rosenthal, H. (2013). The structure of utility inspatial models of voting. American Journal of Political Science, 57(4):1008–1028.
Chen, M.-H., Shao, Q.-M., e Ibrahim, J. G. (2012). Monte Carlo Methods in BayesianComputation. Springer Science & Business Media.
Clinton, J., Jackman, S., e Rivers, D. (2004). The statistical analysis of roll call data. AmericanPolitical Science Review, 98(2):355–370.
Downs, A. (1957). An economic theory of political action in a democracy. Journal of PoliticalEconomy, 65(2):135–150.
Ferreira, G. (2011). Redes sociais de informação: uma história e um estudo de caso. Perspectivasem Ciência da Informação, 16(3):208–231.
104
Freeden, M. (2013). Ideología: Una Breve Introducción, volume 6. Ed. Universidad deCantabria.
Gamerman, D. e Lopes, H. F. (2006). Markov Chain Monte Carlo: Stochastic Simulation forBayesian Inference. CRC Press.
García, M., Castellana, N., Rapelli, C., Koegel, L., e Catalano, M. (2014). Criterios deinformación y predictivos para la selección de un modelo lineal mixto. SaberEs, (6).
Gelfand, A. E., Dey, D.K., e Chang, H. (1992). Model determination using predictive distributionswith implementation via sampling-based methods. Technical report, STANFORD UNIV CADEPT OF STATISTICS.
Gelfand, A. E. e Smith, A. F. (1990). Sampling-based approaches to calculating marginaldensities. Journal of the American Statistical Association, 85(410):398–409.
Geman, S. e Geman, D. (1984). Stochastic relaxation, Gibbs distributions, and the Bayesianrestoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence,(6):721–741.
Hastings, W. K. (1970). Monte Carlo sampling methods using Markov chains and theirapplications. Biometrika, 57(1):97–109.
Hoff, P. D., Raftery, A. E., e Handcock, M. S. (2002). Latent space approaches to social networkanalysis. Journal of the american Statistical association, 97(460):1090–1098.
Ibrahim, J. G., Chen, M.-H., e Sinha, D. (2001). Criterion-based methods for Bayesian modelassessment. Statistica Sinica, 11(2):419–443.
Imai, K., Lo, J., e Olmsted, J. (2016). Fast estimation of ideal points with massive data. AmericanPolitical Science Review, 110(4):631–656.
Kadushin, C. (2013). Comprender las Redes Sociales: Teorías, Conceptos y hallazgos,volume 11. CIS-Centro de Investigaciones Sociológicas.
Kolaczyk, E. D. e Csárdi, G. (2014). Statistical Analysis of Network Data with R. Springer.
Lazarsfeld, P. F., Merton, R. K., et al. (1954). Friendship as a social process: a substantive andmethodological analysis. Freedom and Control in Modern Society, 18(1):18–66.
Lord, F. (1952). A Theory of Test Scores. Psychometric Monographs.
105
Martin, S., Saalfeld, T., e Strøm, K. (2014). The Oxford Handbook of Legislative Studies. OUPOxford.
Masters, G. N., Wright, B. D., van der Linden, W. J., e Hambleton, R. K. (1997). Handbook ofModern Item Response Theory. The partial credit model. Springer, New York.
McCarty, N. (2011). Measuring legislative preferences. In The Oxford Handbook of the AmericanCongress, pages 66–94.
McFadden, D. (1973). Conditional logit analysis of qualitative choice behavior.
Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H., e Teller, E. (1953).Equation of state calculations by fast computing machines. The Journal of Chemical Physics,21(6):1087–1092.
Otero, I. D., González, M. L., e Vázquez, A. N. (2012). Ciencia Política Contemporánea,volume 210. Editorial UOC.
Plummer, M. (2009). Jags version 1.0. 3 manual. URL: http://www-ice. iarc. fr/˜martyn/software/jags/jags_user_manual. pdf.
Plummer, M. (2013). rjags: Bayesian graphical models using mcmc. R package version, 3.
Poole, K. T. (2005). Spatial Models of Parliamentary Voting. Cambridge University Press.
Poole, K. T. e Rosenthal, H. (2000). Congress: A Political-Economic History of Roll CallVoting. Oxford University Press on Demand.
Raftery, A. E. e Lewis, S. M. (1992). One long run with diagnostics: implementation strategiesfor Markov chain Monte Carlo. Statistical science, 7(4):493–497.
Robert, C. e Casella, G. (2009). Introducing Monte Carlo Methods with R. Springer Science &Business Media.
Souza, R. M., Graça, L. F. G., e Silva, R. S. (2017). Politics on the web: Using twitter toestimate the ideological positions of brazilian representatives. Brazilian Political ScienceReview.
Spiegelhalter, D. J., Best, N. G., Carlin, B. P., e Van Der Linde, A. (2002). Bayesian measuresof model complexity and fit. Journal of the Royal Statistical Society: Series B (StatisticalMethodology), 64(4):583–639.
106
Stock, J. H. e Watson, M. W. (2004). Combination forecasts of output growth in a seven-countrydata set. Journal of Forecasting, 23(6):405–430.
Team, R. C. (2014). R: A language and environment for statistical computing. vienna, austria: Rfoundation for statistical computing; 2014.
Tierney, L. (1994). Markov chains for exploring posterior distributions. the Annals of Statistics,pages 1701–1728.
Upadhyay, S. K., Singh, U., Dey, D. K., e Loganathan, A. (2015). Current Trends in BayesianMethodology with Applications. Chapman and Hall/CRC.
107