124
Estimação Bayesiana de Pontos Ideais Via Dados do Twitter Daniela Buarque de Macedo de Souza Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2017

EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

  • Upload
    buidat

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Estimação Bayesiana de Pontos Ideais Via Dadosdo Twitter

Daniela Buarque de Macedo de Souza

Universidade Federal do Rio de JaneiroInstituto de Matemática

Departamento de Métodos Estatísticos2017

Page 2: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Estimação Bayesiana de Pontos Ideais Via Dadosdo Twitter

Daniela Buarque de Macedo de Souza

Dissertação de Mestrado submetida ao Programa dePós-Graduação em Estatística do Departamento deMétodos Estatísticos do Instituto de Matemática daUniversidade Federal do Rio de Janeiro, como parte dosrequisitos necessários à obtenção do título de Mestre emEstatística.

Orientadores: Ralph dos Santos SilvaMariane Branco Alves

Rio de Janeiro, RJ - Brasil2017

ii

Page 3: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)
Page 4: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

CIP - Catalogação na Publicação

Elaborado pelo Sistema de Geração Automática da UFRJ com osdados fornecidos pelo(a) autor(a).

S729eSouza, Daniela Buarque de Macedo de Estimação Bayesiana de Pontos Ideais Via Dados doTwitter / Daniela Buarque de Macedo de Souza. --Rio de Janeiro, 2017. 107 f.

Orientador: Ralph dos Santos Silva. Coorientadora: Mariane Branco Alves. Dissertação (mestrado) - Universidade Federal doRio de Janeiro, Instituto de Matemática, Programade Pós-Graduação em Estatística, 2017.

1. modelos de espaços latentes. 2. modelosespaciais de votação nominal. 3. modelos de teoriada resposta ao item. 4. pontos ideais. I. Silva,Ralph dos Santos, orient. II. Alves, MarianeBranco, coorient. III. Título.

Page 5: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

À Deus, à minha família e aos meus amigos.

iv

Page 6: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

“Na majestosa harmonia do Universo e na sua impenetrável grandiosidade, ressalta, eloquente,a presença do amor de Deus."

(Divaldo Franco)

v

Page 7: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Agradecimentos

Agradeço primeiramente à Deus, pelo dom da vida, pela minha saúde perfeita e por sempreme amparar em todos os momentos da minha vida. Graças a sua ajuda e seu amparo conseguiconcluir mais essa etapa da minha vida!

Agradeço amorosamente à minha querida e amada família. Aos meus pais, Celia e Manoel,por todo amparo e carinho, por todos os momentos felizes que passamos juntos, pelo apoioincondicional e pelo incentivo aos estudos. À minha irmã Flávia por toda a paciência, cuidado eamor. Vocês são meu alicerce, minha base, meu porto seguro. Eu amo muito vocês e quero quesaibam que vocês foram essenciais para a conclusão de mais esse ciclo.

Agradeço aos meus queridos amigos, por estarem ao meu lado nos momentos difíceis, porme apoiarem e por me darem força para conseguir chegar até o final. Muito obrigada, amomuito vocês!

Agradeço aos meus orientadores Ralph e Mariane, por toda ajuda e paciência e por teremcontribuído significativamente para este trabalho.

Por fim, agradeço à CAPES pelo apoio financeiro que possibilitou o prosseguimento dosmeus estudos.

vi

Page 8: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Resumo

A estimação de variáveis latentes tem sido tema de diversos trabalhos na área da estatísticanas últimas décadas. Uma variável latente amplamente estudada pelos cientistas políticos éa posição ideológica. Modelos espaciais de votação nominal, modelos de teoria da respostaao item e modelos de espaços latentes aplicados às redes sociais são muito utilizados paraestimar tais posições ideológicas (pontos ideais). O avanço da tecnologia e o surgimento dasredes sociais permitiu a elaboração de modelos mais complexos que permitiram a estimaçãodos pontos ideais de milhares de indivíduos que não eram necessariamente políticos, como omodelo de Barberá (2015).

A presente dissertação teve por objetivo comparar diferentes modelos através de critérios decomparação e propor um novo modelo a partir do modelo de Barberá (2015). Foi conduzido umestudo de simulação baseado em dados artificiais gerados a partir dos modelos propostos, como intuito de avaliar as estimativas bayesianas dos parâmetros e, em seguida, ajustou-se os trêsmodelos a um conjunto de dados reais referente aos deputados federais e senadores brasileiros.

Palavras-Chaves: modelos de espaços latentes; modelos espaciais de votação nominal;modelos de teoria da resposta ao item; pontos ideais.

vii

Page 9: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Abstract

The estimation of latent variables has been the subject of several papers in the area ofstatistics in the last decades. A latent variable extensively studied by political scientists ispolitical orientation. Spatial models of roll-call voting, item-response theory models, andlatent spatial models applied to social networks are widely used to estimate such ideologicalorientation. The advancement of technology and the emergence of social networks has allowedthe development of more complex models that enabled the estimation of the ideal of thousandsof individuals who were not necessarily political, Barberá (2015).

The present dissertation aims to compare different models through comparison criterion andto propose a new model based on that of Barberá (2015). A simulation study was conductedbased on artificial data generated from the proposed models, in order to evaluate Bayesianestimates of parameters, and then the three models were adjusted to a set of real data referring toBrazilian federal deputies and senators.

Keywords: latent spatial models; spatial models of roll-call voting; item-response theorymodels; ideal points.

viii

Page 10: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Sumário

1 Introdução 11.1 Redes e era da informação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Correntes ideológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Conceitos preliminares 82.1 Modelos espaciais de votação nominal . . . . . . . . . . . . . . . . . . . . . . 82.2 Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3 Redes Sociais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4 Modelos de espaços latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Revisão de Inferência Bayesiana 243.1 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.1.1 Estimadores de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 263.1.2 Estimação intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2 Métodos de Monte Carlo via cadeias de Markov . . . . . . . . . . . . . . . . . 273.2.1 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . 283.2.2 Amostragem de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3 Critérios de seleção de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 313.3.1 Critério de informação do desvio . . . . . . . . . . . . . . . . . . . . . 313.3.2 Logaritmo da verossimilhança pseudo marginal . . . . . . . . . . . . . 32

3.4 Diagnósticos de Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . 333.4.1 Análise visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.4.2 Critério de Raftery e Lewis . . . . . . . . . . . . . . . . . . . . . . . . 33

ix

Page 11: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

4 Metodologia 354.1 Modelos ajustados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2 Distribuição a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.3 Problemas de identificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5 Estudo de Simulação 415.1 Análise de sensibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.2 Resultados do estudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.2.1 Cenário 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.2.2 Cenário 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.2.3 Cenário 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.2.4 Análise dos postos dos θ’s e φ’s . . . . . . . . . . . . . . . . . . . . . 735.2.5 Comparação dos modelos . . . . . . . . . . . . . . . . . . . . . . . . 77

6 Aplicação à dados reais 796.1 Comparação dos modelos propostos . . . . . . . . . . . . . . . . . . . . . . . 826.2 Resultados das análises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

7 Considerações finais 96

A Apêndice A 98

x

Page 12: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Lista de Tabelas

5.1 Composição da matriz social para avaliar a influência de µβ . . . . . . . . . . . 425.2 Proporção de 1’s em cada quadrante de um determinado conjunto de dados

reorganizado com base nos valores verdadeiros dos θ’s e dos φ’s. . . . . . . . . 435.3 Número máximo de 1’s em cada quadrante da matriz social para calcular as

proporções. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.4 Sumário da distribuição a posteriori dos parâmetros γ, θ5, φ5, θ10 e φ10 sob o

ajuste do modelo gerador para 5 réplicas de Monte Carlo de cada modelo e paracada valor de µβ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5.5 Número de θ’s e φ’s que obtiverammenor VRM para cada valor de µβ considerado. 455.6 Cenários utilizados na implementação do estudo de simulação. . . . . . . . . . 465.7 Nomes, valores verdadeiros, postos e estatísticas de ordem referentes aos φ’s

verdadeiros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

6.1 Lista dos perfis que tiveram suas cadeias inicializadas em -1 ou 1. . . . . . . . 806.2 Resultados dos critérios de seleção de modelos DIC e LPML para os modelos

ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826.3 Estimativas das distribuições a posteriori provenientes do modelo logit com

intervalos de credibilidade de 95% referentes aos partidos políticos. . . . . . . 92

A.1 Lista dos deputados ordenados por partido. . . . . . . . . . . . . . . . . . . . 99A.2 Senadores ordenados por partido. . . . . . . . . . . . . . . . . . . . . . . . . . 102A.3 Lista dos atores políticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

xi

Page 13: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Lista de Figuras

1.1 Perfil do New York Times no Twitter. . . . . . . . . . . . . . . . . . . . . . . 41.2 Escala ideológica latente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1 Funções de utilidade normal e quadrática . . . . . . . . . . . . . . . . . . . . 112.2 Pontes de Königsberg. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3 Grafo G1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.4 Grafos G2 e G3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.5 Grafos G4 e G5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.6 Rede social e exemplos de grafos possíveis para descrever a rede. . . . . . . . . 192.7 Estrutura de uma rede social com 4 indivíduos. . . . . . . . . . . . . . . . . . 202.8 Estrutura da rede social descrita no Exemplo 2. . . . . . . . . . . . . . . . . . 212.9 Estrutura da rede social com 6 indivíduos descrita no Exemplo 2. . . . . . . . . 22

4.1 Curvas do inverso das funções de ligações probit, logit e t-Student. . . . . . . . 37

5.1 Máximo, para cada conjunto dado e considerando todos os parâmetros, donúmero mínimo de iterações necessárias para atingir a convergência, para cadaajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.2 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) eintervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de α e β, respectivamente, µα e µβ . Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 49

5.3 Valores verdadeiros versus valores estimados dos α’s. . . . . . . . . . . . . . . 505.4 Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às

100 réplicas simuladas do modelo logit. . . . . . . . . . . . . . . . . . . . . . 51

xii

Page 14: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

5.5 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) eintervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ e φ, respectivamente, µθ e µφ. Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 52

5.6 Valores verdadeiros versus valores estimados dos θ’s. . . . . . . . . . . . . . . 535.7 Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às

100 réplicas simuladas do modelo logit. . . . . . . . . . . . . . . . . . . . . . 545.8 Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%

ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejadaem vermelho representa o valor verdadeiro de γ, 0,8, utilizado para a simulaçãodos dados logit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.9 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) eintervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ∗ =

√γθ e φ∗ =

√γφ, respectivamente, µ∗θ

e µ∗φ. Os modelos logit, probit e t-Student são comparados em cada painel. . . . 565.10 Probabilidades de seguimento verdadeiras e estimadas. . . . . . . . . . . . . . 575.11 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e

intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de α e β, respectivamente, µα e µβ . Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 58

5.12 Valores verdadeiros versus valores estimados dos α’s. . . . . . . . . . . . . . . 595.13 Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às

100 réplicas simuladas do modelo probit. . . . . . . . . . . . . . . . . . . . . 605.14 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e

intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ e φ, respectivamente, µθ e µφ. Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 61

5.15 Valores verdadeiros versus valores estimados dos θ’s. . . . . . . . . . . . . . . 625.16 Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às

100 réplicas simuladas do modelo probit. . . . . . . . . . . . . . . . . . . . . 62

xiii

Page 15: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

5.17 Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejadaem vermelho representa o valor verdadeiro de γ, 0,8, utilizado para a simulaçãodos dados probit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.18 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) eintervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ∗ =

√γθ e φ∗ =

√γφ, respectivamente, µ∗θ

e µ∗φ. Os modelos logit, probit e t-Student são comparados em cada painel. . . . 645.19 Probabilidades de seguimento verdadeiras e estimadas. . . . . . . . . . . . . . 655.20 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e

intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de α e β, respectivamente, µα e µβ . Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 66

5.21 Valores verdadeiros versus valores estimados dos α’s. . . . . . . . . . . . . . . 675.22 Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às

100 réplicas simuladas do modelo t-Student. . . . . . . . . . . . . . . . . . . . 685.23 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e

intervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ e φ, respectivamente, µθ e µφ. Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 69

5.24 Valores verdadeiros versus valores estimados dos θ’s. . . . . . . . . . . . . . . 705.25 Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às

100 réplicas simuladas do modelo t-Student. . . . . . . . . . . . . . . . . . . . 705.26 Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%

ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejadaem vermelho representa o valor verdadeiro de γ, 0,8, utilizado para a simulaçãodos dados t-Student. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

xiv

Page 16: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

5.27 Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) eintervalo que engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuaisdadas pelas médias. As linhas tracejadas em vermelho nos dois primeirospaineis representam as médias de θ∗ e φ∗, respectivamente, µ∗θ e µ∗φ. Os modeloslogit, probit e t-Student são comparados em cada painel. . . . . . . . . . . . . 72

5.28 Probabilidades de seguimento verdadeiras e estimadas. . . . . . . . . . . . . . 735.29 Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo que

engloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médiasa posteriori produzidas através do ajuste dos dados logit aos três modelos. . . . 75

5.30 Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo queengloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médiasa posteriori produzidas através do ajuste dos dados probit aos três modelos. . . 76

5.31 Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo queengloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médiasa posteriori produzidas através do ajuste dos dados t-Student aos três modelos. . 76

5.32 Porcentagem de vezes que o modelo gerador dos dados foi identificado correta-mente com base nos critérios DIC e LPML, para 100 replicações do modelologit, probit e t-Student. As abscissas correspondem aos conjuntos de dados eas legendas aos modelos que foram ajustados. . . . . . . . . . . . . . . . . . . 77

6.1 Resultados do critério de Raftery e Lewis (1992) para cada modelo, obtidoscom base no ajuste do conjunto de dados reais aos três modelos. . . . . . . . . 81

6.2 Comparação entre as estimativas dos pontos ideais produzidas pelo algoritmoIDEAL, referentes à primeira dimensão, e as produzidas pelos modelos logit,probit e t-Student que utilizam os dados do Twitter. . . . . . . . . . . . . . . . 81

6.3 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas são menores que -1. . . . . . . . . . . . . . . . . . . 84

6.4 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 1. . . . . . . . . . . . . . . . . . 85

6.5 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 2. . . . . . . . . . . . . . . . . . 86

6.6 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 3. . . . . . . . . . . . . . . . . . 87

6.7 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 4. . . . . . . . . . . . . . . . . . 88

xv

Page 17: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

6.8 Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas são maiores que 1. . . . . . . . . . . . . . . . . . . . 89

6.9 Pontos ideais estimados e intervalos de credibilidade de todos os senadores. . . 916.10 Pontos ideais estimados e intervalos de credibilidade de todos os partidos. . . . 936.11 Pontos ideais estimados e intervalos de credibilidade de todos os atores políticos. 95

xvi

Page 18: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Capítulo 1

Introdução

A estimação de variáveis latentes tem sido tema de diversos trabalhos na área da estatística nasúltimas décadas. São chamadas de variáveis latentes as variáveis que não podem ser observadasdiretamente, mas que podem ser inferidas por meio de variáveis diretamente observáveis (Martinet al., 2014). As variáveis nível socioeconômico, inteligência e posição ideológica são exemplosde variáveis latentes. Por exemplo, para medir a variável nível socieconômico será precisoutilizar variáveis observáveis tais como o nível de escolaridade ou renda.

Uma variável latente amplamente estudada pelos cientistas políticos é a posição ideológica.De acordo com Freeden (2013), a posição ideológica é um conjunto de ideias, crenças, opiniõese valores que definem a forma de pensamento político de um indivíduo ou de um determinadogrupo de indivíduos. Já que não é possível medir diretamente essa variável, será preciso observarvariáveis que permitam estimar essa quantidade. Nesse caso, um bom exemplo de variável é ovoto, que informa em qual partido ou candidato o indivíduo votou nas últimas eleições.

Os estudiosos da área de ciência política sempre buscaram métodos que os auxiliassema melhor compreender a decisão de voto de um indivíduo e uma das teorias utilizadas nesseprocesso foi a teoria espacial do voto, proposta por Downs (1957). Essa teoria parte dopressuposto de que o eleitor se comporta, diante de uma urna, como um consumidor no mercado.Ou seja, os eleitores possuem uma visão racional, em termos de custo benefício, que os fazeleger a alternativa que maximize seu bem estar. Os eleitores possuem um número finito dealternativas entre as quais eleger, e de acordo com as suas preferências individuais, escolhemaquela que lhes proporciona maior grau de satisfação ou utilidade. Fazendo uma analogia como mercado, pode-se pensar que os partidos oferecem diferentes “produtos” ou programas e oseleitores são os consumidores (Otero et al., 2012). Assim como no mercado os consumidorestendem a comprar os produtos que mais lhe agradam, na política os votantes tendem a eleger

1

Page 19: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

partidos ou candidatos que possuam preferências políticas próximas às deles. Portanto, o modeloespacial proposto por Downs (1957) assume que cada indivíduo vota de acordo com a distânciaexistente entre a sua posição ideológica e as posições ideológicas dos partidos ou candidatos.

Modelos de espaços latentes para redes de conectividade (Hoff et al., 2002), e modelossimilares aos de teoria da resposta ao item, como os modelos espaciais de votação nominal(Clinton et al., 2004), têm sido muito utilizados para estimar as posições ideológicas de usuárioscomuns e de atores políticos. Os atores políticos são indivíduos ou grupos de indivíduos queexercem forte influência sobre as preferências políticas dos usuários comuns. No mundo atual,os principais jornais e revistas influenciam de maneira considerável a opinião política do cidadão.Por isso, além dos partidos políticos e dos políticos, esses últimos também são consideradosatores políticos, ou como o próprio nome diz, formadores de opinião.

Os modelos de espaços latentes investigam a relação entre os elementos da rede deconectividade e os modelos espaciais de votação nominal analisam o comportamento dosparlamentares nas votações nominais. As votações nominais são votações em que os membrosde uma instituição política (assembleias, congressos, câmara dos deputados, etc) podem votarcontra ou a favor um determinado projeto de lei. Os votos sim e não representam as alternativaspolíticas dos votantes, pois em uma votação eles têm a opção de votar a favor ou contra ao queestá sendo proposto. O principal problema em utilizar as votações nominais como fonte deinformação é que só é possível estimar as posições ideológicas dos indivíduos que participamdessas votações, ou seja, de determinados políticos. Com o passar dos anos, os pesquisadorespassaram a ter interesse em estimar também as posições ideológicas de usuários comuns, partidospolíticos, jornais e revistas, então foi necessário buscar outras fontes de dados e modelos quepermitissem essa estimação. O avanço da tecnologia e o surgimento das redes sociais permitiu aelaboração desses modelos, como por exemplo o modelo de Barberá (2015), que servirá comobase para os modelos adotados nesta dissertação.

Nesta dissertação, é crucial entender como funciona a rede social chamada Twitter, conheceras principais correntes ideológicas e reconhecer a importância das redes nos tempos atuais. Porisso, nas próximas subseções esses conceitos serão apresentados a fim de facilitar a leitura dotexto.

1.1 Redes e era da informaçãoHá muitos anos, fala-se em redes de informação, redes de transporte, redes biológicas e redes

elétricas. Uma rede é definida como um conjunto de elementos interligados através de conexões.

2

Page 20: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Esses elementos podem ser objetos, indivíduos, animais, etc. Nunca se ouviu falar tanto em“rede” como nos dias atuais, devido às chamadas redes sociais. Vivemos na era da informação ea cada momento somos surpreendidos com novas notícias, tecnologias e informações.

Como já se sabe, a rede mundial de computadores - chamada de internet - se tornou a principalfonte de informação da atualidade. Com seu avanço em meados dos anos 90, descobriu-se asvantagens de uma comunicação imediata e passou-se a buscar formas de se comunicar maisrapidamente. Dentro da internet existem diversos sítios que facilitam a comunicação entre aspessoas, que são as redes sociais. Uma rede social é definida como um conjunto de elementos- indivíduos, grupos de indivíduos e organizações - também chamados de atores, que estãoconectados por um ou vários tipos de relações que podem ser relações de amizade, parentesco,crenças religiosas, etc (Ferreira, 2011).

SegundoKadushin (2013), um dos princípios fundamentais para compreender as redes sociaisé a homofilia. De acordo com Lazarsfeld et al. (1954), a homofilia é tendência dos indivíduosem se relacionar com indivíduos semelhantes, seja com respeito a crenças, classe social, idade,educação, etc. Esse princípio supõe que se duas pessoas têm características semelhantes elas sãomais prováveis de estarem conectadas do que duas pessoas que não apresentam semelhanças.A recíproca também é verdade, isto é, se duas pessoas estão conectadas então é provável queelas tenham características ou atributos comuns. O princípio da homofilia se aplica a grupos,organizações, países e outras unidades sociais. Em uma grande variedade de estudos sobre rede,pode-se encontrar o princípio da homofilia.

As redes sociais influenciam a maneira como as pessoas se comunicam entre si, com ospolíticos ou com empresas. Elas têm tido um papel chave nas campanhas eleitorais, porquemuitos políticos e partidos políticos as têm visto como um meio para promover a sua imagem,seja compartilhando informações, falando ou criando uma relação mais direta com os eleitores.Devido à importância das redes sociais na política, muitos pesquisadores as consideram,atualmente, como um ambiente repleto de informações relevantes. Um exemplo destas redes é oTwitter1 - uma rede social muito utilizada em vários países.

1.2 TwitterAtualmente, o Twitter possui 320 milhões de usuários ativos, mensalmente, em todo mundo2.

O Twitter é uma rede social e servidor de mensagens curtas que permite aos usuários ler e postar

1https://twitter.com/2Fonte: https://about.twitter.com/company

3

Page 21: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

mensagens com no máximo 140 caracteres. Estas mensagens curtas são denominadas tweets.O princípio básico do Twitter é permitir que as pessoas saibam o que as outras estão pensando

ou fazendo. É permitido postar imagens animadas (em formato GIF) e fotos, ambas de até 5MB,e vídeos de até 512MB. No Brasil, o Twitter tem sido muito utilizado por políticos, celebridades,empresas e por diversos usuários que almejam uma comunicação rápida.

O Twitter não é uma rede social difícil de se utilizar. Os usuários se comunicam atravésdos tweets, retweets, mentions, replies, hastags e mensagens diretas. Nesta dissertação, não sedefine todos estes recursos pois alguns deles não são considerados na análise estatística. Parautilizar o Twitter, é necessário escolher um nome de usuário, que é precedido pelo símbolo “@”.A identificação (ou o perfil) do usuário do Twitter é dada por seu nome de usuário. Por exemplo,na Figura 1.1 temos o perfil do jornal norte-americano New York Times no Twitter, cujo nome deusuário é “@nytimes”.

Figura 1.1: Perfil do New York Times no Twitter.

Observe que na Figura 1.1 consta o número de tweets escritos (245K, i.e 245 mil), aquantidade de followings (972) e followers (29.6M, i.e 29,6 milhões) do jornal. Para estadissertação, é essencial entender a diferença entre followers e followings. Suponha que Maria(@maria), Bruno (@bruno) e Carlos (@carlos), três pessoas fictícias, sejam usuários do Twitter.Se Maria escolhe seguir Bruno e Carlos no Twitter, diz-se que os followings (“amigos”) deMaria são Bruno e Carlos. Maria, que os segue, é denominada follower (“seguidora”) deles.Assim, o perfil do New York Times possui 972 amigos (followings) e aproximadamente 29,6milhões de seguidores (followers).

1.3 Correntes ideológicasNos sistemas políticos democráticos, os termos “direita” e “esquerda” são muito utilizados

para classificar ou definir as posições ideológicas de partidos políticos, de políticos e deindivíduos. Existe também o termo “centrista”, que é utilizado para classificar indivíduos ou

4

Page 22: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

partidos políticos que apresentam características tanto de direita quanto de esquerda. Entender adiferença entre esses dois termos ajuda a compreender o comportamento de um indivíduo nahora da eleição ou a preferência por uma determinada proposta política.

Os modelos espaciais de votação nominal, que serão descritos no Capítulo 2, assumemque as alternativas políticas (resultados das votações nominais) podem ser representadas comopontos em um espaço euclidiano - uma linha, plano ou hiperplano. Os legisladores, por suavez, possuem preferências políticas definidas sobre essas alternativas. De acordo com McCarty(2011), as preferências políticas são de pico único (single-peakdness) e por isso, diante de todasas alternativas políticas possíveis, apenas uma é a preferida do legislador. Essa alternativapreferida é chamada de ponto ideal ou posição ideológica do legislador. Alguns autores assumemque a posição ideológica é uma variável bidimensional e outros, como Poole e Rosenthal (2000)consideram que ela é uma variável unidimensional. Por opção, assume-se nesta dissertação quea posição ideológica é uma variável unidimensional e que possui uma representação sobre umareta real, que também é chamada de escala latente. O ponto ideal, já mencionado anteriormente,é a representação da posição ideológica sobre a reta real. A Figura 1.2 exibe um exemplo destaescala ideológica.

-

Extrema

Esquerda

-

Esquerda

0

Centro

+

Direita

+

Extrema

Direita

Figura 1.2: Escala ideológica latente.

Em geral, assume-se que a posição ideológica de direita é representada pelos valores positivose a posição ideológica de esquerda pelos valores negativos. É possível definir o contrário, masessa convenção é utilizada nesta dissertação.

Note que existem os termos extrema direita e extrema esquerda na escala ideológica latente,além dos termos esquerda, direita e centro. Esses dois termos foram criados por cientistaspolíticos para se referir aos indivíduos que possuem posições ideológicas mais extremas. Nocontexto desta dissertação, isso significa dizer que existem indivíduos com pontos ideais bemmaiores do que outros (ou bem menores do que outros) e por isso eles serão tratados comoindivíduos mais extremos.

5

Page 23: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

1.4 MotivaçãoA principal motivação para a construção desta dissertação foi o interesse em avaliar a

eficiência do modelo proposto por Barberá (2015) utilizando dados referentes ao Brasil e proporpossíveis modificações em seu modelo que possam contribuir para a literatura da área.

Uma rede social como o Twitter, que engloba uma enorme quantidade de informações arespeito de pessoas comuns, permite a estimação das posições ideológicas de usuários que nãosão necessariamente políticos e é por isso que o modelo proposto por Barberá (2015) é tãointeressante. Através dos dados do Twitter, será possível estimar, por exemplo, as posiçõesideológicas dos principais jornais e revistas do Brasil que possuam uma conta no Twitter. Usandoas estimativas das posições ideológicas dos deputados e senadores brasileiros que fazem partede um determinado partido, será possível estimar também a posição ideológica do partido.

No cenário brasileiro, pesquisadores do Núcleo de Estudos sobre o Congresso (NECON) daUniversidade Estadual do Rio de Janeiro utilizaram as votações nominais de 2011 a 2014 paraestimar as posições ideológicas dos deputados federais e dos senadores brasileiros em um estudorealizado em 2014. Os resultados do NECON podem ser utilizados para fins de comparaçãocom os resultados obtidos pela metodologia proposta por Barberá (2015) aplicado ao contextobrasileiro.

1.5 ObjetivoO principal objetivo desta dissertação é estudar o modelo proposto por Barberá (2015), que

é baseado na função de ligação logit. Existe o interesse em estudar suas propriedades e duaspossíveis modificações (função de ligação probit e t-Student). Além disso, deseja-se compararas estimativas obtidas através de três modelos, que diferem apenas pela função de ligação, paraverificar se existem diferenças significativas entre eles. Serão utilizados dois critérios de seleçãode modelos: o critério de informação do desvio (DIC, “Deviance Information Criterion”) e ologaritmo da verossimilhança pseudo marginal (LMPM,“Logarithm of the Pseudo MarginalLikelihood”).

Outro objetivo desta dissertação é estimar e analisar as posições ideológicas dos deputadosfederais, dos senadores e dos atores políticos do cenário brasileiro que possuem uma conta noTwitter.

Além da Introdução, a presente dissertação é dividida em seis capítulos e um apêndice. NoCapítulo 2, é apresentado um resumo sobre modelos espaciais de votação nominal, teoria de

6

Page 24: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

grafos e modelos de espaço latentes aplicados às redes. No Capítulo 3, é apresentado um breveresumo sobre inferência bayesiana, método de Monte Carlo via Cadeias de Markov (MCMC),critérios de convergência e critérios de seleção de modelos. No Capítulo 4, é apresentadoo modelo proposto por Barberá (2015), seus respectivos problemas de identificação e suasrespectivas modificações. No Capítulo 5, são apresentados os resultados obtidos através deum estudo de simulação e, no Capítulo 6, são apresentados os resultados obtidos a partir daaplicação dos modelos a um conjunto de dados reais do Twitter. Finalmente, no Capítulo 7, sãoapresentadas as conclusões e as futuras investigações no contexto deste trabalho.

7

Page 25: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Capítulo 2

Conceitos preliminares

O modelo proposto por Barberá (2015) que será apresentado no Capítulo 4 é similar aosmodelos espaciais de votação nominal (Clinton et al., 2004), aos modelos de teoria da respostaao item (Masters et al., 1997) e aos modelos de espaços latentes aplicados às redes sociais (Hoffet al., 2002). Então, alguns desses modelos serão apresentados neste capítulo com a finalidadede ajudar o leitor a compreender a composição do modelo de Barberá (2015). Também serãoapresentados alguns conceitos referentes a grafos pois eles fazem parte do contexto dessesmodelos.

2.1 Modelos espaciais de votação nominalNesta seção, são apresentados alguns termos e conceitos relacionados aos modelos espaciais

de votação nominal. Todas as informações referentes a essa seção foram baseadas em Poole(2005).

Ao se utilizar votações nominais, dois modelos são amplamente conhecidos na estimaçãodos pontos ideais: o modelo NOMINATE, proposto por Poole e Rosenthal (2000) e o modeloIDEAL (Clinton et al., 2004). Estes se baseiam no modelo espacial do voto, proposto por Downs(1957), e assumem que cada legislador é representado por um ponto no espaço euclidiano ecada votação nominal é representada por dois pontos - um que corresponde à alternativa sim eoutro que corresponde à alternativa não. Em ambos os modelos é suposto que os legisladoresvotam de maneira sincera, ou seja, assume-se que os legisladores votam na alternativa políticamais próxima dos seus pontos ideais (Carroll et al., 2013).

De acordo com os modelos NOMINATE e IDEAL, cada legislador é descrito por umafunção de utilidade aleatória proposta por McFadden (1973). A utilidade de um legislador é

8

Page 26: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

definida como o benefício obtido por ele, após tomar uma determinada decisão. A função deutilidade aleatória assume que a utilidade em escolher uma determinada alternativa política (simou não) é descrita por uma porção determinística, função da proximidade entre o ponto ideal dolegislador e o ponto associado à alternativa política escolhida, além de uma componente querepresenta a porção aleatória da função utilidade.

Suponha que existem p legisladores e q votações nominais, indexados por i = {1, ...p} ej = {1, ..., q}, e assuma que cada votação nominal só possui dois resultados possíveis, sim enão, indexados por k = {s, n}. A estrutura geral da função de utilidade é dada por:

Uijk = G(xi, Ojk) + εijk

= uijk + εijk,

sendo G uma função monótona decrescente da distância entre o ponto ideal do legislador e oponto associado à alternativa política. A parcela uijk = G(xi, Ojk) é a porção determinística eεijk é a porção aleatória da função utilidade. Formalmente, seja xi o ponto ideal do legisladori, Ojs o ponto no espaço associado à alternativa sim na votação nominal j e Ojn o ponto noespaço associado à alternativa não na votação nominal j. É importante notar que a função G édescrecente, pois o modelo parte do pressuposto que quanto maior a distância entre o pontoideal do legislador e a alternativa política escolhida, menor é a função utilidade.

As funções de utilidade do legislador i ao votar sim ou não são dadas por:

Uijs = uijs + εijs, e

Uijn = uijn + εijn.

sendo εijs e εijn as porções aleatórias das funções de utilidade ao votar sim ou não, respectiva-mente.

O legislador i vota sim, se e somente se, Uijs > Uijn, isto é, se a utilidade obtida votando simfor maior que a utilidade obtida votando não. De maneira equivalente, diz-se que o legislador ivota sim se Uijs − Uijn > 0.

A diferença entre as funções de utilidade do legislador i ao votar sim e não é:

Uijs − Uijn = uijs − uijn + εijs − εijn.

Pela diferença entre as funções de utilidade é possível notar que o legislador i vota sim se adiferença entre as porções determinísticas é maior que a diferença entre as porções aleatórias, ou

9

Page 27: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

seja, se uijs − uijn > εijn − εijs e vota não se a diferença entre componentes determinísticas émenor que a diferença entre as componentes aleatórias, ou seja, se uijs − uijn < εijn − εijs.

Para calcular a probabilidade que o legislador vote sim ou não em determinada votaçãonominal é necessário assumir uma forma funcional para as porções aleatórias (erros). Assumaque Yij = 1 se o legislador i vota sim na votação nominal j e Yij = 0 caso contrário. Asprobabilidades são definidas por:

P (Legislador i vote sim na votação j) =P (Yij = 1)

=P (Uijs − Uijn > 0)

=P (εijn − εijs < uijs − uijn), e

P (Legislador i vote não na votação j) =P (Yij = 0)

=P (Uijs − Uijn < 0)

=P (εijn − εijs > uijs − uijn).

Os modelos NOMINATE e IDEAL apresentam uma diferença. Ela está na distribuiçãoassumida para as porções aleatórias (erros) e na forma funcional assumida para a porçãodeterminística da função utilidade.

As duas formas funcionais mais utilizadas para a função de utilidade determinística são aGaussiana e a quadrática. O método NOMINATE também é chamado de modelo de utilidadegaussiano pois assume uma função de utilidade determinística gaussiana. Já o método IDEALé chamado de modelo de utilidade quadrático pois assume uma função de utilidade quadrática.

A Figura 2.1 apresenta o gráfico das funções de utilidade determinísticas gaussiana equadrática. Note que as funções são muito semelhantes na região em que ambas são côncavas,mas apresentam algumas diferenças nas caudas. Nas caudas, sob a utilidade gaussiana, aperda marginal na utilidade diminui até convergir para um valor fixo (geralmente zero) e soba utilidade quadrática, a perda marginal na utilidade aumenta a uma taxa crescente. Pode-seafirmar, portanto, que sob a utilidade gaussiana os legisladores estão mais dispostos a apoiaruma alternativa política mais distante do ponto ideal, se comparado à utilidade quadrática.

10

Page 28: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Posição Ideológica

Util

idad

e

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Figura 2.1: Funções de utilidade normal e quadrática. As linhas apresentam as funções deutilidade determinística normal (linha sólida) e quadrática (linha tracejada) para um eleitor componto ideal 0.

O modelo IDEAL assume que a forma funcional da parte determinística é descrita poruma função quadrática e que a diferença entre os erros tem distribuição normal padrão, isto é,εijn − εijs ∼ N(0, 1). As funções de utilidade do legislador i, ao votar sim ou não, são dadaspor:

UQuadijs = −‖xi −Ojs‖2 + εijs,

UQuadijn = −‖xi −Ojn‖2 + εijn.

Note que no caso univariado, ‖xi −Ojs‖2 = (xi −Ojs)2 e a probabilidade que o legislador

i vote sim na votação nominal j é:

11

Page 29: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

P (Yij = 1) =P (Uijs − Uijn > 0)

=P (εijn − εijs < uijs − uijn)

=P (εijn − εijs < −(xi −Ojs)2 + (xi −Ojn)2)

=P (εijn − εijs < −(xi2 − 2xiOjs +O2

js) + (xi2 − 2xiOjn +O2

jn)

=P (εijn − εijs < 2xi(Ojs −Ojn)− (O2js −O2

jn))

=Φ(βjxi − αj),

sendo βj = 2(Ojs − Ojn), αj = (O2js − O2

jn) e Φ(.) a função de distribuição normal padrão.Esse modelo é equivalente ao modelo de Lord (1952), sendo βj o parâmetro de discriminaçãodo item e αj o parâmetro de dificuldade do item, mas no contexto das votações nominais o traçolatente (habilidade) xi representa o ponto ideal do i-ésimo legislador.

O modelo NOMINATE assume que a forma funcional da parte determinística é descritapor uma função normal e que a diferença entre os erros tem distribuição logística, isto é,εijn − εijs ∼ L(0, 1). As funções de utilidade do legislador i ao votar sim ou não são dadas por:

UNormijs = β exp{−1

2w2‖xi −Ojs‖2}+ εijs

UNormijn = β exp{−1

2w2‖xi −Ojn‖2}+ εijn

sendo β e w constantes.A probabilidade que o legislador i vote sim na votação nominal j é:

P (Yij = 1) =P (Uijs − Uijn > 0) = P (εijn − εijs < uijs − uijn)

=

∫ uijs−uijn

−∞

e−z

(1 + e−z)2dz.

Esse modelo é equivalente ao modelo de Birnbaum (1968).

2.2 GrafosNesta seção, são apresentados alguns termos e conceitos relacionados à teoria de grafos,

com base em Kolaczyk e Csárdi (2014).A teoria de grafos é uma área da matemática que estuda as relações entre os objetos de

uma coleção. O início dessa teoria se deu em 1736, quando Leonhard Euler solucionou o

12

Page 30: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

“problema das pontes de Königsberg", também conhecido como o “problema das setes pontes deKönigsberg". Königsberg (atual Kaliningrado, Rússia) era uma cidade da Prússia Oriental. Poresta cidade passava o rio Pregel, que dividia a cidade em 4 áreas distintas, como pode ser vistona Figura 2.2.

Figura 2.2: Pontes de Königsberg.

Pela figura, é possível notar que as áreas da cidade eram unidas por sete pontes e por isso,para se deslocar de uma área para outra, pelo menos uma das pontes teria que ser utilizada.Muitos pesquisadores da época tinham interesse em descobrir se existia uma maneira de partirde um determinado ponto da cidade, passar pelas sete pontes uma única vez e depois retornar aomesmo ponto de partida. O interesse deles consistia em descobrir se existia um caminho queobedecesse a tais condições. Leonhard Euler foi quem provou que tal caminho não existia. Paraconseguir responder a essa questão, Euler substituiu cada área por um ponto e cada ponte poruma linha, criando um diagrama, denominado grafo.

Um grafo se representa graficamente como um conjunto de pontos (chamados vértices ounós) que são unidos por linhas (arestas).

A teoria de grafos encontra aplicação em diversas áreas da ciência, como física, química,tecnologias de comunicação, computação, etc. Os grafos são muito utilizados na resolução dediversos problemas, pois eles têm um enorme poder de concisão e representação da realidade.

Um grafo G = (VG, EG) é uma estrutura matemática composta por dois conjuntos finitos, oconjunto de vértices VG e o conjunto de arestas EG. Se o grafo G tem n vértices e m arestas,tem-se que VG = {v1, v2, ..., vn} eEG = {e1, e2, ..., em}, sendo ek = {vi, vj}, com k = 1, ...,m

e i, j = 1, ..., n. Os vértices vi e vj são denominados extremos de ek.Diz-se que os vértices vi e vj deG são adjacentes se existe uma aresta ek ∈ EG que relaciona

esses dois vértices. Se realmente existe essa aresta ek que relaciona esses dois vértices, diz-se

13

Page 31: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

também que vi e vj são incidentes sobre a aresta ek. Os pares de vértices que não são adjacentessão denominados independentes.

Duas arestas são ditas adjacentes se elas são incidentes sobre o mesmo vértice e são ditasparalelas se elas possuem o mesmo vértice inicial, o mesmo vértice final e a mesma orientação.Diz-se que as arestas ek = {vi, vj} e fk = {vr, vs} são arestas independentes se não possuemnenhum vértice em comum, isto é, se {vi, vj} ∩ {vr, vs} = ∅. Uma aresta é denominada laçose ela começa e termina no mesmo vértice. A aresta do tipo {vi, vi} é denominada laço. Osconceitos de incidência e adjacência são importantes para estudar as relações entre os elementosdo grafo.

Na Figura 2.3 apresenta-se o grafo G1 para exemplificar os conceitos abordados até aqui.O grafo G1 possui quatro vértices, v1, v2, v3 e v4, e sete arestas e1 = {v1, v2}, e2 = {v1, v2},e3 = {v2, v3}, e4 = {v3, v3}, e5 = {v3, v4}, e6 = {v4, v4} e e7 = {v4, v1}. Observando estegrafo pode-se dizer que v1 e v2 são exemplos de vértices adjacentes e que ambos são incidentessobre as arestas e1 e e2. Os vértices v1 e v3 são independentes pois não existe uma aresta emEG1 que liga diretamente esses dois vértices. As arestas e5 e e7 são ditas adjacentes pois elasincidem sobre o mesmo vértice v4 e as arestas e3 e e7 são ditas independentes pois elas nãoincidem sobre os mesmos vértices, e consequentemente, não apresentam nenhum vértice emcomum.. As arestas e1 e e2 são ditas paralelas pois elas possuem o mesmo vértice inicial e omesmo vértice final. O grafo ainda apresenta dois laços, representados pelas arestas e4 e e5.

v1

v2 v3

v4

e2 e1

e3e4

e5

e6e7

Figura 2.3: Grafo G1.

A ordem de um grafo G é dada pelo número de vértices do conjunto VG, ou seja, |VG|, e otamanho do grafo G é dado pelo número de arestas no conjunto EG, ou seja, |EG|. Pela Figura2.3 pode-se observar que a ordem de G1 é quatro, pois o grafo tem quatro vértices e o tamanhode G1 é sete, pois ele tem sete arestas.

O grau de um vértice v emG, denotado por dG(v), é dado pelo número de arestas incidentesnele. O grau de entrada do vértice v, denotado por dGin(v), é igual ao número de arestas queentram nele e o grau de saída, denotado por dGout(v), é dado pelo número de arestas que saem

14

Page 32: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

dele. Só tem sentido falar em grau de entrada e grau de saída quando o grafo é direcionado,conceito que será abordado mais tarde. Quando nenhuma aresta incide sobre um determinadovértice v, ou seja, quando o grau do vértice v é 0, ele é denominado de vértice isolado. PelaFigura 2.3 é possível obter o grau de cada vértice deG1: dG1(v1) = 3, dG1(v2) = 3, dG1(v3) = 4

e dG1(v4) = 4. O grafo G1 não possui nenhum vértice isolado.

Tipos de grafos

Um grafo é denominado simples se não possui arestas paralelas nem laços e é denominadomultigrafo se possui uma dessas características. Um exemplo de grafo simples é o grafo G2

representado na Figura 2.4a. Como exemplo de multigrafo tem-se o grafo G1, apresentado naFigura 2.3.

Um grafo dirigido G, também chamado de dígrafo, é um grafo no qual todas as arestas emEG possuem uma direção definida, isto é, cada aresta ek está identificada por um par ordenado(vi, vj) de vértices ao invés de um par não ordenado {vi, vj}. Em um grafo dirigido, o conjuntode arestas é formado apenas de pares ordenados. Neste grafo, a aresta (vi, vj) é diferente daaresta (vj, vi) para todo vi, vj ∈ V . O primeiro vértice do par é denominado vértice de origem e osegundo vértice de chegada. Um exemplo de grafo dirigido é o grafo G2, representado na Figura2.4a. Note que todas as arestas de G2 possuem uma direção. O grafo possui quatro vértices, v1,v2, v3 e v4, e quatro arestas e1 = (v1, v2), e2 = (v2, v3), e3 = (v3, v4) e e4 = (v4, v1).

Um grafo não dirigido é um grafo no qual todas as arestas em EG não possuem uma direçãodefinida. Um exemplo de grafo não dirigido é o grafo G1, representado na Figura 2.3, pois todasas arestas de G1 não possuem uma direção, ou seja, o conjunto EG1 é formado por pares nãoordenados de vértices.

Um grafoH = (VH , EH) é um subgrafo de outro grafoG = (VG, EG) se todos os vértices etodas as arestas deH pertencem aG, ou seja se VH ⊆ VG eEH ⊆ EG. Analisando as Figuras 2.3e 2.4b tem-se que VG1 = {v1, v2, v3, v4}, EG1 = {e1, e2, e3, e4, e5, e6, e7}, VG3 = {v1, v2, v3} eEG3 = {e1, e2}. Como VG3 ⊆ VG1 e EG1 ⊆ EG3 diz-se que G3, representado na Figura 2.4b éum subgrafo de G1.

15

Page 33: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

v1

v2 v3

v4

e1

e2

e3

e4

(a) Grafo G2: Grafo simples e dirigido.

v1

v2 v3

e1

e2

(b) Grafo G3: Subgrafo não dirigido.

Figura 2.4: Grafos G2 e G3.

Um grafo é denominado regular quando todos os seus vértices têm o mesmo grau. Assim,diz-se que um grafo é r-regular se dG(v) = r para todo vértice v em VG. O grafo G2 é umexemplo de grafo regular. O grafo G2 é denominado 2-regular pois todos os seus vértices têmgrau 2.

Um grafo simples é denominado completo se cada vértice se liga a cada um dos outrosvértices através de uma aresta. Em um grafo completo, qualquer vértice v de VG é adjacentea todos os outros vértices de VG. Estes grafos são designados por K|VG|, onde |VG| é a ordemdo grafo, que já foi definida anteriormente. De maneira resumida, um grafo completo é umgrafo simples que contém o número máximo de arestas. Note que um grafo completo Kn én− 1-regular. Um exemplo de grafo completo está representado na Figura 2.5a.

Um grafo simplesG = (VG, EG) é denominado bipartido se o conjunto de vértices VG puderser particionado em dois conjuntos disjuntos VG1 e VG2, de tal maneira que toda aresta e ∈ EGliga um vértice de VG1 a outro vértice de VG2. Se cumpre que VG1 ∩ VG2 = ∅ e VG1 ∪ VG2 = V .Um exemplo de grafo bipartido está representado na Figura 2.5b. Um grafo bipartido no qualcada elemento de VG1 está ligado a todos os elementos de VG2 é denominado de grafo bipartidocompleto. Então, para um grafo ser bipartido completo é necessário que cada vértice do primeiroconjunto esteja ligado a todos os vértices do segundo conjunto.

16

Page 34: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

v1

v2 v3

v4

(a) Grafo G4: Grafo completo.

1

2

3

4

5

VG5

1

VG5

2

(b) Grafo G5: Grafo bipartido.

Figura 2.5: Grafos G4 e G5.

Define-se um caminho de longitude l como uma sequência de vértices (v0, v1, ..., vl) taisque, para todo i tal que 1 ≤ i ≤ l, (vi−1, vi) ∈ E (se é um dígrafo) ou {vi−1, vi} ∈ E (se é umgrafo não dirigido). Um caminho é simples se todos os vértices do caminho são diferentes. Umciclo é um caminho que começa e acaba no mesmo vértice. Pela Figura 2.5a, pode-se dizer queum exemplo de caminho de longitude 4 que liga o vértice v1 ao vértice v4 é (v1, v2, v3, v4). Umexemplo de ciclo é o caminho (v1, v3, v4, v1), que é um caminho que começa em v1 e terminaem v1.

Matriz de adjacência

Existem diversas estruturas de dados que podem ser utilizadas para representar um grafo,mas uma das mais comuns é a matriz de adjacência. Considere um grafo G cujo conjunto devértices é VG = {v1, v2, ..., vn}. A matriz de adjacência Y associada a este grafo é uma matrizde dimensão n × n, sendo n o número de vértices, ou, n a ordem do grafo. Cada uma dascomponentes da matriz representa uma possibilidade de conexão: a componente yij representa apossibilidade de conexão entre o elemento da linha i e o elemento da coluna j. Os elementosdas linhas e das colunas são os vértices do grafo. Com base no grafo G, a entrada yij da matrizserá igual a 1 se a aresta {vi, vj} ∈ EG e será igual a 0 caso contrário. É importante notar quese o grafo não possui laços, a diagonal principal da matriz de adjacência será composta de zeros.

Já foi dito que um grafo dirigido é formado por pares ordenados de vértices e um grafo nãodirigido por pares não ordenados. Em um grafo não dirigido não existe diferença entre os paresde vértices (vi, vj) e (vj, vi), e portanto é fácil perceber que a matriz de adjacência de um grafonão dirigido é simétrica. No caso de um grafo dirigido, a matriz pode não ser simétrica, poispode existir uma ligação, por exemplo, do vértice vi para o vértice vj , mas não do vértice vj para

17

Page 35: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

o vértice vi.Pode-se obter o grau, grau de entrada e o grau de saída de um vértice a partir da matriz de

adjacência. Dada uma matriz de adjacência Y, o grau de entrada do vértice vi é igual à somada coluna i da matriz Y, ou seja, Y+i =

∑j Yji, e o grau de saída é igual à soma da linha i da

matriz Y, ou seja, Yi+ =∑

j Yij .

2.3 Redes SociaisDe acordo com Aguirre (2011), “Uma rede social é uma estrutura social composta por um

conjunto finito de elementos e formada em torno de uma série de relações entre eles, que podeser representada através de grafos". A análise de redes sociais (ARS), também chamada deanálise estrutural, foca na estrutura das redes sociais para descobrir qual o efeito das relaçõessobre o comportamento dos indivíduos. O grafo que descreve uma rede social é composto porum conjunto de vértices ou nós, que representam os indivíduos ou atores da rede social, e umconjunto de arestas, que expressam as relações entre eles.

Segundo Hoff et al. (2002), uma rede social consiste em um conjunto de n elementose de uma variável aleatória Yij , medida para cada par ordenado (i, j) de elementos, sendoi, j = 1, ..., n. A variável Yij informa se o elemento i está ligado ao elemento j. Nos casos maissimples, Yij é uma variável dicotômica que indica a presença ou ausência de uma determinadarelação de interesse, como por exemplo a amizade entre as pessoas, as alianças entre empresas,ou o comércio entre países. Aqui, podemos definir Yij como sendo:

Yij =

1, se o elemento i está ligado ao elemento j;

0, caso contrário.(2.1)

Note que da maneira como Yij foi definida, o importante é descobrir se existe uma relaçãoentre o elemento i e o elemento j, e não a direção dessa relação, ou seja, se ela foi do elemento ipara o elemento j ou vice-versa. Em alguns modelos, a direção da relação entre os elementos éimportante. Dentro do contexto de rede social, a matriz de adjacência também pode ser chamadade matriz social. Na Figura 2.6a é apresentado um exemplo de rede social. Nessa rede existemtrês elementos: Daniela, Celia e Flávia. As linhas que unem os elementos da rede informam seelas são amigas no Facebook1. Ao invés de serem utilizados nomes para identificar os vérticesdo grafo, rotulam-se os vértices com letra e número. O indivíduo i é representado pelo vérticerotulado como vi. Assim, de acordo com a rede social em 2.6a, Daniela é representada pelo

1www.facebook.com

18

Page 36: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

vértice v1, Celia pelo vértice v2 e Flávia pelo vértice v3. Nas Figuras 2.6b e 2.6c são apresentadosdois exemplos de grafos que podem descrever a rede social apresentada em 2.6a.

Daniela

Celia Flávia

(a) Rede social

v1

v2 v3

(b) G1: grafo direcionado

v1

v2 v3

(c) G2: grafo não-direcionado

Figura 2.6: Rede social e exemplos de grafos possíveis para descrever a rede.

Observe que linhas que unem os atores em 2.6a não possuem uma direção. Quando a direçãodas ligações entre os atores não é relevante, diz-se que a relação é bidirecional. Dado que adireção da ligação não é importante, um grafo não-direcionado é mais apropriado para descreveressa rede social. Portanto, o grafo G2 em 2.6c é o que melhor descreve a rede em 2.6a.

Em uma primeira classificação, as redes sociais são divididas em redes sociais direcionadase não-direcionadas. O Facebook, por exemplo, é uma rede social não direcionada pois a relaçãode amizade nessa rede social é bidirecional, já que a relação de amizade ocorre de ambos oslados. Se, por exemplo, o indivíduo A adiciona o indivíduo B no Facebook e este último aceita,eles se tornarão amigos a partir do momento da aceitação da solicitação de amizade. Já o Twitteré uma rede social direcionada pois a relação de amizade pode ocorrer apenas de um lado. Oindivíduo A pode seguir (uma espécie de adicionar no Twitter) o indivíduo B no Twitter, semque o B tenha que fazer o mesmo. A uma rede social não-direcionada associamos um grafonão-direcionado e a uma rede social direcionada associamos o que chamamos de dígrafo ougrafo direcionado.

Se a rede social é não direcionada e definimos Yij como sendo 1 se existe uma ligação dei para j e 0 caso contrário, as variáveis Yij e Yji são iguais e consequentemente assumem osmesmos valores. Se a rede social é direcionada,Yij e Yji são variáveis diferentes que podem ounão assumir os mesmos valores.

Serão apresentados a seguir dois exemplos com redes sociais distintas. O primeiro exemploserá baseado em uma rede social formada por um conjunto de indivíduos, com uma relaçãode amizade bidirecional cujo interesse é estudar a relação entre todos os indivíduos da rede.O segundo exemplo será baseado em uma rede social formada por dois grupos distintos deindivíduos, com uma relação de amizade unidirecional cujo interesse é estudar as relações

19

Page 37: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

direcionais dos elementos do primeiro conjunto com os elementos do segundo conjunto.

Exemplo 1: Um conjunto de indivíduos, relação de amizade bidi-recional e interesse em estudar a relação entre todos os elementosda rede.

A rede social apresentada abaixo é formada por quatro indivíduos e a relação de amizadeentre eles se dá de maneira bidirecional. Define-se Yij como sendo:

Yij =

1, se existe uma relação de amizade entre o ator i e o ator j;

0, caso contrário.(2.2)

Como existem 4 indivíduos, então i, j = 1, ..., 4 e VG = v1, v2, v3, v4, que são os vértices dografo. Suponha que a rede social em que estão inseridos esses quatro indivíduos seja dada pelaFigura 2.7:

v1

v2 v3

v4

(a) Grafo.

v1 v2 v3 v4

v1 0 1 1 1

v2 1 0 1 0

v3 1 1 0 0

v4 1 0 0 0

(b) Matriz Social.

Figura 2.7: Estrutura de uma rede social com 4 indivíduos.

Como a rede é não-direcionada, os valores das variáveis Yij e Yji são iguais para i, j = 1, ..4..Note que neste exemplo foi avaliada a relação de amizade de cada um dos indivíduos da redecom os outros indivíduos restantes.

O modelo de Barberá (2015), que será apresentado no Capítulo 4, trata do caso em que nãoé necessário avaliar todas as relações da amizade da rede social porque existem relações quegeram pouca informação e por isso elas não serão analisadas.

Exemplo 2: Dois conjuntos de indivíduos e relação de amizadeunidirecional

Os dados que serão utilizados nesta dissertação são provenientes do Twitter, uma rede social

20

Page 38: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

direcionada. Por isso, entender como funciona uma relação de amizade dentro dessa rede éde extrema importância. A rede social apresentada abaixo é formada por dois conjuntos deindivíduos: usuários comuns e os atores políticos que eles seguem no Twitter. No caso em queexistem dois conjuntos de indivíduos diferentes dentro de uma rede social, assuma que o índicei se refere ao primeiro conjunto e o índice j ao segundo. Se o primeiro conjunto é formado porn indivíduos e o segundo porm indivíduos, então i = 1, ..., n e j = 1, ...,m.

Suponha que existem apenas dois usuários comuns denominados de cidadãoA e cidadãoB equatro políticos denominados de João, Maria, Carlos e Bruna. Suponha também que não se teminteresse em avaliar a relação de amizade entre os políticos ou entre os usuários comuns. Tem-seinteresse apenas em avaliar a relação de amizade dos usuários comuns para com os políticos. Ocidadão A segue os políticos João, Maria e Carlos e o cidadão B segue os políticos Carlos eBruna. Para representar esses dois conjuntos de indivíduos em uma matriz de adjacência serápreciso utilizar uma matriz aumentada. A matriz final de interesse será uma parte dessa matrizaumentada. A estrutura da rede social apresentada pode ser vista na Figura 2.8.

Cidadão A Cidadão B

João Maria Carlos Bruna

Figura 2.8: Estrutura da rede social descrita no Exemplo 2.

Define-se Yij como sendo:

Yij =

1, se existe uma relação de amizade do elemento i para o elemento j;

0, caso contrário.(2.3)

O índice i se refere ao primeiro conjunto de dados, que de acordo com a rede social dada serefere aos dois usuários comuns A e B e o índice j se refere aos atores políticos que os usuárioscomuns seguem no Twitter. Assim, i = 1, 2 e j = 1, 2, 3, 4. O número de vértices do grafo éigual a 6. Para representar a rede social através de grafo será preciso rotular cada nó com osvalores de 1 a 6. As representações dos nós são: (v1) Cidadão A, (v1) Cidadão B, (v3) João, (v4)Maria, (v5) Carlos, (v6) Bruna. A rede social em que estão inseridos esses seis indivíduos estáapresentada abaixo:

21

Page 39: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

v1 v2

v3 v4 v5 v6

(a) Grafo referente à rede descrita no Exemplo 2.

Cidadao A Cidadao B Joao Maria Carlos Bruna

Cidadao A − − 1 1 1 0

Cidadao B − − 0 0 1 1

Joao − − − − − −Maria − − − − − −Carlos − − − − − −Bruna − − − − − −

(b) Matriz social aumentada

Figura 2.9: Estrutura da rede social com 6 indivíduos descrita no Exemplo 2.

A parte delimitada na matriz social aumentada será a parte considerada pelo modelo deBarberá (2015), que é a matriz social de interesse. As outras relações foram representadas comtraços porque nesse contexto elas trazem pouca informação para o modelo.

2.4 Modelos de espaços latentesHoff et al. (2002) propuseram um modelo que assume que as relações observadas são

determinadas pelas características latentes não observadas dos atores. As características latentessão as posições desconhecidas dos atores no espaço latente euclidiano. O modelo tambémassume que a probabilidade de ligação entre dois atores é descrita por uma função da distânciadas posições latentes e que dadas as posições latentes de dois atores, a ligação entre eles éindependente das outras ligações da rede, isto é, o modelo assume independência condicional.

22

Page 40: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Considere uma rede formada porN atores (ou nós) e defina yij = 1, se existe uma ligação doelemento i para o elemento j ou yij = 0, caso contrário, para i, j = 1, ..., N . Denota-se por Y amatriz N ×N formada pelos elementos yij , que é chamada de matriz de adjacência ou matrizsocial. Assume-se que o vetor xij = (xij1, xij2, ..., xijL) representa às L covariáveis avaliadasno par (i, j) e X é a matriz que engloba todos esses vetores. Denota-se por Z a matriz N × kcuja i-ésima linha é formada pelo vetor zi de tamanho k, denotando a posição do elemento i noespaço euclidiano de dimensão k. O modelo é definido como:

P (Y|Z,X,θ) =∏i 6=j

P (yi,j|zi, zj, xij,θ), (2.4)

sendo xi,j as características observadas para cada par de atores, e θ e Z os parâmetros e asposições a serem estimados. Para a estimação desses parâmetros, Hoff et al. (2002) assumiramque P (yi,j|zi, zj, xij, θ) é descrito como um modelo logístico e que a probabilidade de ligaçãoentre dois atores depende da distância euclidiana entre zi e zj ,

ηij = log(

P (yij = 1|zi, zj, xij, α, β)

1− P (yij = 1|zi, zj, xij, α, β)

)= α + β

′xij − |zi − zj|.

Note que de acordo com o modelo, quanto menor a distância entre as posições latentes de doisatores, maior é a probabilidade deles estarem conectados. Essa característica está inteiramenteligada ao conceito de homofilia apresentado na Seção 1.1. A homofilia, como já foi visto, é atendência dos indivíduos semelhantes se relacionarem entre si. Para avaliar o quanto a distânciaentre as posições latentes influencia na probabilidade de relação entre os elementos, é possívelincluir uma constante não negativa na modelagem, representada pela letra γ:

ηij = log(

P (yij = 1|zi, zj, xij, γ, α, β)

1− P (yij = 1|zi, zj, xij, γ, α, β)

)= α + β

′xij − γ|zi − zj|.

No modelo de Barberá (2015), que será visto adiante, essa constante γ também está inclusa.

23

Page 41: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Capítulo 3

Revisão de Inferência Bayesiana

Em muitas áreas do conhecimento, o investigador tem interesse em analisar, descrever einterpretar os dados a fim de fazer inferências sobre eles. Em todo processo de inferênciaexiste uma componente de incerteza envolvida e o objetivo do investigador é reduzir essacomponente o máximo possível e também descrevê-la de maneira adequada. Existem duasprincipais abordagens de inferência na estatística: a inferência clássica (ou frequentista) e ainferência bayesiana. As principais diferenças entre essas abordagens e seus principais aspectosem comum serão abordados a seguir.

Ambas as abordagens utilizam modelos com parâmetros desconhecidos para descrever omundo real, isto é, observa-se a matriz social Y com densidade discreta ou contínua na famíliap(y|θ), com θ = (θ1, ..., θk)

′ ∈ Θ ⊂ Rk, sendo Θ o espaço paramétrico de θ. O marco teóricosobre o qual a inferência bayesiana se desenvolve é similar ao da clássica: existem parâmetrospopulacionais sobre os quais se deseja realizar o processo de inferência, descritos pelos vetorθ = (θ1, ..., θk)

′. A principal diferença entre a inferência clássica e a bayesiana é o tratamentodado aos parâmetros desconhecidos que se deseja estimar. Na inferência clássica, os parâmetrossão quantidades fixas e desconhecidas pertencentes a um determinado espaço e na inferênciabayesiana eles são tratados como variáveis aleatórias. O enfoque frequentista não supõe nenhumconhecimento prévio a respeito dos parâmetros, mas o enfoque bayesiano assume incertezados parâmetros que é representada pela priori. A distribuição a priori pode ser baseada emexperiências prévias similares ou pode apenas expressar uma crença subjetiva do investigador.

A metodologia bayesiana envolve três passos principais:

1º passo: escolher um modelo probabilístico para p(y|θ), a função de verossimilhança.

24

Page 42: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

2º passo: escolher um modelo probabilístico para p(θ), a distribuição a priori.

3º passo: aplicar a regra de Bayes e calcular p(θ|y), a distribuição a posteriori.

Denota-se o espaço paramétrico por Θ e cada valor específico do parâmetro por θ. Ainformação amostral é representada por variáveis aleatórias com função de densidade oufunção de distribuição de probabilidade denotada por p(y|θ). No enfoque bayesiano p(y|θ) éinterpretada como a distribuição condicional da amostra y dado θ.

Uma vez observada a amostra y, é possível calcular a distribuição condicional de θ dado y.Essa distribuição é conhecida como distribuição a posteriori e é denotada por π(θ|y). Para obteressa distribuição, é necessário assumir uma distribuição a priori p(θ) para o vetor de parâmetrosθ, que representa o conhecimento ou ausência de conhecimento prévio que se tem sobre osparâmetros e estabelecer um modelo observacional p(y|θ) que representa a probabilidade de seobservar uma determinada amostra dado θ. O modelo observacional, quando considerado umafunção de θ, também é conhecido como função de verossimilhança. Para obter a distribuição aposteriori, utiliza-se o teorema de Bayes, que permite agregar o conhecimento prévio sobre θ eas informações provenientes da amostra. Dessa maneira tem-se que

π(θ|y) =p(y|θ)p(θ)

p(y),

sendo

p(y) =

∫Θ

p(y|θ)p(θ)dθ.

Observe que p(y) é uma constante de normalização que não depende de θ.

3.1 Estimação PontualO objetivo aqui é utilizar a distribuição a posteriori para obter um estimador pontual para

Θ. Seja Θ o espaço paramétrico ou espaço de estados da natureza, A o conjunto de decisõespossíveis, chamado de espaço de ações do tomador de decisão e a ∈ A uma ação. Associada comcada estimador a existe uma função perda L : Θ×A 7→ [0,+∞), L(θ, a), que é interpretadacomo a perda sofrida ao estimar θ por a. Define-se a perda esperada a posteriori como:

E[L(θ, a)|y] =

∫Θ

L(θ, a)π(θ|y)dθ

25

Page 43: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

e o estimador pontual de θ é obtido através da minimização dessa perda esperada.Existem muitas funções perdas que podem ser utilizadas. A escolha particular de uma delas

depende do contexto do problema. As mais comumente usadas são:

• Função de perda quadrática: L(θ, a) = (θ − a)2

• Função de perda absoluta: L(θ, a) = |θ − a|

• Função de perda 0-1: L(θ, a) =

1, se |θ − a| > ε ;

0, se |θ − a| ≤ ε, sendo ε ≥ 0.

3.1.1 Estimadores de Bayes

O estimador de Bayes de θ é definido como aquele valor a = a(y) ∈ Θ que minimiza aperda esperada a posteriori, ou seja,

E[L(θ, a(y))|y] = mina∈Θ

E[L(θ, a(y)].

Os estimadores para as três funções de perda dadas acima são:

• Função de perda quadrática: o estimador de Bayes é a média a posteriori

θ∗(y) = E(θ|y).

• Função de perda absoluta: o estimador de Bayes é a mediana a posteriori

θ∗(y) = mediana(θ|y).

• Função de perda 0-1: o estimador de Bayes é a moda a posteriori

θ∗(y) = moda(θ|y).

Nesta dissertação utiliza-se a média a posteriori como estimador pontual das quantidadesdesconhecidas dos modelos.

26

Page 44: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

3.1.2 Estimação intervalar

Outra maneira de estimar um parâmetro consiste em buscar não apenas um valor para θ,mas sim um conjunto de valores, um intervalo, no qual se tem alta probabilidade de encontrarθ. Suponha que θ é uma quantidade desconhecida definida em Θ. Uma região C ∈ Θ é umintervalo de credibilidade ou um intervalo bayesiano 100(1− α)% para θ se:

P (θ ∈ C|y) ≥ 1− α

Neste caso 1−α é chamado de nível de confiança ou credibilidade. No caso escalar, a regiãoC é dada pelo intervalo [c1, c2].

O intervalo de máxima densidade a posteriori (HPD) e 100(1− α)% para θ, é o intervalobayesiano dado por:

C = {θ ∈ Θ : P (θ|y) ≥ k}

onde k é o maior número tal que∫θ:P (θ|y)≥k

P (θ|y)dθ = 1− α

3.2 Métodos de Monte Carlo via cadeias de MarkovOs métodos de Monte Carlo via Cadeias de Markov (MCMC, abreviação do inglês) são

métodos de simulação que permitem obter amostras de distribuições de probabilidade que nãosão conhecidas ou que não possuem uma forma analítica fechada. No contexto bayesiano, osmétodos MCMC são utilizados para gerar amostras da distribuição a posteriori π(θ|y) paraconseguir estimar quantidades de interesse a posteriori, como por exemplo, a média a posteriori.A ideia fundamental dos métodos MCMC é a geração de uma cadeia de Markov cuja densidadeestacionária coincide com a densidade que se deseja amostrar. Uma cadeia de Markov a tempodiscreto é uma sucessão de variáveis aleatórias Xn, n 6= 1 que tomam valores em um conjuntofinito ou enumerável ε, conhecido como espaço de estados, e que satisfaz a seguinte propriedade

P (Xn+1 = j|X0 = i0, ..., Xn−1 = in−1, Xn = in) = P (Xn+1 = j|Xn = in) (3.1)

para todo n e para quaisquer estados i0, i1, ..., in, j em ε. A propriedade 3.1 é conhecida como apropriedade de Markov, que assume que o estado futuro depende apenas do estado presente e

27

Page 45: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

independe dos estados passados.Suponha que existe o interesse em simular valores de uma distribuição a posteriori π(θ|y).

Os métodos MCMC consistem em simular uma cadeia de Markov (θ(t))t∈N cuja distribuiçãoestacionária é a distribuição de interesse π(θ|y). Cada valor simulado, θ(t), depende apenas doseu antecessor, θ(t−1). Se o algoritmo for implementado de maneira correta, a convergência dacadeia está garantida, independentemente dos valores iniciais (Tierney, 1994). Nessa situação,existe um valor b ∈ N suficientemente grande, tal que, θ(b),θ(b+1),θ(b+2), ... ∼ π(θ|y). Nanotação dos métodos MCMC, b recebe o nome de burn-in ou período de aquecimento e indica onúmero de iterações necessárias para que a cadeia convirja para a distribuição estacionária. Osprimeiros b valores da cadeia serão descartados e serão considerados apenas os valores restantes.

As cadeias de Markov que são utilizadas nos métodos MCMC geralmente possuem umespaço de estados contínuo. Tierney (1994) mostra que os algoritmos convergem para uma dis-tribuição ergódica estacionária π(θ|y) sujeita a três condições de regularidade: irredutibilidade,aperiodicidade e invariância. Para evitar a autocorrelação entre os valores simulados, isto é,para obter uma amostra aproximadamente independente de π(θ|y), pode-se selecionar valoresigualmente espaçados. Pode-se determinar um valor k, conhecido como thin, que informa acada quantas iterações um valor da cadeia deve ser selecionado para compor a amostra. Ao final,a amostra será formada pelos valores gerados da cadeia a cada k-ésima iteração após o períodode aquecimento, ou seja, θ(b+1), θ(b+k+1),θ(b+2k+1) e assim por diante. Dois métodos MCMCbastante populares são o algoritmo de Metropolis-Hastings e a amostragem de Gibbs.

3.2.1 Algoritmo de Metropolis-Hastings

O algoritmo de Metropolis foi originalmente proposto por Metropolis et al. (1953) emodificado por Hastings (1970). Este método geralmente é utilizado quando se deseja obter umaamostra de uma distribuição de probabilidade que não é conhecida. Assuma que p(θ) é umafunção de probabilidade ou função densidade de probabilidade de interesse, da qual deseja-seobter uma amostra de valores. Como não é possível amostrar diretamente de p(θ), o algoritmoutiliza uma distribuição auxiliar para gerar uma amostra aproximada de p(θ). Essa distribuiçãoauxiliar é denominada densidade proposta e é representada por q(θ). Como já foi abordadoacima, os métodos MCMC trabalham com cadeias de Markov e portanto é necessário conhecero valor atual da cadeia para começar a geração de valores. Suponha que o valor atual da cadeiade Markov é θ(t−1) e deseja-se atualizar esse valor para θ(t). Essa atualização será feita combase em q(.|θ(t−1)), que é a densidade proposta. O valor gerado a cada iteração é representadopor θ∗. O algoritmo de Metropolis-Hastings pode ser resumido da seguinte maneira:

28

Page 46: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

1. Defina um valor inicial θ(0) para a cadeia de Markov;

2. Inicialize o contador t = 1;

3. Gere um valor proposto θ∗ a partir da densidade proposta q(θ|θ(t−1)).

4. Calcule a probabilidade de aceitar o valor proposto

α = mín

{1,

p(θ∗)q(θ(t−1)|θ∗)p(θ(t−1))q(θ∗|θ(t−1))

}

5. Gere um valor u da U(0, 1);

6. O novo valor θ(t) será

θ(t) =

θ∗, se u ≤ α;

θ(t−1), se u > α.

7. Faça t = t+ 1;

8. Repita os passos de 3 a 7 até que a convergência seja obtida e até obter o tamanho deamostra necessário para a inferência.

Em teoria se pode utilizar qualquer densidade proposta q(.|.). O mais importante é que sejafácil amostrar dessa densidade e que ela seja capaz de gerar valores que serão aceitos. Caso issonão aconteça, a cadeia pode passar largos períodos de tempo em um mesmo estado. Por isso, adesvantagem desse algoritmo é que dependendo da escolha da distribuição proposta, o númerode valores rejeitados pode ser muito alto e isso fará com que a cadeia quase não se mova. Paramaiores informações sobre algoritmo de Metropolis veja Gamerman e Lopes (2006).

3.2.2 Amostragem de Gibbs

A amostragem de Gibbs tem suas origens no artigo de Geman e Geman (1984), que tratado processamento de imagens. Neste artigo os autores utilizaram o algoritmo para simularvalores de uma distribuição de Gibbs e por isso o algoritmo recebeu o nome de amostragemde Gibbs. Entretanto, o algoritmo só ganhou notoriedade na área da estatística a partir dotrabalho de Gelfand e Smith (1990), que foram os primeiros autores a mostrar a generalização doalgoritmo, isto é, que ele poderia ser utilizado para gerar valores de outras distribuições que não adistribuição de Gibbs. A amostragem de Gibbs é um caso particular do algoritmo de Metropolisem que as distribuições condicionais completas assumem o papel da distribuição proposta e onde

29

Page 47: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

a probabilidade de aceitação de cada valor gerado é 1. A ideia do algoritmo é transformar umproblema multivariado em uma sequência de problemas de menor dimensão e de fácil resolução.Seja π(θ|y) a distribuição de interesse da qual deseja-se amostrar, θ = (θ1, ..., θk)

′. Seja θ−l ovetor composto por todos os elementos de θ, exceto θl, isto é, θ−l = (θ1, θ2..., θl−1, θl+1, ..., θk)

′.Sejam p(θl|y,θ−l) as distribuições condicionais completas que são assumidas serem conhecidas.Suponha que para todo l = 1, ..., k seja possível simular da distribuição condicional completap(θl|y,θ−l). A amostragem de Gibbs consiste em um esquema iterativo de amostragem baseadoem sucessivas gerações das distribuições condicionais completas. Pode-se descrever o algoritmoda seguinte maneira:

1. Defina um vetor de valores iniciais para θ

θ(0) = (θ(0)1 , ..., θ

(0)k )′

2. Inicialize o contador em t = 1;

3. Obtenha θ(t) = (θ(t)1 , ..., θ

(t)k )′ através das sucessivas gerações das distribuições condicio-

nais completas, ou seja,

θ(t)1 ∼ π(θ1|y, θ(t−1)

2 , θ(t−1)3 , ..., θ

(t−1)k )

θ(t)2 ∼ π(θ2|y, θ(t)

1 , θ(t−1)3 , ..., θ

(t−1)k )

...

θ(t)k ∼ π(θk|y, θ(t)

1 , θ(t)2 , ..., θ

(t)k−1)

4. Faça t = t+ 1;

5. Repita os passos de 3 e 4 até que a convergência seja obtida e até obter o tamanho deamostra necessário para a inferência.

Após a convergência, todos os valores resultantes formam uma amostra de π(θ|y). Como naamostragem de Gibbs a probabilidade de aceitação de cada valor gerado é igual a 1, a cadeiasempre se moverá (Brown e Draper, 2000). A construção do algoritmo depende do conhecimentodas distribuições condicionais completas, então se essas distribuições não são conhecidas, épossível utilizar amostragem de Gibbs com passos de Metropolis.

Para maiores detalhes sobre os métodos MCMC veja Gamerman e Lopes (2006) e Robert eCasella (2009).

30

Page 48: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

3.3 Critérios de seleção de modelosExistem muitos métodos para comparação e seleção de modelos. Não existe uma opinião

unânime sobre qual é o melhor critério para seleção de modelos, por isso aqui serão consideradoscritérios de informação e critérios preditivos. De acordo com García et al. (2014), os critériosde informação são funções do logaritmo da verossimilhança e possuem um termo de penalidadebaseado no número de parâmetros do modelo. Eles medem o ajuste de um modelo maximizandoo valor da função de verossimilhança com o uso de diferentes funções de penalidade. Os critériospreditivos utilizam os valores preditivos no cálculo. Nesta dissertação serão consideradoscritérios que possam ser obtidos via métodos MCMC, que são: o critério de informação dodesvio (DIC), Spiegelhalter et al. (2002), e o logaritmo da verossimilhança pseudo marginal(LPML), Ibrahim et al. (2001).

3.3.1 Critério de informação do desvio

O critério de informação do desvio (DIC), proposto por Spiegelhalter et al. (2002), é umcritério bayesiano baseado no desvio. É uma generalização do critério de informação de Akaike(AIC). O desvio é obtido a partir da seguinte equação:

D(θ) = −2logL(θ|y) + 2logf(y)

sendo L(θ|y) a verossimilhança e logf(y) um termo que depende unicamente dos dados. Comologf(y) não depende do vetor paramétrico θ, o termo 2logf(y) pode ser tratado como umaconstante. O DIC é calculado através da soma de duas componentes. A primeira é uma medidade adequação do modelo, chamada de desvio médio a posteriori e representada por D. Asegunda é uma medida de penalidade, chamada de número efetivo de parâmetros do modelo erepresentada por pD. As duas componentes são dadas pelas seguintes expressões:

D = Eθ|y[D(θ)] = Eθ|y[−2logL(θ|y) + 2logf(y)], e

pD =Eθ|y[D(θ)]−D(Eθ|y(θ))

=Eθ|y[−2logL(θ|y) + 2logf(y)] + 2logL(θ|y)

=D −D(θ).

A componente D(θ) utilizada no cálculo do pD representa o desvio avaliado em θ, que é

31

Page 49: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

a média a posteriori de θ. É possível estimar D e D(θ) utilizando amostras da distribuição aposteriori. Seja (θ(1),θ(2), ...,θ(L)) amostra da distribuição a posteriori, sendo L o tamanho daamostra. Utilizando essa amostra, pode-se aproximar a medida D e D(θ) por:

D ≈ L−1

L∑l=1

−2logL(θ(l)|y),

D(θ) ≈ D

(L−1

L∑l=1

θ(l)

).

Finalmente o critério de informação do desvio de um modelo é definido como:

DIC = D + pD = 2D −D(θ) = D(θ) + 2pD

De acordo com este critério, o modelo com melhor ajuste será aquele com o menor valor deDIC.

3.3.2 Logaritmo da verossimilhança pseudo marginal

Para avaliar o desempenho dos modelos propostos também será utililizada a estatísticalogaritmo da verossimilhança pseudo marginal (LPML, abreviação do inglês). A estatísticaordenada preditiva condicional (CPO, abreviação do inglês) é uma ferramenta muito útil para aseleção de modelos que tem sido largamente utilizada na área da estatística em muitos contextose que é utilizada no cálculo do LPML. Uma descrição detalhada de como calcular o CPO podeser encontrada em Gelfand et al. (1992) e em Chen et al. (2012). Suponha que os dados y sãocompostos pelas observações y1, y2, ..., yn, assuma que condicionalmente a θ essas observaçõessão independentes e que y−i representa o conjunto de dados y sem a i-ésima observação yi.Desse modo, o CPO para a i-ésima observação é definido como:

CPOi = f(yi|y−i) =

[f(yi, y−i)f(y−i)

]=

[f(y)

f(y−i)

]=

[f(y−i)f(y)

]−1

=

[∫f(y−i|θ)f(θ)

f(y)dθ

]−1

=

[∫1

f(yi|θ)

f(y|θ)f(θ)

f(y)dθ

]−1

=

[∫1

f(yi|θ)f(θ|y)dθ

]−1

=

[Eθ|y

(1

f(yi|θ)

)]−1

32

Page 50: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

sendo f(yi|y−i) a distribuição preditiva de yi, dadas as outras observações da amostra. Um valoralto de CPOi indica um bom ajuste do modelo. Chen et al. (2012) mostraram que o CPOi podeser aproximado por:

CPOi =

[1

L

L∑l=1

1

f(yi|θ(l))

]−1

em que θ(l), l = 1, ..., L é uma amostra da distribuição a posteriori de θ.De acordo com Upadhyay et al. (2015), a informação fornecida pelo CPOi sobre o ajuste do

modelo pode ser sumarizada usando a estatística LPML representada por:

LPML =n∑i=1

log(CPOi)

sendo n o tamanho da amostra observada. Um valor alto de LPML indica um melhor modelo(maior capacidade preditiva).

3.4 Diagnósticos de ConvergênciaQuando se executa um algoritmo MCMC, é importante verificar se os valores simulados

convergem para a distribuição estacionária π(θ|y). Existem vários procedimentos na literaturapara estudar a convergência de uma cadeia. A seguir será apresentado um breve resumo dosprocedimentos utilizados nesta dissertação para avaliar a convergência das cadeias.

3.4.1 Análise visual

Uma inspeção visual dos traços (representação gráfica como uma série temporal, dos valoresgerados a cada iteração) das cadeias é uma forma simples de monitorar a convergência. Aobservação das trajetórias de diferentes cadeias partindo de valores iniciais distintos permiteverificar se existe uma mistura das cadeias à medida que aumenta o número de iterações,indicando convergência em distribuição. Quando o traço da cadeia tem uma aparência aleatóriae estacionária, diz-se que existe indício de convergência.

3.4.2 Critério de Raftery e Lewis

Raftery e Lewis (1992) desenvolveram um método que determina o número de iteraçõesnecessárias para se obter a convergência, o número de iterações iniciais que devem ser descartadas(burn-in) e a distância mínima de uma iteração à outra para se obter uma amostra independente

33

Page 51: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

(thin). Essa distância mínima é representada pela letra k e também pode ser chamada de fator dedependência. Esses valores são calculados garantindo que um quantil q seja estimado com umaprecisão r pré especificada, com probabilidade s. Para obter esses valores é necessário:

1. Especificar o quantil de interesse q (por exemplo, o quantil 0,025).

2. Especificar a precisão r para o quantil de interesse (por exemplo, se r = 0, 005, entãosignifica que deseja-se estimar o quantil 0,025 com precisão de ±0, 005).

3. Especificar a probabilidade s tal que q ∈ [q − r, q + r].

4. Calcular o comprimento mínimo da cadeia:

nmin =

[φ−1

(s+ 1

2

) √q(1− q)r

]2

.

sendo φ−1(.) a inversa da função de distribuição acumulada da normal padrão.Nesta dissertação será utilizado o programa JAGS1 (Just Another Gibbs Sampler, (Plummer,

2009)) e o pacote rjags (Plummer, 2013) do software estatístico livre R (Team, 2014) pararealizar as análises.

1http://mcmc-jags.sourceforge.net/

34

Page 52: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Capítulo 4

Metodologia

4.1 Modelos ajustadosBarberá (2015) propôs um modelo que permite a estimação das posições ideológicas dos

usuários comuns com base em quem eles seguem no Twitter. Assuma que cada usuárioi ∈ {1, ..., n} do Twitter pode escolher entre seguir ou não seguir outro usuário j ∈ {1, ...,m}.Nesta dissertação o índice i se refere aos deputados federais e aos senadores que possuem contano Twitter e o índice j aos atores políticos que possuem conta no Twitter. Para relembrar, osatores políticos são os formadores de opinião, isto é, partidos políticos, políticos, principaisjornais e revistas, pessoas influentes, etc.

Seja Yij uma variável dicotômica que informa se usuário i segue o ator político j no Twitter.Note que essa variável analisa se o usuário j é um following (amigo) do usuário i. Assim,define-se Yij como sendo:

Yij =

1, se o usuário i segue o ator político j no Twitter (i→ j);

0, caso contrário (i 6→ j).(4.1)

O conjunto com todas as variáveis Yij’s formam a rede de conectividade ou a rede social. Ahipótese chave do modelo de Barberá (2015) assume que o Twitter é uma rede social homofílica.No contexto desta dissertação, assumir homofilia é o mesmo que dizer que os usuários comunsdo Twitter preferem seguir atores políticos que tenham posições ideológicas similares às deles.Portanto, o valor da variável Yij é influenciado pelo grau de semelhança entre as posiçõesideológicas do usuário i e do ator político j. Quanto mais próximas forem as posições ideológicasdesses dois indivíduos, mais provável será a relação de amizade entre eles.

Seja θi a posição ideológica (ou ponto ideal) do usuário i e φj , o ponto ideal do ator

35

Page 53: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

político j. Assume-se também que θi, φj ∈ <, ou seja, que a posição ideológica é uma variávelunidimensional (Poole e Rosenthal, 2000).

Com base na hipótese de homofilia, a probabilidade de um usuário i seguir ou não umdeterminado ator político j será função da distância euclidiana das posições ideológicas dessesdois usuários comuns: d(θi, φj) = γ‖θi − φj‖2, sendo γ uma constante de normalização.

A probabilidade do usuário i siga o ator político j também será função de duas outrasquantidades: αi e βj . O parâmetro αi mede o nível de interesse político do usuário i e βj mede apopularidade do ator político j. O primeiro leva em conta que alguns usuários comuns são maispoliticamente ativos do que outros, isto é, mais interessados em política. O segundo leva emconsideração o fato de que alguns atores políticos são mais provavelmente seguidos que outros,devido à popularidade do usuário do Twitter. Para evidenciar isso, Barberá (2015) comentaque o presidente dos Estados Unidos, Barack Obama, é mais provável de ser seguido que ummembro do congresso, pelo simples fato de que o presidente é mais popular nas redes sociaisqualquer um dos membros do congresso.

Nenhuma das quantidades descritas até aqui podem ser estimadas diretamente, pois sãoquantidades latentes. Portanto, existe o interesse em estimar, condicional aos dados observados,os valores de α = (α1, ..., αn)′, β = (β1, ..., βm)′, θ = (θ1, ..., θn)′, φ = (φ1, ..., φm)′ e γ.

Como Yij é uma variável binária que só pode assumir dois valores, sucesso (seguir) oufracasso (não seguir), pode-se dizer que Yij segue uma distribuição Bernoulli com média igual aπij , isto é: Yij|πij ∼ Bernoulli(πij) com E(Yij) = πij , i = 1, 2, ..., n e j = 1, 2, ...,m.

A probabilidade de que o usuário i siga o perfil do ator político j é formulada como:

P (yij = 1|αi, βj, γ, θi, φj) = πij =Ψ(αi + βj − γ×d(θi, φj))

=Ψ(αi + βj − γ‖θi − φj‖2)

=Ψ(ηij),

(4.2)

sendo ηij = αi + βj − γ‖θi − φj‖2 e Ψ uma função definida nos reais cuja imagem pertence aointervalo [0, 1]. O inverso de Ψ, ou seja, Ψ−1 é chamado de função de ligação. Serão ajustadostrês modelos nesta dissertação, o modelo do Barberá (M1) que considera função de ligaçãologit, o modelo de Imai et al. (2016) (M2) que considera função de ligação probit e o modeloproposto (M3) nesta dissertação, que considera como função de ligação a inversa da função dedistribuição acumulada t-Student. Então, os três modelos que serão ajustados são definidos por:

• M1 = Ψ−1(πij) = logit(πij) = log(

πij1−πij

);

36

Page 54: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

• M2 = Ψ−1(πij) = probit(πij) = Φ−1(πij), sendo Φ a função de distribuição acumuladada normal padrão; e

• M3 = Ψ−1(πij) = F−11 (πij), sendo F1 a função de distribuição acumulada da t-Student

com 1 grau de liberdade.

Na Figura 4.1 são apresentadas as curvas do inverso das três funções de ligações:

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

probitlogitt−Student

Figura 4.1: Curvas do inverso das funções de ligações probit, logit e t-Student.

Pela Figura 4.1 é possível observar que as três curvas diferem nas caudas, isto é, nasprobabilidades referentes aos valores extremos. De acordo com Stock e Watson (2004), afunções de ligação logit e probit são semelhantes, exceto pela função utilizada para o cálculoda probabilidade. Elas são ditas semelhantes pois a curva logit tem a cauda ligeiramentemais pesada que a probit, produzindo uma estimação mais robusta. Em relação aos modelos,pode-se afirmar que o modelo logit é mais robusto que o modelo probit. O modelo t-Student éconsiderado mais robusto do que os outros dois modelos, pois permite acomodar valores maisextremos. Espera-se que o modelo t-Student produza uma estimação robusta que permita umamaior separabilidade entre os indivíduos mais extremos na escala latente.

37

Page 55: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

4.2 Distribuição a posteriori

Nos três modelos é assumida independência local, ou seja, dados os parâmetros, as decisõesdos usuários comuns em seguir atores políticos distintos são estatisticamente independentes.Portanto, assumindo independência local, a função de verossimilhança é dada por:

p(y|θ,φ,α,β, γ) =n∏i=1

m∏j=1

πyijij (1− πij)1−yij ,

com y representando o vetor de dados observados yij para i ∈ {1, ..., n} e j ∈ {1, ...,m}. Oenfoque bayesiano será utilizado para a inferência das quantidades desconhecidas do modelo.Para completar o modelo, define-se a distribuições a priori como γ∼G(aγ, bγ), αi∼N (µα, σ

2α),

θi∼N (µθ, σ2θ) para i = 1, 2, ..., n, e βj∼N (µβ, σ

2β) e φj∼N (µφ, σ

2φ) para j = 1, 2, ...,m.

A distribuição a posteriori é, portanto, dada por

p(θ,φ,α,β, γ|y) ∝ p(y|θ,φ,α,β, γ)p(θ,φ,α,β, γ,µ,σ)

=n∏i=1

m∏j=1

πyijij (1− πij)1−yij

×n∏i=1

[N (αi|µα, σ2

α)N (θi|µθ, σ2θ)]

×m∏j=1

[N (βj|µβ, σ2

β)N (φj|µφ, σ2φ)]G(γ|aγ, bγ),

com N (x|µ, σ2) representando a função de densidade de probabilidade da variável X comdistribuição normal com média µ e variância σ2, e G(x|a, b) a função de densidade deprobabilidade da variável X com distribuição gama com média a/b e variância (a/b2).

Como a distribuição a posteriori não possui uma forma analítica fechada, a inferência dosparâmetros será feita através da amostra desta distribuição a posteriori obtida por métodos deMonte Carlo via cadeias de Markov.

4.3 Problemas de identificaçãoAlguns modelos paramétricos são não-identificáveis. Um modelo paramétrico é dito ser

não-identificável quando a expressão matemática do modelo permite que vários valores deparâmetros levem ao mesmo valor da verossimilhança. Neste caso não é possível identificar qualdos valores é o mais verossímil gerador dos dados da amostra. Se o modelo é não-identificável,pode ser possível identificá-lo reparametrizando-o ou impondo restrições sobre os parâmetros.

38

Page 56: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Os problemas de identificação existentes nos modelos tratados nesta dissertação são: additivealising, multiplicative alising e reflection invariance (Bafumi et al., 2005). Para resolver essesproblemas de identificação, alguns hiperparâmetros terão seus valores fixados.

• Additive Alising em α e β: o modelo é invariante a soma de uma constante k aos parâmetrosα’s e β’s.

P (yij = 1|αi, βj, γ, θi, φj) =Ψ(αi + βj − γ‖θi − φj‖2)

=Ψ((αi + k)︸ ︷︷ ︸α∗i

+ (βj − k)︸ ︷︷ ︸β∗j

−γ‖θi − φj‖2)

Observe que os vetores (αi, βj, γ, θi, φj) e (αi∗, βj

∗, γ, θi, φj) levam ao mesmo valor daverossimilhança. Conforme apresentado em Barberá (2015), para resolver esse problemade identificação, é possível fixar o valor de µα ou o valor de µβ. Também é possívelimpor uma restrição linear nos α’s ou nos β’s, como por exemplo fixar α1 = 0 ouβ1 = 0 ou impor uma restrição sobre a soma, como por exemplo assumir

∑ni=1 αi = 0 ou∑m

j=1 βj = 0. Optou-se em fixar o valor de µα em 0.

• Additive Alising em θ e φ: o modelo é invariante a soma de uma constante k aos θ’s e φ’s.

P (yij = 1|αi, βj, γ, θi, φj) =Ψ(αi + βj − γ‖θi − φj‖2)

=Ψ(αi + βj − γ‖ (θi + k)︸ ︷︷ ︸θ∗i

− (φj + k)︸ ︷︷ ︸φ∗j

‖2) (4.3)

Observe que os vetores (αi, βj, γ, θi, φj) e (αi, βj, γ, θi∗, φj

∗) levam ao mesmo valor daverossimilhança. Para resolver esse problema de identificação é necessário fixar o valor deµθ ou o valor de µφ. Também é possível resolver esse problema fixando θ1 = 1 ou φ1 = 1.Optou-se em fixar o valor de µθ em 0 (Barberá, 2015).

• Multiplicative Alising: o modelo é invariante a multiplicação de constante k 6= 0.

P (yij = 1|αi, βj, γ, θi, φj) =Ψ(αi + βj − γ‖θi − φj‖2)

=Ψ(αi + βj − (γ

k2︸︷︷︸γ∗

)× ( θik︸︷︷︸θ∗i

− φjk︸︷︷︸φ∗j

)2) (4.4)

39

Page 57: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Observe que os vetores (αi, βj, γ, θi, φj) e (αi, βj, γ, θi∗, φj

∗) levam ao mesmo valor daverossimilhança. Para resolver esse problema de identificação é necessário fixar o valorde σ2

θ ou o valor de σ2φ. Também é possível resolver esse problema fixando θ1 = −1 ou

φ1 = −1. Optou-se em fixar o valor de σ2θ em 1 (Barberá, 2015). No caso especial em

que k = −1, é possível chamar esse problema de reflection invariance.

Aos outros hiperparâmetros restantes foram atribuídas distribuições a priori vagas. As distri-buições a priori atribuídas a esses hiperparâmetros foram: µβ∼N (0; 1000), σ2

α∼GI(0, 01; 0, 01),σ2β∼GI(0, 01; 0, 01), µφ∼N (0; 1000), σ2

φ∼GI(0, 01; 0, 01) e γ∼G(0, 01; 0, 01).

40

Page 58: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Capítulo 5

Estudo de Simulação

Neste capítulo será apresentado um estudo simulação para avaliar a eficiência dos modeloslogit, probit e t-Student, apresentados no Capítulo 4. O objetivo deste estudo é analisar ocomportamento das estimativas bayesianas dos parâmetros, isto é, dos θ’s, α’s, β’s, φ’s e γ, combase no erro quadrático médio e na taxa de cobertura e comparar os três modelos através doscritérios DIC e LPML. Os dados para o estudo de Monte Carlo, também chamados de réplicasde Monte Carlo, foram gerados a partir dos três modelos, considerando o mesmo tamanho de nem.

Antes da realização do estudo de simulação, realizou-se uma análise de sensibilidade emtorno do hiperparâmetro µβ, para escolher um valor que fosse capaz de refletir a hipótese dehomofilia assumida nos modelos.

5.1 Análise de sensibilidadeNesta seção serão avaliadas as estruturas das matrizes sociais (dados simulados) em função

dos valores de µβ e o quanto essas estruturas influenciam na qualidade do ajuste.Foram geradas R = 5 réplicas de Monte Carlo a partir dos três modelos, com n = 200

e m = 20 e para quatro valores diferentes de µβ: µ∗β = (0, 1, 2, 3). Portanto, 20 réplicas deMonte Carlo foram geradas a partir do modelo logit: cinco réplicas considerando µβ = 0, cincoréplicas considerando µβ = 1, cinco réplicas considerando µβ = 2 e cinco réplicas considerandoµβ = 3. O mesmo vale para os dados probit e t-Student. Os dados foram gerados com aseguinte configuração de hiperparâmetros e do parâmetro γ: µα = 0, σ2

α = 0, 25, σ2β = 0, 25,

µθ = 0, σ2θ = 1, µφ = 0, σ2

φ = 3, 25 e γ = 0, 8. Considerou-se o ajuste dos conjuntos dedados logit ao modelo logit, dos conjuntos de dados probit ao modelo probit e dos conjuntos de

41

Page 59: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

dados t-Student ao modelo t-Student. Para cada conjunto de dados , considerou-se 3 cadeiasde Markov de tamanho 25.000, com um período de aquecimento (burn-in) de 5.000, e umadefasagem de 50, resultando em uma amostra final de tamanho 1.200. Para cada réplica foramobtidos a média e o desvio padrão a posteriori dos parâmetros e o viés relativo médio (VRM),

dado por V RM(θ) =R∑i=1

(θ(i) − θv)2/(|θv|R), sendo θ o parâmetro de interesse, θ(i) a média da

distribuição a posteriori do parâmetro θ para a réplica i, θv o valor verdadeiro do parâmetro θ eR o número de réplicas de Monte Carlo.

Para analisar a influência de µβ sobre a composição de uma dada matriz social, assumiu-seque suas linhas e colunas foram reorganizadas, seguindo a mesma ordem dos parâmetros θ’s eφ’s verdadeiros. Ao final, cada matriz ficou dividida em quatro partes como apresentado naTabela 5.1.

Tabela 5.1: Composição da matriz social para avaliar a influência de µβ .

θ’s verdadeiros

φ’s verdadeiros︷ ︸︸ ︷- +

- Esquerda-Esquerda Esquerda-Direita+ Direita-Esquerda Direita-Direita

Emcadamatriz é esperado que a proporção de 1’s no primeiro (esquerda-esquerda) e no quarto(direita-direita) quadrantes sejam superior à proporção de 1’s no segundo (esquerda-direita) eterceiro (direita-esquerda) quadrantes, devido a hipótese de homofilia.

A Tabela 5.2 apresenta a proporção de 1’s em cada quadrante de cada um dos conjuntos dedados gerados para diferentes valores de µβ. Note que quanto maior o valor de µβ, maior é aproporção de 1’s em cada quadrante de cada um dos conjuntos de dados gerados. À medida queµβ aumenta, a soma das colunas também aumenta, indicando que os atores políticos estão sendomais seguidos pelos usuários comuns. Avaliando a influência de µβ sobre a esparsidade damatriz, pode-se afirmar que quanto maior o valor µβ , menor é a quantidade de zeros na matrizsocial e portanto menos esparsa é a matriz social. É importante acrescentar que toda essa análisetambém poderia ter sido feita com µα.

Para construir a Tabela 5.2 foi necessário primeiramente ordenar os valores verdadeiros dosθ’s e dos φ’s para descobrir o número máximo de ligações (1’s) em cada quadrante de cadamatriz social. Dos θ’s verdadeiros, 103 são negativos e 97 são positivos e dos φ’s verdadeiros,9 são negativos e 11 são positivos. A proporção de 1’s foi calculada com base na quantidademáxima de ligações em cada quadrante, que está descrita na Tabela 5.3.

42

Page 60: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Tabela5.2:

Prop

orçãode

1’se

mcada

quadrantede

umdeterm

inadoconjun

tode

dado

sreorganizadocom

base

nosv

alores

verdadeirosd

osθ’se

dosφ

’s.

Dado

slog

itDa

dosp

robit

Dado

st-Stude

nt

Esquerda

Esquerda-

Dire

itaDire

ita-

Esquerda

Dire

itaEs

querda

Esquerda-

Dire

itaDire

ita-

Esquerda

Dire

itaEs

querda

Esquerda-

Dire

itaDire

ita-

Esquerda

Dire

ita

µβ

=0

Dado1

38,4%

12,0%

11,0%

33,6%

35,2%

6,80

%8,25

%31

,7%

38,6%

14,7%

13,7%

33,6%

Dado2

39,7%

11,1%

12,6%

34,5%

34,4%

6,53

%7,79

%29

,5%

37,8%

14,4%

14,7%

35,8%

Dado3

37,9%

10,4%

12,5%

36,4%

33,8%

6,88

%8,02

%31

,3%

39,1%

15,7%

14,9%

35,0%

Dado4

39,1%

11,2%

12,9%

35,2%

35,7%

6,18

%9,05

%33

,5%

38,9%

14,2%

14,9%

35,5%

Dado5

38,7%

12,1%

13,1%

36,8%

36,6%

6,88

%9,62

%32

,3%

38,7%

13,8%

15,5%

37,3%

µβ

=1

Dado1

58,0%

22,8%

22,6%

55,9%

61,3%

18,5%

19,1%

58,9%

58,5%

25,2%

25,5%

56,8%

Dado2

57,4%

21,7%

21,6%

57,9%

62,2%

18,9%

19,2%

60,5%

58,4%

24,2%

23,5%

59,2%

Dado3

60,8%

22%

20,6%

54,5%

61,7%

18,0%

18,9%

57,1%

60,6%

25,6%

23,1%

54,8%

Dado4

58,5%

21,1%

23,5%

55,5%

62,5%

19,6%

20,6%

59,1%

59,3%

23,0%

24,9%

56,3%

Dado5

59,1%

21,3%

23,1%

56,3%

62,7%

19,7%

19,9%

58,9%

59,9%

24,4%

25,4%

57,1%

µβ

=2

Dado1

75,4%

36,5%

33,9%

72,6%

81,2%

34,9%

33,8%

80,3%

74,6%

38,3%

35,5%

71,2%

Dado2

75,9%

35,8%

36,1%

75,4%

81,7%

35,1%

35,5%

80,3%

73,7%

37,5%

37,9%

74,4%

Dado3

75,5%

35,2%

35,1%

72,5%

82,4%

34,3%

34,2%

80,1%

75,3%

37,2%

36,7%

72,2%

Dado4

74,0%

34,0%

33,7%

70,9%

81,7%

34,2%

33,7%

81,1%

73,4%

35,4%

34,6%

70,6%

Dado5

76,7%

37,4%

36,1%

71,1%

83,3%

36,4%

36,5%

79,4%

76,2%

39,5%

37,6%

70,9%

µβ

=3

Dado1

87,1%

48,5%

47,9%

86,4%

92,0%

50,0%

49,7%

92,0%

83,2%

48,5%

47,4%

82,7%

Dado2

86,9%

47,6%

48,1%

84,5%

92,0%

49,9%

49,7%

91,5%

83,5%

48,2%

47,7%

82,4%

Dado3

87,9%

48,8%

46,6%

86,2%

92,6%

50,3%

48,2%

92,4%

84,7%

48,2%

48,1%

82,8%

Dado4

86,1%

47,4%

45,6%

85,3%

92,2%

49,9%

48,1%

92,4%

81,8%

47,3%

45,7%

81,8%

Dado5

87,3%

49,0%

47,2%

86,6%

92,4%

50,2%

49,0%

92,9%

84,6%

49,4%

47,8%

82,3%

43

Page 61: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Tabela 5.3: Número máximo de 1’s em cada quadrante da matriz social para calcular asproporções.

θ’s verdadeiros

φ’s verdadeiros︷ ︸︸ ︷- +

- 103× 9 = 927 103× 11 = 1133

+ 97× 9 = 873 97× 11 = 1067

Com o objetivo de estudar as propriedades frequentistas da média a posteriori, comoestimador dos parâmetros de interesse, construiu-se a Tabela 5.4, que apresenta a média dasmédias a posteriori, o desvio padrão das médias a posteriori e o viés relativo médio (VRM) dasmédias a posteriori calculados com base nas 5 réplicas de Monte Carlo geradas a partir dos trêsmodelos e para cada valor de µβ .

Tabela 5.4: Sumário da distribuição a posteriori dos parâmetros γ, θ5, φ5, θ10 e φ10 sob o ajustedo modelo gerador para 5 réplicas de Monte Carlo de cada modelo e para cada valor de µβ .

logit-logit probit-probit Student-StudentValor

verdadeiroMédia (DP) VRM Média (DP) VRM Média (DP) VRM

µβ = 0

γ 0,80 0,816 (0,067) 0,005 0,775 (0,089) 0,009 0,781 (0,092) 0,009θ5 -1,58 -1,197 (0,359) 0,160 -1,207 (0,189) 0,109 -1,056 (0,654) 0,393φ5 -2,58 -2,259 (0,138) 0,046 -2,279 (0,232) 0,052 -2,040 (0,311) 0,143θ10 0,56 0,590 (0,366) 0,191 0,488 (0,202) 0,068 0,437 (0,550) 0,457φ10 -1,53 -1,416 (0,242) 0,039 -1,570 (0,114) 0,008 -1,662 (0,177) 0,028

µβ = 1

γ 0,80 0,817 (0,083) 0,007 0,798 (0,035) 0,001 0,754 (0,106) 0,014θ5 -1,58 -1,658 (0,272) 0,041 -1,64 (0,391) 0,079 -1,676 (0,330) 0,060φ5 -2,58 -2,36 (0,145) 0,025 -2,408 (0,137) 0,017 -2,371 (0,262) 0,038θ10 0,56 0,701 (0,206) 0,093 0,705 (0,157) 0,070 0,744 (0,26) 0,153φ10 -1,53 -1,485 (0,152) 0,013 -1,417 (0,02) 0,008 -1,565 (0,222) 0,027

µβ = 2

γ 0,80 0,820 (0,056) 0,004 0,850 (0,031) 0,004 0,825 (0,086) 0,008θ5 -1,58 -1,759 (0,226) 0,045 -1,585 (0,168) 0,014 -1,684 (0,144) 0,017φ5 -2,58 -2,342 (0,09) 0,025 -2,321 (0,112) 0,030 -2,316 (0,182) 0,037θ10 0,56 0,543 (0,200) 0,058 0,557 (0,073) 0,008 0,559 (0,157) 0,035φ10 -1,53 -1,421 (0,171) 0,023 -1,420 (0,070) 0,010 -1,413 (0,118) 0,016

µβ = 3

γ 0,80 0,841 (0,054) 0,005 0,812 (0,035) 0,001 0,866 (0,088) 0,013θ5 -1,58 -1,729 (0,245) 0,043 -1,673 (0,112) 0,011 -1,707 (0,196) 0,029φ5 -2,58 -2,295 (0,042) 0,032 -2,321 (0,054) 0,027 -2,249 (0,107) 0,046θ10 0,56 0,697 (0,110) 0,048 0,663 (0,125) 0,039 0,714 (0,129) 0,063φ10 -1,53 -1,438 (0,169) 0,020 -1,435 (0,089) 0,010 -1,366 (0,115) 0,024

Pode-se observar na Tabela 5.4 que os parâmetros estão sendo satisfatoriamente estimadospois as médias das médias a posteriori estão bem próximas do verdadeiro valor do parâmetro,

44

Page 62: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

com desvios padrões e vícios relativos médios pequenos. Os valores em negrito na Tabela 5.4indicam para qual valor de µβ os parâmetros obtiveram o menor vício relativo médio. Então, porexemplo, considerando os dados logit sob o ajuste do modelo logit (primeira coluna da tabela),note que o parâmetro γ obteve o menor vício relativo médio (0,004) para µβ = 2 e o parâmetroθ5 obteve o menor vício relativo médio (0,041) para µβ = 1. Considerando os dados probit sobo ajuste do modelo probit (segunda coluna da tabela), note que o parâmetro γ obteve o menorvício relativo médio (0,001) para µβ = 3 e o parâmetro θ5 obteve o menor vício relativo médio(0,011) para µβ = 3.

Para resumir toda a informação proveniente do VRM de todos os parâmetros, calculou-se aquantidade de θ’s e φ’s que obtiveram seu menor VRM sob um determinado valor de µβ . Essainformação está resumida na Tabela 5.5.

Tabela 5.5: Número de θ’s e φ’s que obtiveram menor VRM para cada valor de µβ considerado.

logit-logit probit-probit student-studentµβ = 0 31 16 18µβ = 1 44 64 44µβ = 2 55 68 65µβ = 3 94 78 96

É possível verificar na Tabela 5.5 que, sob o ajuste do modelo logit, 31 θ’s e φ’s tiverammenor VRM quando os dados logit foram gerados a partir de µβ = 0, 44 θ’s e φ’s tiveram menorVRM quando os dados logit foram gerados a partir de µβ = 1, 55 θ’s e φ’s tiveram menor VRMquando os dados foram gerados a partir de µβ = 2 e 94 θ’s e φ’s tiveram menor VRM quando osdados foram gerados a partir de µβ = 3. Pode-se perceber que conforme aumenta o tamanho deµβ , maior o número de θ’s e φ’s que são estimados com menor VRM. Isso vale também para osdados probit ajustados sob o modelo probit e para os dados t-Student ajustados sob o modelot-Student.

Para a geração dos conjuntos de dados do estudo de simulação escolheu-se µβ = 1, poiso objetivo desta análise de sensibilidade era determinar um valor de µβ que gerasse matrizessociais informativas e representativas da realidade. Obviamente, matrizes sociais geradas apartir de µβ = 2 ou µβ = 3 são muito informativas, mas, não são tão representativas da realidadedevido à enorme quantidade de ligações existentes entre os elementos das linhas e das colunas.

Um fato importante é que não faz diferença fixar µβ = 1 ou µα = 1 para a geração dosconjuntos de dados. Fixando um ou outro as estimativas dos θ’s e φ’s serão as mesmas no final.

45

Page 63: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

5.2 Resultados do estudoNesta seção serão apresentados os resultados do estudo de simulação. O estudo foi dividido

em três cenários descritos na Tabela 5.6.

Tabela 5.6: Cenários utilizados na implementação do estudo de simulação.

Cenários Modelo Verdadeiro Modelo AjustadoCenário 1 logit logit, probit, t-StudentCenário 2 probit logit, probit, t-StudentCenário 3 t-Student logit, probit, t-Student

Foram geradas R = 100 réplicas de Monte Carlo a partir dos três modelos, com n = 200 em = 20. Dentro do contexto da estimação de posição ideológica política, isso equivale a 200usuários comuns e 20 atores políticos. Os dados foram gerados com a seguinte configuração dehiperparâmetros e do parâmetro γ: µα = 0, σ2

α = 0, 25, µβ = 1 σ2β = 0, 25, µθ = 0, σ2

θ = 1,µφ = 0, σ2

φ = 3, 25 e γ = 0, 8. θ’s, α’s e β’s verdadeiros foram gerados a partir das distribuiçõesN (0; 1), N (0; 0, 25) e N (1; 0, 25), respectivamente, e os φ’s verdadeiros a partir da mistura0, 5N (−1, 5; 1)+0, 5N (1, 5; 1), conforme descrito em Barberá (2015). Com essas informações,foi possível calcular ηij para cada i e cada j, e gerar yij do modelo Bernoulli com probabilidadesde seguimento do elemento i para o elemento j dadas por logit−1(ηij), probit−1(ηij) e F1(ηij),como indicado em 4.2. Considerou-se o ajuste de cada conjunto de dados aos três modelos, quediferem apenas na função de ligação. No processo de estimaçao, foi necessário fixar µα = 0,µθ = 0 e σ2

θ = 1 para resolver os problemas de identificação dos modelos. Para cada conjunto dedados , considerou-se 3 cadeias de Markov de tamanho 25.000, com um período de aquecimento(burn-in) de 5.000, e uma defasagem de 50, resultando em uma amostra final de tamanho 1.200.

Após o ajuste, via MCMC, de cada um dos três modelos a cada uma das 100 réplicas deMonte Carlo e após a verificação da convergência dos parâmetros, foram calculados o EQM (erroquadrático médio) e a taxa de cobertura (proporção de vezes que o verdadeiro valor do parâmetroestava contido nos intervalos de credibilidade). O erro quadrático médio é definido como

EQM(θ) =R∑i=1

(θ(i) − θv)2/R, sendo θ o parâmetro de interesse, θ(i) a média da distribuição a

posteriori do parâmetro θ para a réplica i, θv o valor verdadeiro do parâmetro θ e R o número deréplicas de Monte Carlo.

Para avaliar a convergência das cadeias, utilizou-se a função raftery.diag do pacote coda,disponível no programa R, para calcular o critério de Raftery e Lewis (1992) e analisou-se os

46

Page 64: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

traços das cadeias. Como cada réplica foi gerada com n = 200 e m = 20, 441 parâmetros(200 α’s, 200 θ’s, 20 β’s, 20 φ’s e 1 γ) e 5 hiperparâmetros (µβ, µφ, σ2

α, σ2β e σ2

φ) foramestimados. Considerando todas as 100 réplicas simuladas do modelo logit, probit e t-Student,foram analisados 133.800 gráficos com os traços das cadeias dos parâmetros. Como é inviávelrepresentar todos esses gráficos nesta dissertação, para fins da análise de convergência, serãoapresentados apenas os resultados provenientes do critério de Raftery e Lewis (1992). Conformedescrito em 3.4.2, o critério fornece, para cada um dos parâmetros, o número mínimo deiterações necessárias para atingir a convergência. Para resumir a informação, para cada um dosconjuntos de dados calculou-se o máximo dos nmin produzidos a fim de encontrar um númerode iterações que fosse suficiente para garantir a convergência de todos os parâmetros. Porque,por exemplo, se um parâmetro precisa de no mínimo 10 iterações para atingir a convergência eum outro precisa de pelo menos 100, o ideal é considerar um período de aquecimento de 100iterações para garantir que os dois parâmetros convirjam. A Figura 5.1 apresenta os máximosdesses números mínimos para todos os dados logit, probit e t-Student.

Máx

imo

de n

mín

020

060

010

00

1 25 50 75 100

●●●

●●●●

●●

●●●

●●

●●●●●●

●●

●●●

●●●●

●●●

●●●●

●●

●●●●

●●

●●●●

●●●

●●●

●●●●

●●

●●

●●●●

●●●

Dados logit

logitprobitt−Student

Máx

imo

de n

mín

020

060

010

00

1 25 50 75 100

●●

●●●●●

●●

●●●●

●●●●

●●●

●●●●●●●●●

●●

●●●

●●●●●

●●●

●●

●●●

●●

●●●●●●●●

●●

●●●

●●

●●●●●●●

●●

●●

●●

●●●●●●●

●●●

Dados probit

logitprobitt−Student

Máx

imo

de n

mín

020

060

010

00

1 25 50 75 100

●●●

●●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●●●

●●

●●●●●●

●●

●●●●

●●

●●

●●

●●●●

●●●

●●

Dados t−Student

logitprobitt−Student

Figura 5.1: Máximo, para cada conjunto dado e considerando todos os parâmetros, do númeromínimo de iterações necessárias para atingir a convergência, para cada ajuste.

Pode-se observar na Figura 5.1, que para o ajuste de 99 dados logit aos três modelos, sãonecessárias no mínimo 400 iterações para garantir a convergência de todos os parâmetros. Parao ajuste de um dado logit ao modelo logit são necessárias no mínimo 800 iterações para garantira convergência. Para o ajuste de todos os dados probit aos três modelos são necessárias nomínimo 200 iterações e para o ajuste de 98 dados t-Student aos três modelos são necessárias nomínimo 400 iterações. Para o ajuste de dois dados t-Student ao modelo t-Student são necessáriasno mínimo 800 iterações.

Conforme já informado, no estudo de simulação, para o ajuste de cada conjunto de dados aostrês modelos foi considerado um período de aquecimento (burn-in) de 5.000. Como a Figura

47

Page 65: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

5.1 mostra que era necessário descartar apenas as 1.000 primeiras iterações para garantir aconvergência, pode-se afirmar que todos os parâmetros convergiram.

5.2.1 Cenário 1

Nesta seção serão descritos os resultados obtidos pelo ajuste dos dados logit aos três modelosapresentados nesta dissertação. A fim de estudar as propriedades frequentistas dos estimadoresbayesianos, foram construídos gráficos com base nas médias a posteriori. A Figura 5.2 apresentaum resumo das estimativas pontuais e intervalares das médias a posteriori de uma parcela dosα’s (mais especificamente α5, α6, α7, α8, α9, α10, α71, α72, α73, α74, α75, α136, α137, α138, α139,α140, α196, α197, α198, α199 e α200), dos β’s e dos hiperparâmetros relativos à α e β, obtidaspelo ajuste das 100 réplicas simuladas do modelo logit aos modelos logit, probit e t-Student.O primeiro painel da Figura 5.2 se refere aos α’s, o segundo painel aos β’s e o terceiro aoshiperparâmetros.

O primeiro painel mostra que as estimativas dos α’s estão próximas de zero em todas asestimações, conforme esperado. No contexto desta dissertação e baseados nessas estimativas, épossível afirmar que os 20 usuários comuns avaliados não possuem muito interesse político.Comparando as estimativas dos α’s produzidas pelos três modelos, note que o modelo t-Studentproduz estimativas mais acuradas e menos precisas e o modelo probit produz estimativas maisprecisas e menos acuradas. A precisão aqui refere-se a largura do intervalo e a acurácia avalia seo intervalo contém o verdadeiro valor do parâmetro.

Observe que a variabilidade dos α’s nos modelos logit e probit é menor que a variabilidade nomodelo t-Student. Comparando o ajuste probit e logit, perceba que os α’s avaliados apresentammaior variabilidade sob o ajuste do modelo logit. Espera-se que σ2t−Student

α > σ2logit

α > σ2probit

α ,em que σ2M

α é a estimativa da média das médias a posteriori do parâmetro σ2α obtida via ajuste

do modeloM . O terceiro painel mostra que a média das médias a posteriori de σ2α é menor sob

o ajuste do modelo probit e maior sobre o ajuste do modelo t-Student corroborando o que foidito acima. Em termos de valores, σ2probit

α = 0, 07, σ2logit

α = 0, 20 e σ2t−Studentα = 0, 28.

O segundo painel mostra que as estimativas dos β’s estão próximas de um em todas asestimações. No contexto desta dissertação e baseados nessas estimativas, é possível afirmarque todos os atores políticos avaliados são razoavelmente populares. As estimativas dos β’sem termos de acurácia e precisão possuem as mesmas características das estimativas dos α’s.A variabilidade dos β’s nos modelos logit e probit é menor que a variabilidade no modelot-Student.

48

Page 66: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

−3

−2

−1

01

23

α1 α5 α74 α138 α197

●● ●

● ●

● ● ●● ●

●●

●● ● ●

●●

Modelo logit

−3

−2

−1

01

23

α1 α5 α74 α138 α197

● ● ●● ●

● ● ● ● ●●

●●

●● ● ● ●

●●

Modelo probit

−3

−2

−1

01

23

α1 α5 α74 α138 α197

●● ●

●●

● ● ●● ●

●● ●

Modelo t−Student−

3−

2−

10

12

3

β1 β5 β9 β13 β17

● ●

● ●●

● ●●

●●

Modelo logit

−3

−2

−1

01

23

β1 β5 β9 β13 β17

● ●

● ●●

● ● ●●

●●

Modelo probit

−3

−2

−1

01

23

β1 β5 β9 β13 β17

● ●

● ●●

● ●●

●●

Modelo t−Student

01

2

µβ σα2 σβ

2

Modelo logit

01

2

µβ σα2 σβ

2

●●

Modelo probit

01

2

µβ σα2 σβ

2

Modelo t−Student

Figura 5.2: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de α e β,respectivamente, µα e µβ . Os modelos logit, probit e t-Student são comparados em cada painel.

49

Page 67: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Comparando o ajuste probit e logit, perceba que os β’s avaliados apresentam maiorvariabilidade sob o ajuste do modelo logit. Espera-se que σ2t−Student

β > σ2logit

β > σ2probit

β . Emtermos de valores, σ2probit

β = 0, 11, σ2logit

β = 0, 30 e σ2t−Student

β = 0, 36.A maior parte das estimativas dos β’s estão próximas 1, mas alguns valores são maiores,

evidenciando o fato de que alguns atores políticos são mais populares do que outros. Parece quesob o ajuste do modelo probit os β’s estão sendo consistentemente subestimados. Espera-seque µt−Studentβ > µlogitβ > µprobitβ , em que µMβ é a estimativa da média das médias a posteriorido parâmetro µβ obtida via ajuste do modelo M . Em termos de valores, µprobitβ = 0, 59,µlogitβ = 1, 01 e µt−Studentβ = 1, 15. Comparando as estimativas dos hiperparâmetros µβ , σ2

α e σ2β

produzidas pelos três modelos, note que o modelo t-Student produz estimativas mais acuradas emenos precisas e o modelo probit produz estimativas mais precisas e menos acuradas.

De acordo as análises feitas, não é possível afirmar que os α’s e β’s diferem nas trêsestimações devido à sobreposição dos intervalos.

No primeiro painel da Figura 5.2 só foram avaliados 20 α’s, então na Figura 5.3 são mostradosos gráficos dos valores verdadeiros versus os valores estimados (média a posteriori) de todos osα’s obtidos pelo ajuste dos dados logit aos três modelos. Os resultados confirmam que os α’ssão satisfatoriamente estimados, independente do modelo utilizado e parece não haver diferençassignificativas entre eles nas três estimações.

Valor verdadeiro de αMéd

ia d

as m

édia

s a

post

erio

ri de

α−

1.5

−0.

50.

51

1.5

−1.5 −0.5 0.5 1 1.5

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

● ●●

●●

● ●●

●●

●●●

●●

●●

● ●●

●●

●●

●●●●

●●

●● ●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●●

●●

●●

●●●

● ●

●●● ●●

●●●●

●●

●●

Modelo logit

Valor verdadeiro de αMéd

ia d

as m

édia

s a

post

erio

ri de

α−

1.5

−0.

50.

51

1.5

−1.5 −0.5 0.5 1 1.5

●● ●

●●

●● ●●

●●●

●●●

●●

●●

●●

●●

● ●

●●

●● ●

●●●●

●●

●●

● ●●●●

● ●●

●●

●●●

●●

●●●●●

●● ● ●●

●●

●●

●● ●

●●●●●

●●

●●

●● ●● ● ●●

●●●

●●

●●●●

●●

●●

●●●●

● ●●

●●

● ●●●

●●

● ●● ●

●●

●●

● ●

●●●

●●

●●

●●

●● ●●

●● ●

●●●

● ●●●

●●●

●●●●

●●

●●● ●

Modelo probit

Valor verdadeiro de αMéd

ia d

as m

édia

s a

post

erio

ri de

α−

1.5

−0.

50.

51

1.5

−1.5 −0.5 0.5 1 1.5

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

● ●●

●●

● ●●

●●

●●●

●●

●●

● ●●

●●

●●

●●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

● ●

●●

●●●

●●

●●

●●

●●

Modelo t−Student

Figura 5.3: Valores verdadeiros versus valores estimados dos α’s.

50

Page 68: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

A Figura 5.4 apresenta os erros quadráticos médios e as taxas de cobertura de todos osparâmetros α’s e β’s obtidos através do ajuste dos dados logit aos três modelos. Neste Cenário1, espera-se que o modelo logit produza menores erros quadráticos médios e maiores taxas decobertura, por ser o modelo gerador dos dados. Os gráficos apresentados na Figura 5.4 mostramque essa suposição é válida pois os EQM’s de quase todos os α’s e para todos os β’s são menoressob o ajuste do modelo logit. O modelo probit tende a subestimar os valores dos parâmetrosdevido à forma da função de ligação. Por isso, sob o ajuste desse modelo os EQM’s tendem aser maiores. Observando as taxas de cobertura, note que os modelos logit e t-Student produzemas maiores taxas de cobertura para os α’s e β’s.

α

00.

51

1.5

1 50 100 150 200

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●●●

●●●

●●●●●

●●●

●●

●●●

●●

●●●●●

●●●

●●

●●

●●●●●●●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●●

●●●●●●

●●●●

●●

●●

●●

●●

●●●

●●

●●●

●●●●●●

●●

●●

EQM

logitprobitt−Student

α

0%20

%40

%60

%80

%10

0%

1 50 100 150 200

●●●

●●

●●

●●●

●●●●●●●●

●●

●●

●●

●●

●●

●●●●●●●

●●●●●●

●●●

●●●

●●

●●●

●●

●●●●●●●●●

●●●

●●●●●●●●●●●●●

●●●

●●●●●●●

●●●●●●●●●

●●

●●●●

●●●●●●

●●●●

●●●●●●●

●●

●●

●●

●●●

●●●●●●●●●●●

●●●

●●

●●

Taxa de cobertura●logit probit t−Student

β

00.

51

1.5

1 5 10 15 20

●● ●

● ● ● ●●

●●

●●

● ●●

EQM

logitprobitt−Student

β

0%20

%40

%60

%80

%10

0%

1 5 10 15 20

●●

● ●

● ●

Taxa de cobertura●logit probit t−Student

Figura 5.4: Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às 100réplicas simuladas do modelo logit.

51

Page 69: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

−3

−2

−1

01

23

θ1 θ5 θ74 θ138 θ197

● ●

●●

● ●

● ●●

Modelo logit

−3

−2

−1

01

23

θ1 θ5 θ74 θ138 θ197

● ●

●●

● ●

● ●●

Modelo probit

−3

−2

−1

01

23

θ1 θ5 θ74 θ138 θ197

● ●

●●

● ●

● ●●

Modelo t−Student−

3−

2−

10

12

3

φ1 φ5 φ9 φ13 φ17

●● ●

●●

●●

Modelo logit

−3

−2

−1

01

23

φ1 φ5 φ9 φ13 φ17

●● ●

●●

●●

Modelo probit

−3

−2

−1

01

23

φ1 φ5 φ9 φ13 φ17

●●

●●

●●

Modelo t−Student

01

23

4

µφ σφ2

Modelo logit

01

23

4

µφ σφ2

Modelo probit

01

23

4

µφ σφ2

Modelo t−Student

Figura 5.5: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ e φ,respectivamente, µθ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel.

52

Page 70: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

A Figura 5.5 apresenta um resumo das estimativas pontuais e intervalares das médias aposteriori de uma parcela dos θ’s (mais especificamente θ5, θ6, θ7, θ8, θ9, θ10, θ71, θ72, θ73,θ74, θ75, θ136, θ137, θ138, θ139, θ140, θ196, θ197, θ198, θ199 e θ200), dos φ’s e dos hiperparâmetrosrelativos à φ, obtidas pelo ajuste das 100 réplicas simuladas do modelo logit aos modelos logit,probit e t-Student. Os dois primeiros paineis mostram que não existem diferenças nos θ’s eφ’s, nem em termos das estimativas pontuais (média das médias a posteriori), nem termosde tamanho do intervalo. Esperava-se essa diferença entre as estimativas obtidas pelos trêsmodelos, mas como isso não ocorreu, cogitou-se que talvez o parâmetro γ possa estar fazendouma espécie de compensação, como será visto mais adiante.

De acordo com o terceiro painel da Figura 5.5, percebe-se que o parâmetro µφ está sendobem estimado nos três modelos e o parâmetro σ2

φ está sendo subestimado nos três modelos. Emtermos de valores, µprobitφ = 0, 06, µlogitφ = 0, 06 e µt−Studentφ = 0, 07 estão próximos do valorverdadeiro de µφ, que é 0. As estimativas σ2probit

φ = 2, 19, σ2logit

φ = 2, 17 e σ2t−Student

φ = 2, 13

confirmam que o parâmetro está sendo subestimado nos três ajustes.Na Figura 5.6 são apresentados os valores verdadeiros versus os valores estimados (média

a posteriori) de todos os θ’s obtidos pelo ajuste dos três modelos. Note que os θ’s sãosatisfatoriamente estimados, independente do modelo utilizado e parece não haver diferençassignificativas entre eles nas três estimações.

Valor verdadeiro de θ

Méd

ia d

as m

édia

s a

post

erio

ri de

θ−

3−

2−

10

12

3

−3 −2 −1 0 1 2 3

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

Modelo logit

Valor verdadeiro de θ

Méd

ia d

as m

édia

s a

post

erio

ri de

θ−

3−

2−

10

12

3

−3 −2 −1 0 1 2 3

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

Modelo probit

Valor verdadeiro de θ

Méd

ia d

as m

édia

s a

post

erio

ri de

θ−

3−

2−

10

12

3

−3 −2 −1 0 1 2 3

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

Modelo t−Student

Figura 5.6: Valores verdadeiros versus valores estimados dos θ’s.

A Figura 5.7 apresenta os erros quadráticos médios e as taxas de cobertura de todos osparâmetros θ’s e φ’s obtidos através do ajuste dos dados logit aos três modelos. Assim comodescrito para os α’s e β’s, espera-se que o modelo gerador dos dados, no caso logit, produzamenores os erros quadráticos médios e as maiores taxas de cobertura para θ’s e φ’s. Os gráficosda Figura 5.7 corroboram essa suposição pois os EQM’s são menores sob o ajuste do modelologit para todos os θ’s e φ’s. O modelo t-Student foi o que produziu maiores EQM’s para os

53

Page 71: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

θ’s e φ’s. Analisando as taxas de cobertura, note que todos os três modelos produzem taxasrelativamente altas.

θ

00.

20.

40.

6

1 50 100 150 200

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

EQM

logitprobitt−Student

θ

0%20

%40

%60

%80

%10

0%

1 50 100 150 200

●●●●

●●

●●

●●●

●●

●●

●●

●●●●●

●●

●●●●●●

●●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●●

●●

●●●

●●●●

●●

●●●

●●●●●

●●

●●

●●

●●●●●●

●●●●●

●●

●●●●●

●●●

●●●●●●●●●●

●●●

●●

●●●

●●

●●●●●●

●●●

Taxa de cobertura●logit probit t−Student

φ

00.

10.

2

1 5 10 15 20

●●

● ●

●●

EQM

logitprobitt−Student

φ

0%20

%40

%60

%80

%10

0%

1 5 10 15 20

●● ●

● ●

● ● ●●

● ●

● ●

● ● ●●

Taxa de cobertura●logit probit t−Student

Figura 5.7: Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às 100réplicas simuladas do modelo logit.

Como foi dito acima, acredita-se que o parâmetro γ possa estar influenciando na estimaçãodos θ’s e φ’s, funcionando como um fator de acomodação. A Figura 5.8 apresenta um resumo dasestimativas pontuais e intervalares das médias a posteriori do parâmetro γ, obtidas pelo ajuste das100 réplicas simuladas do modelo logit aos três modelos. Pela Figura 5.8 é possível notar que aestimativa pontual e os intervalos de γ foram diferentes em cada modelo. Como era de se esperar,o modelo logit produz uma estimativa mais acurada, isto é, mais próxima do valor verdadeiro.Em termos de valores, tem-se que γlogit = 0, 79 e (qγ0,025, q

γ0,975)logit = (0, 7; 0, 9), γprobit = 0, 46

e (qγ0,025, qγ0,975)probit = (0, 4; 0, 52) e γt−Student = 1 e (qγ0,025, q

γ0,975)t−Student = (0, 86; 1, 16).

54

Page 72: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

0.3

0.8

1.2

γlogit γprobit γt−Student

Dados logit

Figura 5.8: Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejada em vermelhorepresenta o valor verdadeiro de γ, 0,8, utilizado para a simulação dos dados logit.

O intervalo obtido sob o ajuste do modelo logit não se sobrepõe ao obtido sob o modeloprobit, por isso há indícios de que γlogit e γprobit sejam significativamente diferentes. Uma partedo intervalo obtido sob o ajuste do modelo logit se sobrepõe ao obtido via ajuste do modelot-Student, por isso existe uma probabilidade não nula de que γlogit e γprobit sejam iguais e porisso não se pode afirmar que eles são diferentes.

Acredita-se que γ está funcionando como fator de acomodação fornecendo maior ou menorpeso nas caudas. Para avaliar isso, foi necessário retirar a influência de γ sobre os θ’s e os φ’s,através da multiplicação de sua raiz pelos valores a posteriori dos θ’s e dos φ’s. Criaram-seassim os parâmetros θ∗’s e φ∗’s. Relembrando o escopo do modelo apresentado no Capítulo 4,tem-se que:

P (yij = 1|αi, βj, γ, θi, φj) = πij =Ψ(αi + βj − γ‖θi − φj‖2)

=Ψ(αi + βj − ‖√γθi −

√γφj‖2)

=Ψ(αi + βj − ‖θ∗i − φ∗j‖2).

A Figura 5.9 apresenta um resumo das estimativas pontuais e intervalares das médias aposteriori de uma parcela dos θ∗’s (mais especificamente θ∗5, θ∗6, θ∗7, θ∗8, θ∗9, θ∗10, θ∗71, θ∗72, θ∗73, θ∗74,θ∗75, θ∗136, θ∗137, θ∗138, θ∗139, θ∗140, θ∗196, θ∗197, θ∗198, θ∗199 e θ∗200) e φ∗’s, obtidas pelo ajuste das 100réplicas simuladas do modelo logit aos modelos logit, probit e t-Student.

55

Page 73: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

−3

−2

−1

01

23

θ1* θ5

* θ74* θ138

* θ197*

● ●

●●

● ●

● ●●

Modelo Logit

−3

−2

−1

01

23

θ1* θ5

* θ74* θ138

* θ197*

●● ●

● ●

● ●

● ●●

Modelo Probit

−3

−2

−1

01

23

θ1* θ5

* θ74* θ138

* θ197*

● ●

●●

● ●

● ●●

Modelo t−Student−

3−

2−

10

12

3

φ1* φ5

* φ9* φ13

* φ17*

●● ●

●●

●●

Modelo Logit

−3

−2

−1

01

23

φ1* φ5

* φ9* φ13

* φ17*

● ● ●

●●

●●

Modelo Probit

−3

−2

−1

01

23

φ1* φ5

* φ9* φ13

* φ17*

●●

●●

●●

Modelo t−Student

Figura 5.9: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. Aslinhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ∗ =

√γθ e

φ∗ =√γφ, respectivamente, µ∗θ e µ∗φ. Os modelos logit, probit e t-Student são comparados em

cada painel.

De acordo com o primeiro painel da 5.9, parece não existir tantas diferenças nos θ’s emtermos das estimativas pontuais, mas parece existir uma leve diferença em termos dos tamanhosdos intervalos. Assumiu-se uma priori com média 0 para os θ’s, e por isso a multiplicaçãode √γ pelos valores a posteriori dos θ’s só acarretará diferença na amplitude dos intervalos.Olhando para o segundo painel da 5.9, parece haver uma leve diferença nos φ’s em termos dasestimativas pontuais, mas parece existir uma diferença maior entre as estimações em termosdos tamanhos dos intervalos. Comparando as estimativas dos θ∗’s e φ∗’s produzidas pelos trêsmodelos, note que o modelo t-Student produz estimativas mais acuradas e menos precisas eo modelo probit produz estimativas mais precisas e menos acuradas. É possível afirmar quebaseando-se na escala transformada, o modelo t-Student é mais robusto porque consegue estimarmelhor as posições ideológicas de todos os indivíduos do estudo (usuários comuns e atores

56

Page 74: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

políticos).A Figura 5.10 apresenta as probabilidades de seguimento verdadeiras e estimadas. É possível

notar que as probabilidades estão sendo bem estimadas pelos modelos logit e t-Student.

Fre

quên

cia

020

060

010

00

0 0.2 0.4 0.6 0.8 1

Modelo logit

Probabilidade verdadeira

Probabilidade estimada

Fre

quên

cia

020

060

010

00

0 0.2 0.4 0.6 0.8 1

Modelo probit

Probabilidade verdadeira

Probabilidade estimada

Fre

quên

cia

020

060

010

00

0 0.2 0.4 0.6 0.8 1

Modelo t−Student

Probabilidade verdadeira

Probabilidade estimada

Figura 5.10: Probabilidades de seguimento verdadeiras e estimadas.

Considerando os dados logit, observou-se que o modelo t-Student produziu as estimativasmais acuradas para os parâmetros e hiperparâmetros avaliados, mas menos precisas. O objetivoprincipal sempre foi produzir estimativas acuradas, buscando, sempre que possível, aumentara precisão das estimativas. O ideal, então, seria buscar um modelo que produzisse ao mesmotempo estimativas acuradas e precisas. O modelo logit foi o que melhor cumpriu esse papel paraos dados logit.

5.2.2 Cenário 2

Nesta seção serão descritos os resultados obtidos pelo ajuste dos dados probit aos trêsmodelos apresentados nesta dissertação. O primeiro painel da Figura 5.11 mostra que asestimativas dos α’s estão próximas de zero em todas as estimações. Comparando as estimativasdos α’s produzidas pelos três modelos, note que o modelo probit é o que produz estimativasmais acuradas e precisas.

Observe que a variabilidade dos α’s nos modelos logit e probit é menor que a variabilidade nomodelo t-Student. Comparando o ajuste probit e logit, perceba que os α’s avaliados apresentammaior variabilidade sob o ajuste do modelo logit. Espera-se que σ2t−Student

α > σ2logit

α > σ2probit

α .O terceiro painel mostra que a média das médias a posteriori de σ2

α é menor sob o ajuste domodelo probit e maior sobre o ajuste do modelo t-Student corroborando o que foi dito acima.Em termos de valores, σ2probit

α = 0, 21, σ2logit

α = 0, 63 e σ2t−Studentα = 1, 23.

57

Page 75: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

−3

−2

−1

01

23

α1 α5 α74 α138 α197

●●

●●

●● ●

●●

●● ●

Modelo logit

−3

−2

−1

01

23

α1 α5 α74 α138 α197

●●

●●

● ● ●● ●

●● ●

Modelo probit

−3

−2

−1

01

23

α1 α5 α74 α138 α197

●●

●●

● ●

Modelo t−Student−

10

12

34

56

β1 β5 β9 β13 β17

●●

●●

● ●●

Modelo logit

−1

01

23

45

6

β1 β5 β9 β13 β17

● ●

● ●●

● ●●

●●

Modelo probit

−1

01

23

45

6

β1 β5 β9 β13 β17

●●

● ●●

Modelo t−Student

01

23

µβ σα2 σβ

2

Modelo logit

01

23

µβ σα2 σβ

2

●●

Modelo probit

01

23

µβ σα2 σβ

2

Modelo t−Student

Figura 5.11: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de α e β,respectivamente, µα e µβ . Os modelos logit, probit e t-Student são comparados em cada painel.

O segundo painel da Figura 5.11 mostra que as estimativas dos β’s estão próximas de um,sob o ajuste do modelo probit, próximas de dois, sob o ajuste do modelo logit e próximas de trêssob o ajuste do modelo t-Student. É de se esperar que µt−Studentβ > µlogitβ > µprobitβ . Em termosde valores, µprobitβ = 1, 01, µlogitβ = 1, 74 e µt−Studentβ = 2, 37.

58

Page 76: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

As estimativas dos β’s em termos de acurácia e precisão possuem as mesmas característicasdas estimativas dos α’s. A variabilidade dos β’s nos modelos logit e probit é menor quea variabilidade no modelo t-Student. Comparando o ajuste probit e logit, perceba que osβ’s avaliados apresentam maior variabilidade sob o ajuste do modelo logit. Espera-se queσ2t−Student

β > σ2logit

β > σ2probit

β . Em termos de valores, σ2probit

β = 0, 31, σ2logit

β = 0, 92 eσ2t−Student

β = 1, 74. Comparando as estimativas dos hiperparâmetros µβ, σ2α e σ2

β produzidaspelos três modelos, note que o modelo probit é o que produz estimativas mais acuradas e precisas.De acordo as análises feitas, não é possível afirmar que os α’s e β’s diferem nas três estimaçõesdevido à sobreposição dos intervalos.

Na Figura 5.12 são mostrados os gráficos dos valores verdadeiros versus os valores estimados(média a posteriori) dosα’s. Os resultados confirmam que osα’s são satisfatoriamente estimados,independente do modelo utilizado e parece não haver diferenças significativas entre eles nas trêsestimações.

A Figura 5.13 apresenta os erros quadráticos médios e as taxas de cobertura dos α’s e β’s.Neste Cenário 2, espera-se que o modelo probit produza menores erros quadráticos médios emaiores taxas de cobertura, por ser o modelo gerador dos dados. Os gráficos apresentados naFigura 5.13 corroboram essa suposição pois os EQM’s são menores sob o ajuste do modeloprobit para todos os α’s e β’s. Observando as taxas de cobertura, note que os modelos logite t-Student produzem as maiores taxas de cobertura para os α’s, e modelo probit produz asmaiores taxas para os β’s.

Valor verdadeiro de αMéd

ia d

as m

édia

s a

post

erio

ri de

α−

2−

10

12

−2 −1 0 1 2

●●

●●

●●

●●●

●●

●●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

Modelo logit

Valor verdadeiro de αMéd

ia d

as m

édia

s a

post

erio

ri de

α−

2−

10

12

−2 −1 0 1 2

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●●

● ●●

●●

●●●

●●

●●

●●

● ●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●

●●

●●

● ●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

Modelo probit

Valor verdadeiro de αMéd

ia d

as m

édia

s a

post

erio

ri de

α−

2−

10

12

−2 −1 0 1 2

●●

●●

●●●

●●

●●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

Modelo t−Student

Figura 5.12: Valores verdadeiros versus valores estimados dos α’s.

59

Page 77: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

α

00.

51

1.5

1 50 100 150 200

●●●●●

●●●●●

●●●●

●●●

●●

●●●●●●●●

●●●

●●●●

●●●●●●●●●

●●●●●●●

●●

●●●●

●●●●

●●

●●●

●●●●●

●●●

●●

●●●●●

●●

●●●●

●●

●●●●●

●●●●

●●

●●●●●●●

●●●●●

●●

●●●●

●●

●●●●●●

●●●

●●●●●●

●●●●●

●●●●●●●●●

●●●

●●●●●

●●●

●●●

●●

●●

●●●

EQM

logitprobitt−Student

α

0%20

%40

%60

%80

%10

0%

1 50 100 150 200

●●●●●

●●●

●●●●●●●●●

●●●●●●

●●●●

●●

●●

●●

●●●●●●●●●

●●●

●●●●●

●●●●●

●●●●●●●●●●

●●

●●●●●

●●●

●●●●●●●●●

●●●

●●●●●

●●

●●●

●●●●●●

●●

●●●●●●●●●●●●

●●●●●●●●●

●●

●●●●●●●●●

●●●●●

●●●●●

●●●●●●●●●●●

●●●●●●●

●●●●●●

●●●●●

Taxa de cobertura●logit probit t−Student

β

02

46

8

1 5 10 15 20

●●

●●

● ●●

●●

●●

EQM

logitprobitt−Student

β

0%20

%40

%60

%80

%10

0%

1 5 10 15 20

● ●

Taxa de cobertura●logit probit t−Student

Figura 5.13: Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às100 réplicas simuladas do modelo probit.

A Figura 5.14 apresenta um resumo das estimativas pontuais e intervalares das médias aposteriori de uma parcela dos θ’s, dos φ’s e dos hiperparâmetros relativos à φ, obtidas peloajuste das 100 réplicas simuladas do modelo probit aos modelos logit, probit e t-Student. Os doisprimeiros painéis da Figura 5.14 mostram que não existem diferenças entre os θ’s e φ’s, nem emtermos das estimativas pontuais (média das médias a posteriori), nem termos de tamanho dointervalo, mas essa diferença era esperada.

De acordo com o terceiro painel da Figura 5.14, percebe-se que o parâmetro µφ está sendobem estimado nos três modelos e o parâmetro σ2

φ está sendo subestimado nos três modelos. Emtermos de valores, µprobitφ = 0, 07, µlogitφ = 0, 07, µt−Studentφ = 0, 08 estão próximos do valorverdadeiro de µφ, que é 0. As estimativas σ2probit

φ = 2, 19, σ2logit

φ = 2, 20 e σ2t−Student

φ = 2, 23

confirmam que o parâmetro está sendo subestimado nos três ajustes.

60

Page 78: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

−3

−2

−1

01

23

θ1 θ5 θ74 θ138 θ197

● ●

●●

●●

● ●●

Modelo logit

−3

−2

−1

01

23

θ1 θ5 θ74 θ138 θ197

● ●

●●

●●

● ●●

Modelo probit

−3

−2

−1

01

23

θ1 θ5 θ74 θ138 θ197

● ●

●●

●●

● ●

Modelo t−Student−

3−

2−

10

12

3

φ1 φ5 φ9 φ13 φ17

● ● ●

●●

●●

Modelo logit

−3

−2

−1

01

23

φ1 φ5 φ9 φ13 φ17

● ● ●

●●

●●

Modelo probit

−3

−2

−1

01

23

φ1 φ5 φ9 φ13 φ17

●● ●

●●

●●

Modelo t−Student

01

23

4

µφ σφ2

Modelo logit

01

23

4

µφ σφ2

Modelo probit

01

23

4

µφ σφ2

Modelo t−Student

Figura 5.14: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ e φ,respectivamente, µθ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel.

61

Page 79: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Valor verdadeiro de θ

Méd

ia d

as m

édia

s a

post

erio

ri de

θ−

3−

2−

10

12

3

−3 −2 −1 0 1 2 3

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

Modelo logit

Valor verdadeiro de θ

Méd

ia d

as m

édia

s a

post

erio

ri de

θ−

3−

2−

10

12

3

−3 −2 −1 0 1 2 3

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

Modelo probit

Valor verdadeiro de θ

Méd

ia d

as m

édia

s a

post

erio

ri de

θ−

3−

2−

10

12

3

−3 −2 −1 0 1 2 3

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

Modelo t−Student

Figura 5.15: Valores verdadeiros versus valores estimados dos θ’s.

θ

00.

10.

20.

30.

4

1 50 100 150 200

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

EQM

logitprobitt−Student

θ

0%20

%40

%60

%80

%10

0%

1 50 100 150 200

●●

●●●●

●●●

●●

●●●●

●●●●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●●●●

●●

●●

●●●

●●

●●

●●●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●

●●●●●

●●●●

●●●

●●

●●

●●●

●●●●●●

●●●●●●●●

●●●

●●●

●●●

●●●●●

●●

●●

Taxa de cobertura●logit probit t−Student

φ

00.

050.

1

1 5 10 15 20

●●

●●

● ●

EQM

logitprobitt−Student

φ

0%20

%40

%60

%80

%10

0%

1 5 10 15 20

● ●● ● ●

● ●

● ● ● ● ● ●

Taxa de cobertura●logit probit t−Student

Figura 5.16: Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às100 réplicas simuladas do modelo probit.

62

Page 80: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Na Figura 5.15 são apresentados os valores verdadeiros versus os valores estimados (médiaa posteriori) de todos os θ’s. Note que os θ’s são satisfatoriamente estimados, independente domodelo utilizado e parece não haver diferenças significativas entre eles nas três estimações.

A Figura 5.16 apresenta os erros quadráticos médios e as taxas de cobertura dos θ’s e φ’s.Assim como descrito para os α’s e β’s, espera-se que o modelo gerador dos dados, no casoprobit, produza menores os erros quadráticos médios e as maiores taxas de cobertura para θ’s eφ’s. Os gráficos da Figura 5.16 corroboram essa suposição pois os EQM’s são menores sob oajuste do modelo probit para todos os θ’s e φ’s. O modelo t-Student foi o que produziu maioresEQM’s para os θ’s e φ’s. Analisando as taxas de cobertura, note que todos os três modelosproduzem taxas relativamente altas.

Acredita-se que o parâmetro γ possa estar influenciando na estimação dos θ’s e φ’s,funcionando como um fator de acomodação. A Figura 5.17 apresenta um resumo das estimativaspontuais e intervalares das médias a posteriori do parâmetro γ, obtidas pelo ajuste das 100réplicas simuladas do modelo probit aos três modelos.

0.5

11.

52

2.5

γlogit γprobit γt−Student

Dados probit

Figura 5.17: Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejada em vermelhorepresenta o valor verdadeiro de γ, 0,8, utilizado para a simulação dos dados probit.

Pela Figura 5.17 é possível notar que a estimativa pontual e os intervalos de γ foramdiferentes em cada modelo. Como era de se esperar, o modelo probit produz uma estimativa maisacurada, isto é, mais próxima do valor verdadeiro. Em termos de valores, tem-se que γlogit =

1, 38 e (qγ0,025, qγ0,975)logit = (1, 21; 1, 52), γprobit = 0, 79 e (qγ0,025, q

γ0,975)probit = (0, 7; 0, 87) e

γt−Student = 1, 94 e (qγ0,025, qγ0,975)t−Student = (1, 7; 2, 2). Os intervalos obtidos sob o ajuste

dos três modelos não se sobrepõem, então pode-se afirmar que γlogit, γprobit e γt−Student sãosignificativamente diferentes.

63

Page 81: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

−3

−2

−1

01

23

θ1* θ5

* θ74* θ138

* θ197*

● ●

●●

●●

● ●

Modelo Logit

−3

−2

−1

01

23

θ1* θ5

* θ74* θ138

* θ197*

● ●

●●

●●

● ●●

Modelo Probit

−3

−2

−1

01

23

θ1* θ5

* θ74* θ138

* θ197*

● ●

●●

●●

● ●

Modelo t−Student−

4−

20

24

φ1* φ5

* φ9* φ13

* φ17*

● ● ●

●●

●●

Modelo Logit

−4

−2

02

4

φ1* φ5

* φ9* φ13

* φ17*

● ● ●

●●

●●

Modelo Probit

−4

−2

02

4φ1

* φ5* φ9

* φ13* φ17

*

●● ●

●●

●●

Modelo t−Student

Figura 5.18: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. Aslinhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ∗ =

√γθ e

φ∗ =√γφ, respectivamente, µ∗θ e µ∗φ. Os modelos logit, probit e t-Student são comparados em

cada painel.

A Figura 5.18 apresenta um resumo da distribuição a posteriori de alguns θ∗’s e todos osφ∗’s estimados sob o ajuste dos modelos logit, probit e t-Student para 100 réplicas simuladas domodelo probit. De acordo com o primeiro painel da 5.18, parece não existir tantas diferençasnos θ’s, em termos das estimativas pontuais, mas parece existir uma leve diferença em termosdos tamanhos dos intervalos. Olhando para o segundo painel da 5.18, parece haver uma levediferença nos φ’s em termos das estimativas pontuais, mas parece existir uma diferença maiorentre as estimações em termos dos tamanhos dos intervalos. Comparando as estimativas dos θ∗’se φ∗’s produzidas pelos três modelos, note que o modelo probit é o que produz estimativas maisacuradas e precisas. É possível afirmar que baseando-se na escala transformada, o modelo probité mais robusto porque consegue estimar melhor as posições ideológicas de todos os indivíduosdo estudo (usuários comuns e atores políticos). Considerando os dados probit, observou-se que

64

Page 82: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

o modelo probit produziu as estimativas mais acuradas e mais precisas para os parâmetros ehiperparâmetros avaliados.

A Figura 5.19 apresenta as probabilidades de seguimento verdadeiras e estimadas. É possívelnotar que as probabilidades estão sendo bem estimadas pelos modelos logit e t-Student.

Fre

quên

cia

020

060

010

00

0 0.2 0.4 0.6 0.8 1

Modelo logit

Probabilidade verdadeira

Probabilidade estimada

Fre

quên

cia

020

060

010

00

0 0.2 0.4 0.6 0.8 1

Modelo probit

Probabilidade verdadeira

Probabilidade estimada

Fre

quên

cia

020

060

010

00

0 0.2 0.4 0.6 0.8 1

Modelo t−Student

Probabilidade verdadeira

Probabilidade estimada

Figura 5.19: Probabilidades de seguimento verdadeiras e estimadas.

5.2.3 Cenário 3

Nesta seção serão descritos os resultados obtidos pelo ajuste dos dados t-Student aos trêsmodelos apresentados nesta dissertação. O primeiro painel da Figura 5.20 mostra que asestimativas dos α’s estão próximas de zero em todas as estimações, como esperado. Comparandoas estimativas dos α’s produzidas pelos três modelos, note que o modelo t-Student produzestimativas mais acuradas e menos precisas e o modelo probit produz estimativas mais precisase menos acuradas.

Observe que a variabilidade dos α’s nos modelos logit e probit é menor que a variabilidade nomodelo t-Student. Comparando o ajuste probit e logit, perceba que os α’s avaliados apresentammaior variabilidade sob o ajuste do modelo logit. Espera-se que σ2t−Student

α > σ2logit

α > σ2probit

α .O terceiro painel mostra que a média das médias a posteriori de σ2

α é menor sob o ajuste domodelo probit e maior sobre o ajuste do modelo t-Student corroborando o que foi dito acima.Em termos de valores, σ2probit

α = 0, 05, σ2logit

α = 0, 14 e σ2t−Studentα = 0, 20.

O segundo painel da Figura 5.20 mostra que as estimativas dos β’s estão próximas deum em todas as estimações. Parece que sob o ajuste do modelo probit os β’s estão sendoconsistentemente subestimados. É de se esperar que µt−Studentβ > µlogitβ > µprobitβ . Em termosde valores, µprobitβ = 0, 5, µlogitβ = 0, 85 e µt−Studentβ = 1, 01.

65

Page 83: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

−3

−2

−1

01

23

α1 α5 α74 α138 α197

●● ●

● ●● ● ●

● ●●

●●

●●

● ● ●●

Modelo logit

−3

−2

−1

01

23

α1 α5 α74 α138 α197

● ● ●● ●

● ● ● ● ●●

●●

●● ● ● ●

●●

Modelo probit

−3

−2

−1

01

23

α1 α5 α74 α138 α197

●● ●

● ●● ● ●

● ●●

●●

● ● ● ●

●●

Modelo t−Student−

3−

2−

10

12

3

β1 β5 β9 β13 β17

●●

●●

● ●●

●●

●●

Modelo logit

−3

−2

−1

01

23

β1 β5 β9 β13 β17

● ●

●●

● ● ● ●●

●●

●●

Modelo probit

−3

−2

−1

01

23

β1 β5 β9 β13 β17

● ●

● ●●

● ●●

●●

Modelo t−Student

01

2

µβ σα2 σβ

2

Modelo logit

01

2

µβ σα2 σβ

2

●●

Modelo probit

01

2

µβ σα2 σβ

2

Modelo t−Student

Figura 5.20: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de α e β,respectivamente, µα e µβ . Os modelos logit, probit e t-Student são comparados em cada painel.

66

Page 84: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

As estimativas dos β’s em termos de acurácia e precisão possuem as mesmas característicasdas estimativas dos α’s. A variabilidade dos β’s nos modelos logit e probit é menor quea variabilidade no modelo t-Student. Comparando o ajuste probit e logit, perceba que osβ’s avaliados apresentam maior variabilidade sob o ajuste do modelo logit. Espera-se queσ2t−Student

β > σ2logit

β > σ2probit

β . Em termos de valores, σ2probit

β = 0, 13, σ2logit

β = 0, 32 eσ2t−Student

β = 0, 29. Comparando as estimativas dos hiperparâmetros µβ, σ2α e σ2

β produzidaspelos três modelos, note que o modelo t-Student produz estimativas mais acuradas e menosprecisas e o modelo probit produz estimativas mais precisas e menos acuradas.

Valor verdadeiro de αMéd

ia d

as m

édia

s a

post

erio

ri de

α−

1.5

−0.

50.

51

1.5

−1.5 −0.5 0.5 1 1.5

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

● ●

●●●

●●

● ●●●

●●

● ●●

●●

●●●●●

●●● ●

●●

●●

●●●●

●●

●●● ●●●

●●

●●

●●

●●

●●

●●●

●●●

● ●

●●

● ●

●●●

●●

● ●● ●

●●

●●

● ●

●●

●●

●●

●●

●● ●●

● ●●

●●● ●●

●●●●

●●

●● ●

Modelo logit

Valor verdadeiro de αMéd

ia d

as m

édia

s a

post

erio

ri de

α−

1.5

−0.

50.

51

1.5

−1.5 −0.5 0.5 1 1.5

●● ●

●●●

●● ●●

●●●

●●●● ●

●●●

●●

● ●●

●●●

● ●

●●●●

●●●

●●

●● ●●

●●●

● ●●

●●

●●●

●●

●●●●●

●● ● ●●

●●

●●

●●

●● ●

●●●●●

●●

● ●●

●● ●● ● ●●●

●●●

●●

●●●●

●●

●●●●●●

●● ●

●●●

●●

● ●●●

●●

● ●● ●

●●

●●

● ●● ●●

●●

●●

●●●● ●

●●

● ●●

●●● ●●●

●●

●●●

●●●●

●●

●●● ●

●●

Modelo probit

Valor verdadeiro de αMéd

ia d

as m

édia

s a

post

erio

ri de

α−

1.5

−0.

50.

51

1.5

−1.5 −0.5 0.5 1 1.5

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

● ●●●

● ●●

●●

●●●

●●

●●

● ●●

●●

●●

●●●●

●●

●● ●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

● ●●

●●

● ●

●●●

●●

●● ●●

● ●

●●● ●●

●●

●●

●●

●●●

Modelo t−Student

Figura 5.21: Valores verdadeiros versus valores estimados dos α’s.

Na Figura 5.21 são mostrados os gráficos dos valores verdadeiros versus os valores estimados(média a posteriori) dosα’s. Os resultados confirmam que osα’s são satisfatoriamente estimados,independente do modelo utilizado e parece não haver diferenças significativas entre eles nas trêsestimações.

A Figura 5.22 apresenta os erros quadráticos médios e as taxas de cobertura dos α’s e β’s.Neste Cenário 3, espera-se que o modelo t-Student produza menores erros quadráticos médios emaiores taxas de cobertura, por ser o modelo gerador dos dados. Os gráficos apresentados naFigura 5.22 corroboram essa suposição pois os EQM’s são menores sob o ajuste do modeloprobit para todos os α’s e β’s. Observando as taxas de cobertura, note que o modelo probit é oque produz as menores taxas para os α’s e β’s e o modelo t-Student é o que produz as maiorestaxas.

67

Page 85: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

α

00.

51

1.5

1 50 100 150 200

●●

●●

●●

●●●●

●●

●●

●●●

●●

●●●●●

●●●

●●

●●●

●●●

●●

●●

●●

●●

●●●●●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●●●●

●●

●●

EQM

logitprobitt−Student

α

0%20

%40

%60

%80

%10

0%

1 50 100 150 200

●●●●●

●●

●●

●●●●

●●●●●

●●

●●

●●●●●●●

●●●●●

●●●

●●●

●●

●●●

●●●●●

●●●

●●●

●●●

●●●●●●●●

●●

●●●●●

●●●●●

●●●

●●

●●●●

●●

●●●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●●●

●●●●●●●

●●

Taxa de cobertura●logit probit t−Student

β

01

23

1 5 10 15 20

● ●

● ● ● ● ● ● ●●

●● ● ● ●

EQM

logitprobitt−Student

β

0%20

%40

%60

%80

%10

0%

1 5 10 15 20

● ● ●

● ● ● ●● ●

● ●

● ●●

Taxa de cobertura●logit probit t−Student

Figura 5.22: Erro quadrático médio (EQM) e taxa de cobertura dos α’s e dos β’s relativos às100 réplicas simuladas do modelo t-Student.

A Figura 5.23 apresenta um resumo das estimativas pontuais e intervalares das médias aposteriori de uma parcela dos θ’s, dos φ’s e dos hiperparâmetros relativos à φ, obtidas peloajuste das 100 réplicas simuladas do modelo probit aos modelos logit, probit e t-Student. Os doisprimeiros painéis da Figura 5.23 mostram que não existem diferenças entre os θ’s e φ’s, nem emtermos das estimativas pontuais (média das médias a posteriori), nem termos de tamanho dointervalo, mas essa diferença era esperada.

De acordo com o terceiro painel da Figura 5.23, percebe-se que o parâmetro µφ estásendo bem estimado nos três modelos e o parâmetro σ2

φ está sendo bem estimado pelosmodelos logit e probit, pois eles estão produzindo estimativas acuradas. Em termos de valores,µprobitφ = 0, 07, µlogitφ = 0, 06, µt−Studentφ = 0, 07 estão próximos do valor verdadeiro de µφ, queé 0 e σ2probit

φ = 2, 66, σ2logit

φ = 2, 55 e σ2t−Student

φ = 2, 20.

68

Page 86: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

−3

−2

−1

01

23

θ1 θ5 θ74 θ138 θ197

● ●

●●

●●

● ●●

Modelo logit

−3

−2

−1

01

23

θ1 θ5 θ74 θ138 θ197

● ●

●●

●●

● ●●

Modelo probit

−3

−2

−1

01

23

θ1 θ5 θ74 θ138 θ197

● ●

●●

● ●

● ●●

Modelo t−Student−

3−

2−

10

12

3

φ1 φ5 φ9 φ13 φ17

● ●●

●●

●●

Modelo logit

−3

−2

−1

01

23

φ1 φ5 φ9 φ13 φ17

● ●●

●●

Modelo probit

−3

−2

−1

01

23

φ1 φ5 φ9 φ13 φ17

●● ●

●●

Modelo t−Student

01

23

4

µφ σφ2

Modelo logit

01

23

4

µφ σφ2

Modelo probit

01

23

4

µφ σφ2

Modelo t−Student

Figura 5.23: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias.As linhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ e φ,respectivamente, µθ e µφ. Os modelos logit, probit e t-Student são comparados em cada painel.

69

Page 87: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Valor verdadeiro de θ

Méd

ia d

as m

édia

s a

post

erio

ri de

θ−

3−

2−

10

12

3

−3 −2 −1 0 1 2 3

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

Modelo logit

Valor verdadeiro de θ

Méd

ia d

as m

édia

s a

post

erio

ri de

θ−

3−

2−

10

12

3

−3 −2 −1 0 1 2 3

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

Modelo probit

Valor verdadeiro de θ

Méd

ia d

as m

édia

s a

post

erio

ri de

θ−

3−

2−

10

12

3

−3 −2 −1 0 1 2 3

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

Modelo t−Student

Figura 5.24: Valores verdadeiros versus valores estimados dos θ’s.

θ

00.

51

1.5

1 50 100 150 200

●●●

●●

●●●

●●●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●●

●●●

●●●

●●

●●●●

●●●

●●●●●●

●●●●●

●●

●●

●●●●

●●●

●●●●●

●●

●●●

●●●

●●●●●

●●

●●

●●

●●●

●●●

●●●●

●●●●●●●●

●●

●●●●

●●

●●

EQM

logitprobitt−Student

θ

0%20

%40

%60

%80

%10

0%

1 50 100 150 200

●●●●●

●●●

●●

●●●

●●●●●

●●●●

●●●●●

●●

●●●●

●●●●●●●●●

●●

●●

●●

●●●

●●●●

●●

●●●

●●

●●●

●●

●●●●

●●

●●●

●●●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●●●

●●●●

●●

●●●

●●●●●●

●●

●●

●●●●●

●●●●●

●●●●

●●●

●●●

●●●●

●●

Taxa de cobertura●logit probit t−Student

φ

00.

10.

20.

3

1 5 10 15 20

●●

● ●● ●

●●

●●

EQM

logitprobitt−Student

φ

0%20

%40

%60

%80

%10

0%

1 5 10 15 20

● ●

● ● ●●

● ●●

●●

Taxa de cobertura●logit probit t−Student

Figura 5.25: Erro quadrático médio (EQM) e taxa de cobertura dos θ’s e dos φ’s relativos às100 réplicas simuladas do modelo t-Student.

70

Page 88: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Na Figura 5.24 são apresentados os valores verdadeiros versus os valores estimados (médiaa posteriori) de todos os θ’s. Note que os θ’s são satisfatoriamente estimados, independente domodelo utilizado e parece não haver diferenças significativas entre eles nas três estimações.

A Figura 5.25 apresenta os erros quadráticos médios e as taxas de cobertura dos θ’s e φ’s.Assim como descrito para os α’s e β’s, espera-se que o modelo gerador dos dados, no casot-Student, produza menores os erros quadráticos médios e as maiores taxas de cobertura para θ’se φ’s. Os gráficos da Figura 5.25 corroboram essa suposição pois os EQM’s são menores sob oajuste do modelo t-Student para todos os θ’s e φ’s. O modelo probit foi o que produziu maioresEQM’s para os θ’s e φ’s. Analisando as taxas de cobertura, note que todos os três modelosproduzem taxas relativamente altas.

A Figura 5.26 apresenta um resumo das estimativas pontuais e intervalares das médias aposteriori do parâmetro γ, obtidas pelo ajuste das 100 réplicas simuladas do modelo probit aostrês modelos.

0.3

0.8

1.2

γlogit γprobit γt−Student

Dados t−student

Figura 5.26: Média das médias a posteriori (círculo) e intervalo que engloba do quantil 2,5%ao quantil 97,5% das estimativas pontuais dadas pelas médias. A linha tracejada em vermelhorepresenta o valor verdadeiro de γ, 0,8, utilizado para a simulação dos dados t-Student.

Pela Figura 5.26 é possível notar que a estimativa pontual e os intervalos de γ foramdiferentes em cada modelo. Como era de se esperar, o modelo probit produz uma estimativa maisacurada, isto é, mais próxima do valor verdadeiro. Em termos de valores, tem-se que γlogit =

0, 54 e (qγ0,025, qγ0,975)logit = (0, 42; 0, 63), γprobit = 0, 3 e (qγ0,025, q

γ0,975)probit = (0, 23; 0, 38) e

γt−Student = 0, 79 e (qγ0,025, qγ0,975)t−Student = (0, 65; 0, 92). Os intervalos obtidos sob o ajuste

dos três modelos não se sobrepõem, então pode-se afirmar que γlogit, γprobit e γt−Student sãosignificativamente diferentes.

A Figura 5.27 apresenta um resumo da distribuição a posteriori de alguns θ∗’s e todos osφ∗’s estimados sob o ajuste dos modelos logit, probit e t-Student para 100 réplicas simuladas do

71

Page 89: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

modelo t-Student. De acordo com o primeiro painel da 5.27, parece não existir tantas diferençasnos θ’s, em termos das estimativas pontuais, mas parece existir uma leve diferença em termosdos tamanhos dos intervalos. Olhando para o segundo painel da 5.27, parece haver uma levediferença nos φ’s em termos das estimativas pontuais, mas parece existir uma diferença maiorentre as estimações em termos dos tamanhos dos intervalos. Comparando as estimativas dos θ∗’se φ∗’s produzidas pelos três modelos, note que o modelo t-Student é o que produz estimativasmais acuradas e precisas.

−3

−2

−1

01

23

θ1* θ5

* θ74* θ138

* θ197*

● ●

●●

●●

● ●●

Modelo Logit−

3−

2−

10

12

3

θ1* θ5

* θ74* θ138

* θ197*

● ●

●●

●●

● ●●

Modelo Probit

−3

−2

−1

01

23

θ1* θ5

* θ74* θ138

* θ197*

● ●

●●

● ●

● ●●

Modelo t−Student

−3

−2

−1

01

23

φ1* φ5

* φ9* φ13

* φ17*

● ●●

●●

●●

Modelo Logit

−3

−2

−1

01

23

φ1* φ5

* φ9* φ13

* φ17*

● ●●

●●

Modelo Probit−

3−

2−

10

12

3

φ1* φ5

* φ9* φ13

* φ17*

●● ●

●●

Modelo t−Student

Figura 5.27: Valores verdadeiros (“×"azul), média das médias a posteriori (círculo) e intervaloque engloba do quantil 2,5% ao quantil 97,5% das estimativas pontuais dadas pelas médias. Aslinhas tracejadas em vermelho nos dois primeiros paineis representam as médias de θ∗ e φ∗,respectivamente, µ∗θ e µ∗φ. Os modelos logit, probit e t-Student são comparados em cada painel.

72

Page 90: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

A Figura 5.28 apresenta as probabilidades de seguimento verdadeiras e estimadas. É possívelnotar que as probabilidades estão sendo bem estimadas pelos modelos logit e t-Student.

Fre

quên

cia

020

060

010

00

0 0.2 0.4 0.6 0.8

Modelo logit

Probabilidade verdadeira

Probabilidade estimada

Fre

quên

cia

020

060

010

000 0.2 0.4 0.6 0.8

Modelo probit

Probabilidade verdadeira

Probabilidade estimada

Fre

quên

cia

020

060

010

00

0 0.2 0.4 0.6 0.8

Modelo t−Student

Probabilidade verdadeira

Probabilidade estimada

Figura 5.28: Probabilidades de seguimento verdadeiras e estimadas.

Considerando os dados t-Student, observou-se que omodelo t-Student produziu as estimativasmais acuradas para os parâmetros e hiperparâmetros avaliados, mas menos precisas. O objetivoprincipal sempre foi produzir estimativas acuradas, buscando, sempre que possível, aumentar aprecisão das estimativas. O ideal, então, seria buscar ummodelo que produzisse ao mesmo tempoestimativas acuradas e precisas. Olhando para as estimativas dos parâmetros e hiperparâmetrosproduzidas pelos modelo logit, é possível observar que elas possuem as mesmas precisões que asproduzidas pelo modelo t-Student. Então o modelo t-Student parece ser o que produziu melhorajuste.

5.2.4 Análise dos postos dos θ’s e φ’s

Como os valores verdadeiros dos θ’s e φ’s são conhecidos, foi possível ordená-los a fim dedescobrir seus postos verdadeiros. Nesta seção, o interesse é avaliar se, ordenando as médias aposteriori dos parâmetros e calculando seus postos, serão obtidos postos semelhantes aos postosverdadeiros.

73

Page 91: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Tabela 5.7: Nomes, valores verdadeiros, postos e estatísticas de ordem referentes aos φ’sverdadeiros.

Parâmetro Valor verdadeiro Posto Est. ordem φ’s em ordem crescenteφ1 -1,00 6 φ(1) φ5

φ2 1,00 15 φ(2) φ4

φ3 -0,62 9 φ(3) φ6

φ4 -1,84 2 φ(4) φ10

φ5 -2,58 1 φ(5) φ11

φ6 -1,56 3 φ(6) φ1

φ7 -0,79 7 φ(7) φ7

φ8 0,04 10 φ(8) φ9

φ9 -0,77 8 φ(9) φ3

φ10 -1,53 4 φ(10) φ8

φ11 -1,01 5 φ(11) φ17

φ12 1,76 19 φ(12) φ16

φ13 1,75 18 φ(13) φ18

φ14 1,67 17 φ(14) φ19

φ15 1,06 16 φ(15) φ2

φ16 0,67 12 φ(16) φ15

φ17 0,44 11 φ(17) φ14

φ18 0,79 13 φ(18) φ13

φ19 1,00 14 φ(19) φ12

φ20 2,40 20 φ(20) φ20

É possível observar pela Tabela 5.7, que o menor valor dos φ’s é o φ5 e o maior é φ20.Portanto, o posto verdadeiro de φ5 é 1 e o posto verdadeiro de φ20 é 20. Espera-se que, ordenandoas médias a posteriori dos φ’s após cada ajuste, o φ5 continue tendo posto 1 e o φ20 continuetendo posto 20. Para facilitar a representação e vizualização dos postos, serão plotados os postosdas estatísticas de ordem dos φ’s, isto é, de φ(1), ..., φ(20), pois se sabe que o φ(1) tem posto 1, oφ(2) tem posto e e assim por diante.

As Figuras 5.29, 5.30 e 5.31 mostram que o ajuste dos dados logit, probit e t-Student aos trêsmodelos produzem estimativas das médias a posteriori dos θ’s e φ’s, cujos postos são muitosemelhantes aos postos verdadeiros. Portanto, pode-se afirmar que as estimativas das médiasproduzidas neste estudo de simulação não interferem na ordenação final dos usuários comuns eatores políticos. Se o objetivo de um pesquisador é apenas ordenar os indivíduos de acordo comsuas posições ideológicas, qualquer um dos três modelos avaliados podem ser utilizados porcumprirem bem esse papel.

74

Page 92: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Pos

to

150

100

150

200

θ(1) θ(50) θ(100) θ(150) θ(200)

●●●●●●●●●●

●●●●●●

●●●●●●●●

●●●●●

●●●●●

●●●●●

●●

●●●●●

●●●

●●●●●●●●

●●●●●●●●●●●●

●●●●●●●

●●●

●●

●●●●●●●●

●●●●

●●

●●●●●●●●●●●●●

●●●●●

●●●●

●●●●●●●●●●●●●

●●●●●

●●●●●●●

●●●●●●●●●

●●●●●

●●●●●

●●●●●●●●●●

●●●●●●●●●●●●

●●●●●●●●●

●●●

Modelo logit

Pos

to1

5010

015

020

0

θ(1) θ(50) θ(100) θ(150) θ(200)

●●●●●●●●●●●●●

●●●●●●

●●●●●●●●●●

●●●●●

●●●●●

●●

●●●●●

●●●

●●●●●●●●●●

●●●●●●●●●●

●●●●●●●

●●●

●●

●●●●●●●●

●●●●●●

●●●●●●●●

●●●●●

●●●●●

●●●

●●●●●●●●●●●●

●●●●●●

●●●●●●●

●●●●●●●●●

●●●●●

●●●●●

●●●●●●●●●●

●●●●●●●●●●●●

●●●●●●●●●

●●●

Modelo probit

Pos

to1

5010

015

020

0

θ(1) θ(50) θ(100) θ(150) θ(200)

●●●

●●●●●●●

●●●●●●

●●●●●

●●●●●●●●●●●●●

●●●●●●●●●

●●

●●●

●●

●●●●●●●●●●

●●●●●

●●●●

●●●●

●●●

●●

●●

●●●●●●●●

●●●●

●●

●●●●●●●●●●●●●●

●●

●●●●●●●

●●●●

●●●●●●●●●

●●●●●

●●●●●●●

●●●●●●●●●

●●●●●

●●●●●

●●●●●●●●●

●●●●●●●●●●●●

●●●●●●●●

●●●●

Modelo t−StudentP

osto

15

1015

20

φ(1) φ(5) φ(10) φ(15) φ(20)

● ●

●●

●●

● ●

Modelo logit

Pos

to1

510

1520

φ(1) φ(5) φ(10) φ(15) φ(20)

● ●

●●

●●

● ●

Modelo probit

Pos

to1

510

1520

φ(1) φ(5) φ(10) φ(15) φ(20)

● ●

●●

●●

●●

Modelo t−Student

Figura 5.29: Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo queengloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médias a posterioriproduzidas através do ajuste dos dados logit aos três modelos.

Pos

to1

5010

015

020

0

θ(1) θ(50) θ(100) θ(150) θ(200)

●●●●●●●●●●

●●●●●●●●●●●

●●

●●●●●

●●●●●●

●●●●

●●

●●●●

●●●●

●●●●●●●●

●●●●●

●●●●●●●●●

●●●●●●●

●●●

●●

●●●●●●●

●●●●●●●●

●●●●

●●●●●●●

●●

●●●●●●●

●●●●

●●●●●●●●●

●●●●

●●●●●●●●

●●●●●●●●●●

●●●●●

●●●●●

●●●●●●

●●●●●●●●●●●●●●

●●●●●

●●●●●●●

Modelo logit

Pos

to1

5010

015

020

0

θ(1) θ(50) θ(100) θ(150) θ(200)

●●●●●●●●●●

●●●●●●●●●●●

●●

●●●●

●●●●●●●

●●●●

●●

●●●●

●●●●

●●●●●●●●

●●●●●

●●●●●●●●●●●●●●●●

●●●

●●

●●●●●●●

●●●●●●●●

●●●●

●●●●●●●●

●●

●●●●●●●

●●●●

●●●●●●●●●

●●●●●●●●●●●●

●●●●●●

●●●●●●●●●

●●●●●

●●

●●●●●●

●●●●●●●●●●●●●●

●●●●●

●●●●●●●

Modelo probit

Pos

to1

5010

015

020

0

θ(1) θ(50) θ(100) θ(150) θ(200)

●●●

●●●●●●

●●●●●●●●

●●●●

●●

●●●●●●●●●●

●●

●●●●

●●●●●●●●●

●●●●●

●●●

●●●●●

●●●●

●●●●●

●●●●●●●

●●●

●●

●●●●●●●

●●●●●●●●●

●●●●●●●●●

●●

●●

●●●●●●●

●●●●

●●●●●●●●

●●●●●●●

●●●●●●

●●●●●●●●●●

●●●●●

●●●●●

●●●●●●●●●

●●

●●●●●●●●●

●●●●●

●●●●●●●

Modelo t−Student

75

Page 93: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Pos

to1

510

1520

φ(1) φ(5) φ(10) φ(15) φ(20)

● ●

●●

●●

●●

● ●●

Modelo logit

Pos

to1

510

1520

φ(1) φ(5) φ(10) φ(15) φ(20)

● ●

●●

●●

●●

● ●●

Modelo probit

Pos

to1

510

1520

φ(1) φ(5) φ(10) φ(15) φ(20)

● ●

●●

●●

●●

●●

Modelo t−Student

Figura 5.30: Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo queengloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médias a posterioriproduzidas através do ajuste dos dados probit aos três modelos.

Pos

to1

5010

015

020

0

θ(1) θ(50) θ(100) θ(150) θ(200)

●●●

●●●●●●

●●●●●●●

●●

●●●●●

●●●●●●●●●

●●●

●●●

●●●●●●●●

●●●●●●●●

●●●●

●●

●●●●●●

●●●●

●●

●●●

●●

●●●●●●●●●●●●

●●●●●●●●●●●●●

●●

●●

●●●●●●●

●●●●●●●●●●●●

●●●●

●●●●●●●

●●●●●●●●●

●●

●●●●●●●●

●●●●●●●●●●●

●●●●●●●●●

●●●●●●

●●●●●

Modelo logit

Pos

to1

5010

015

020

0

θ(1) θ(50) θ(100) θ(150) θ(200)

●●●

●●●●●●●●●●●

●●

●●

●●●●●

●●●●●●●●●

●●●

●●●

●●●●●●●●

●●●●●●●●

●●●●

●●

●●●●●●

●●●●

●●

●●●

●●

●●●●●●●●●●●●

●●●●●●●●●●●●●

●●

●●

●●●●●●●

●●●●●●●●●●●●

●●●●

●●●●●●●

●●●●●●●●●

●●

●●●●●●

●●

●●●●●●●●●●●

●●●●●●●●●

●●●●

●●●●●●●

Modelo probit

Pos

to1

5010

015

020

0

θ(1) θ(50) θ(100) θ(150) θ(200)

●●●

●●●●●●●

●●●●●●

●●●●●●●

●●●●●●●

●●●●●●●●●●

●●●●●●●●

●●

●●●

●●●●●●

●●

●●

●●●●●●

●●●

●●

●●●●●●●●●●●●

●●●●●●●●●

●●●●

●●

●●

●●●●●●

●●●●●●●●●●●●●

●●●●

●●●●●●●

●●●●●●●●

●●●●●

●●●●●

●●●●●●●●●●●

●●●●●●●●●

●●●●●●●●●●●

Modelo t−Student

Pos

to1

510

1520

φ(1) φ(5) φ(10) φ(15) φ(20)

● ●

●●

●●

●●

Modelo logit

Pos

to1

510

1520

φ(1) φ(5) φ(10) φ(15) φ(20)

●● ●

●●

● ●●

● ●

Modelo probit

Pos

to1

510

1520

φ(1) φ(5) φ(10) φ(15) φ(20)

● ●

●●

●●

● ●

Modelo t−Student

Figura 5.31: Média dos postos das médias a posteriori (círculo) dos θ’s e φ’s e intervalo queengloba do quantil 2,5% ao quantil 97,5% das estimativas dos postos das médias a posterioriproduzidas através do ajuste dos dados t-Student aos três modelos.

76

Page 94: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

5.2.5 Comparação dos modelos

Para cada amostra foram calculados a média e o desvio padrão a posteriori dos parâmetros eos critérios de seleção de modelos DIC e LPML. O LPML é um critério que mede a qualidadepreditiva do modelo e o DIC é um critério que avalia o ajuste do modelo a um determinadoconjunto de dados. Para a construção dos gráficos da Figura 5.32, considerou-se que o melhormodelo foi aquele com menor valor de DIC e maior valor de LPML.

0

25

50

75

100

logit probit t−Student

Por

cent

agem

DIC

0

25

50

75

100

logit probit t−Student

Por

cent

agem Modelo

Ajustadologitprobitt−Student

LPML

Figura 5.32: Porcentagem de vezes que o modelo gerador dos dados foi identificado corretamentecom base nos critérios DIC e LPML, para 100 replicações do modelo logit, probit e t-Student. Asabscissas correspondem aos conjuntos de dados e as legendas aos modelos que foram ajustados.

É possível observar na Figura 5.32, de acordo com o critério DIC, que para os dados probito modelo probit foi o melhor modelo em 100% dos dados. Para os dados t-Student, o modelot-Student foi o que melhor se ajustou em 97% dos dados. Por outro lado, para os dados logito modelo probit foi o melhor modelo em 98% dos dados. Acredita-se que os modelos logit eprobit sejam de alguma forma semelhantes e isso pode estar sendo a causa do confundimentoentre esses modelos para os dados gerados do modelo com função de ligação logit. Vale ressaltarque os conjuntos de dados gerados são valores 0 e 1. Verificou-se por análises feitas durante essadissertação, mas que não são apresentadas aqui, que a maior parte das probabilidades geradas ouestimadas estão na cauda inferior das funções de ligação, isto é, a maior parte das probabilidadessão próximas de 0. Conjectura-se que os dados logit estão gerando probabilidades bem próximasde 0 e que isso está fazendo com que o modelo probit seja preferível na maioria das vezes, dado

77

Page 95: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

que este último modelo decai mais rápido para 0.De acordo com o critério LPML, para os dados probit, o modelo probit foi o que melhor

se ajustou em 87% dos dados e para os dados t-Student o modelo t-Student foi o que melhorse ajustou em 98% dos dados. É possível notar que existe uma diferença bem grande entre osresultados dos dois critérios quando os dados logit são avaliados. De acordo com o LPML, omodelo verdadeiro (logit) consegue ser identificado em 41% dos dados, e nos outros 59% omodelo probit é identificado como o melhor modelo. Apesar do DIC e do LPML apresentaremessa diferença com relação aos dados logit, os dois critérios mostram que quando os dados sãoprobit ou t-Student, os modelos geradores são mais fáceis de serem identificados corretamente.

78

Page 96: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Capítulo 6

Aplicação à dados reais

Neste capítulo, será realizada uma aplicação dos modelos logit, probit e t-Student a umconjunto de dados reais referente aos deputados federais e senadores que estavam em exercíciono início de Julho de 2017. Todas as informações referentes a esses políticos foram obtidas pelossites da câmara dos deputados e do senado federal. Após obtidas as listas com os deputados esenadores em exercício, verificou-se quais deles tinham uma conta ativa no Twitter. Assumiu-secomo ativa uma conta cujo o usuário enviou pelo menos uma mensagem (Tweet) ao longo do anode 2017. Após essa verificação, foram selecionados todos os amigos dos deputados e senadoresatravés do API REST do Twitter, uma aplicação que permite a qualquer usuário acesso aos dadosdo Twitter, como por exemplo Tweets, Search, Direct Messages, Users, Followings, Followers eTrends de outros usuários. Esses amigos foram selecionados para ajudar na escolha dos atorespolíticos.

Barberá (2015) em seu artigo, escolheu a lista dos atores políticos de cada país com baseem seu conhecimento político e considerou como usuários comuns os seguidores(followers)desses atores que obedeciam a certas restrições. Nesta dissertação serão considerados comousuários comuns, os deputados e senadores. Devido à falta de conhecimento político suficientepara determinar os atores políticos no contexto brasileiro, utilizou-se um critério que define seum perfil pode ser considerado ou não um ator político. De acordo com o critério assumido,um perfil é considerado um ator político se é seguido por pelo menos w usuários comuns. Porexemplo, suponha que em um particular cenário político existem dois deputados e três senadoresem exercício: Deputado 1, Deputado 2, Senador 1, Senador 2 e Senador 3. Assuma que oDeputado 1 tem 80 amigos, o Deputado 2 tem 100 amigos, o Senador 1 tem 100 amigos, oSenador 2 tem 120 amigos e o Senador 3 tem 50 amigos. Um amigo será considerado umator político se for seguido por pelo menos 100 deputados ou senadores. Suponha que dos

79

Page 97: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

450 amigos, 40 deles são seguidos por pelos menos 100 deputados ou atores. Então, para esseexemplo em particular, vão existir 40 atores políticos e 5 usuários comuns.

Nesta dissertação assumiu-se como ator político o perfil que era seguido por ao menos 100deputados ou senadores. Dos milhares de amigos existentes, apenas 107 obedeciam a essarestrição. Ao final a matriz social (conjunto de dados reais) ficou composta por 330 deputados,71 senadores e 107 atores políticos. Como os deputados e senadores serão consideradosconjuntamente usuários comuns, tem-se que n = 401 em = 107. A lista dos 330 deputados, 71senadores e 107 atores políticos com seus respectivos partidos estão representadas nas TabelasA.1, A.2 e A.3, respectivamente, no Apêndice A.

Para a execução do MCMC, foram geradas 3 cadeias de tamanho 25.000, com um períodode aquecimento de 5.000 e uma defasagem de 50, resultando em uma amostra final de tamanho1.200 para cada parâmetro. No processo de estimação, foi necessário fixar µα = 0, µθ = 0

e σ2θ = 1 para resolver os problemas de identificação dos modelos. As distribuições a priori

usadas foram as seguintes: µβ∼N (0; 1000), σ2α∼GI(0, 01; 0, 01), σ2

β∼GI(0, 01; 0, 01),µφ∼N (0; 1000), σ2

φ∼GI(0, 01; 0, 01) e γ∼G(0, 01; 0, 01). De acordo com Barberá (2015),é aconselhável inicializar as cadeias de alguns φj’s com os valores -1 e 1, para evitar o problemade reflexão da escala, que se dá quando k = −1 no problema de Multiplicative alising descritona Seção 4.3. Baseado no artigo de Souza et al. (2017), optou-se em inicializar as cadeias dosparâmetros referentes aos perfis listados na Tabela 6.1.

Tabela 6.1: Lista dos perfis que tiveram suas cadeias inicializadas em -1 ou 1.

Nomes Twitter Sobre o perfilValorinicial

Dilma Rousseff dilmabr Ex-presidente Dilma Rousseff -1Alexandre Padilha padilhando Ex-ministro Alexandre Padilha -1Geraldo Alckmin geraldoalckmin_ Governador de São Paulo Geraldo Alckmin 1Blog Dilma BR blogdilmabr Perfil de apoio à ex-presidente Dilma Rousseff -1Eduardo Suplicy esuplicy Vereador Eduardo Suplicy -1

PT Brasil ptbrasil Partido dos Trabalhadores -1

Para avaliar a convergência das cadeias, utilizou-se o critério de Raftery e Lewis (1992)e analisou-se os traços das cadeias. Como n = 401 e m = 107, 1022 parâmetros (401 α’s,401 θ’s, 107 β’s, 107 φ’s e 1 γ) e 5 hiperparâmetros (µβ, µφ, σ2

α, σ2β e σ2

φ) foram estimados.Considerando todos os três ajustes, foram analisados 3066 gráficos com os traços das cadeiasdos parâmetros. Como é inviável representar todos esses gráficos nesta dissertação, para fins da

80

Page 98: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

análise de convergência, serão apresentados apenas os resultados provenientes do critério deRaftery e Lewis (1992). A Figura 6.1 apresenta os resultados do critério para ajuste dos modeloslogit, probit e t-Student.

n mín

020

060

010

00

1 250 500 750 1022

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●

●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●

●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●

●●●●●●●●●●●●●

●●●●●●●

●●●●

●●●●●●●●●

●●●●●●●●

●●

●●●●

●●●●●●

●●●●●●●●●●●●●●●

●●●●●●●

●●●●●●●●●●●●●●●●

●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●

●●●●●

●●●●●

●●●●●●●●●●●

●●

●●●●●●●●●●●●●

●●●

●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

●●●

●●●●●●●●●●●●

●●●●●●●●●

●●

●●●●●●●●

●●●●●●●●

●●●●●●●●●●●●●●●

●●●●

●●●●●

●●●●

●●●●●●●●●●●●●●●●●●

●●●●●●●●

●●●●●●●●●●●●●●

●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●

●●●●●●

●●

●●●●●●●●●

●●●●●●

●●●●●●●●●●●●

●●●●

Dados Reais

logitprobitt−Student

Figura 6.1: Resultados do critério de Raftery e Lewis (1992) para cada modelo, obtidos combase no ajuste do conjunto de dados reais aos três modelos.

Pode-se observar na Figura 6.1, que foram necessárias menos de 400 iterações para quetodos os parâmetros convergissem, nos diferentes modelos. Portanto, não há suspeita de nãoconvergência dos parâmetros nos diferentes modelos dado que foi considerado um período deaquecimento de 5.000.

Conforme apresentado no Capítulo 1, as estimativas produzidas pelo NECON serão utilizadaspara avaliar as estimativas obtidas pelo ajuste dos três modelos aos dados reais.

Pontos ideais estimados (Twitter)

Pon

tos

idea

is e

stim

ados

(ID

EA

L)

−3

−2

−1

01

23

−3 −2 −1 0 1 2 3

●●

●●

● ●

●●

●● ●

● ●

●●

● ●

●●

●●●

●●

●●

●●

●●

Modelo logit

Pontos ideais estimados (Twitter)

Pon

tos

idea

is e

stim

ados

(ID

EA

L)

−3

−2

−1

01

23

−3 −2 −1 0 1 2 3

●●

●●

● ●

●●

●● ●

● ●

●●

● ●

●●

●●●

●●

●●

●●

●●

Modelo probit

Pontos ideais estimados (Twitter)

Pon

tos

idea

is e

stim

ados

(ID

EA

L)

−3

−2

−1

01

23

−3 −2 −1 0 1 2 3

●●

●●

● ●

●●

●● ●

● ●

●●

● ●

●●

●●●

●●

●●

●●

●●

Modelo student

Figura 6.2: Comparação entre as estimativas dos pontos ideais produzidas pelo algoritmoIDEAL, referentes à primeira dimensão, e as produzidas pelos modelos logit, probit e t-Studentque utilizam os dados do Twitter.

Os pesquisadores do NECON utilizaram o modelo IDEAL para produzir as estimativas com

81

Page 99: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

base nas votações nominais de 2011 a 2014. É importante lembrar que o mandato dos senadoresé de oito anos e dos deputados é de quatro anos. Como se está em 2017, é provável que muitosdos deputados que foram considerados no estudo do NECON já não estejam mais em exercício.Portanto, para avaliar a qualidade das estimativas, serão utilizadas as estimativas dos deputadosfederais e senadores que pertencem às duas bases de dados. É possível notar na Figura 6.2 queexiste uma correlação positiva entre as estimativas do NECON e as estimativas obtidas pelostrês modelos. De uma certa maneira, isso mostra que os três modelos estão gerando estimativasconfiáveis para determinados deputados federais e senadores.

6.1 Comparação dos modelos propostosNesta seção avalia-se os critérios de comparação de modelos para verificar a adequabilidade

dos modelos propostos aos dados reais. Entre os critérios de comparação já descritos, escolhe-seo modelo que tenha de preferência o menor DIC e o maior LPML. A Tabela 6.2 apresenta umresumo dos critérios de comparação de modelos.

Tabela 6.2: Resultados dos critérios de seleção de modelos DIC e LPML para os modelosajustados.

Modelo DIC LPMLlogit 39970,981 -0,466probit 40021,197 -0,467

t-Student 40071,231 -0,469

Note que ambos os critérios indicam que o modelo logit parece ser o mais apropriado paramodelar os dados reais. As análises que serão apresentadas na próxima seção, serão baseadas nomodelo que resultou no melhor ajuste, isto é, no modelo logit. Mas, para facilitar a comparaçãocom os outros dois modelos caso o leitor esteja interessado em avaliar, serão apresentadasconjuntamente as estimativas produzidas pelos outros dois modelos, mas sem as interpretaçõescorrespondentes.

6.2 Resultados das análisesAs análises consideradas nesta dissertação não se focam na parte política e nem nas

implicações políticas pertinentes aos resultados. Para mais detalhes referentes às interpretações

82

Page 100: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

políticas das estimativas dos pontos ideais veja Souza et al. (2017), que avaliam as estimativasdos deputados federais e certos atores políticos, considerando-se o cenário político brasileiro.Nesta seção, o foco será analisar as estimativas dos pontos ideais e seus respectivos intervalosde credibilidade produzidos pelo melhor modelo, modelo logit, com o objetivo de classificaros indivíduos em “esquerda”, “direita” e “centro”. Existe uma vasta discussão na literaturaavaliando se é mais apropriado falar em “esquerda” e “direita” ou “governo” e “oposição”.Classificar os indivíduos em “governo” e “oposição” exige um vasto conhecimento, que não setem no momento, a respeito do cenário político brasileiro. Portanto, serão utilizados aqui ostermos “esquerda” e “direita”.

O critério utilizado para classificar os indivíduos foi o seguinte: usuários com pontos ideaisestimados menores que -1 e cujos intervalos de credibilidade estão completamente à esquerdado zero são classificados como indivíduos de “esquerda”; usuários com pontos ideais estimadosentre -1 e 1 ou com intervalos de credibilidade que contém o zero são classificados comoindivíduos de “centro” e usuários com pontos ideais estimados maiores que 1 e cujos intervalosde credibilidade estão completamente à direita do zero são classificados como indivíduos de“direita”. Para a construção dos gráficos que serão apresentados logo a seguir foi utilizado umoutro critério. Nesses gráficos a cor vermelha se refere apenas aos usuários com pontos ideaismenores que -1, a cor verde se refere aos usuários com pontos ideais estimados entre - 1 e 1 e acor azul se refere aos usuários com pontos ideais estimados maiores que 1, todos feitos semlevar em conta o intervalo de credibilidade. Então não é possível afirmar diretamente que osusuários representados em vermelho são de “esquerda”, os de verde são de "centro"e os de azulsão de "direita"porque é necessário também avaliar os intervalos de credibilidade.

Resultados para os deputados

A Figura 6.3 apresenta as estimativas dos pontos ideais dos deputados federais cujos pontosideais estimados são menores que -1. Como exemplo, pode-se notar que os deputados ValmirAssunção, Valmir Prascidelli e Luiz Sérgio do PT estão localizados à esquerda da escalaideológica de acordo com o modelo logit. Seus pontos ideais estimados são: -2,9; -2,68 e -2,87,respectivamente. Seus desvios padrões a posteriori são: 0,37; 0,41 e 0,45, respectivamente. Seusrespectivos intervalos de credibilidade de 95% são: (-3,67;-2,19), (-3,54;-1,9) e (-3,77;-2,02). Aestimativa do ponto ideal, desvio padrão e intervalo de credibilidade do deputado José Guimarãesdo PT, que foi estimado à esquerda da escala ideológica no artigo de Souza et al. (2017), sãodados por: -1,45; 0,28 e (-2,02;-0,93). Os quatro deputados apresentados são classificados comode “esquerda” de acordo com o critério assumido para a classificação.

83

Page 101: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

valmir assuncao

luiz sergio

valmir prascidelli

leonardo monteiro

nelson pellegrino

patrus ananias

vander loubet

zeca do pt

assis carvalho

saguas moraes

josias gomes

adelmo carneiro leao

beto faro

margarida salomao

jose mentor

luiz couto

luizianne lins

rubens otoni

decio lima

enio verri

afonso florence

pepe vargas

ana perugini

uldurico junior

reginaldo lopes

jose guimaraes

paulo pimenta

jose airton cirilo

vicente candido

jo moraes

padre joao

jhonatan de jesus

janete capiberibe

vicentinho

marcon

waldenor pereira

marco maia

zeca dirceu

helder salomao

leo de brito

wadih damous

bohn gass

pedro uczai

fabio mitidieri

maria do rosario

benedita da silva

nilto tatto

luciana santos

angelim

givaldo vieira

paulo teixeira

joao daniel

−3 −2 −1 0Orientação política

Dep

utad

osModelo logit

valmir assuncao

luiz sergio

valmir prascidelli

leonardo monteiro

nelson pellegrino

patrus ananias

zeca do pt

vander loubet

saguas moraes

assis carvalho

adelmo carneiro leao

josias gomes

margarida salomao

beto faro

luizianne lins

jose mentor

luiz couto

decio lima

rubens otoni

enio verri

afonso florence

reginaldo lopes

pepe vargas

paulo pimenta

uldurico junior

ana perugini

jose guimaraes

jose airton cirilo

vicente candido

padre joao

vicentinho

jo moraes

zeca dirceu

marcon

jhonatan de jesus

janete capiberibe

marco maia

waldenor pereira

bohn gass

leo de brito

wadih damous

helder salomao

nilto tatto

luciana santos

angelim

benedita da silva

pedro uczai

maria do rosario

paulo teixeira

alice portugal

givaldo vieira

ze carlos

−4 −3 −2 −1 0Orientação política

Modelo probit

luiz sergio

valmir prascidelli

valmir assuncao

nelson pellegrino

beto faro

patrus ananias

leonardo monteiro

assis carvalho

zeca do pt

vander loubet

pedro uczai

josias gomes

rubens otoni

helder salomao

luiz couto

adelmo carneiro leao

saguas moraes

jose mentor

enio verri

waldenor pereira

fabio mitidieri

luizianne lins

decio lima

jhonatan de jesus

jose guimaraes

janete capiberibe

margarida salomao

ana perugini

jose airton cirilo

marco maia

paulo pimenta

pepe vargas

jo moraes

reginaldo lopes

afonso florence

vicente candido

uldurico junior

padre joao

marcon

zeca dirceu

wadih damous

paulao

benedita da silva

maria do rosario

vicentinho

carlos gomes

givaldo vieira

−2 0 2Orientação política

Modelo t−Student

Figura 6.3: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas são menores que -1.

As Figuras 6.4, 6.5, 6.6 e 6.7 apresentam as estimativas dos pontos ideais dos deputadosfederais cujos pontos ideais estimados estão entre -1 e 1. A partir dessas figuras pode-senotar, como exemplo, que os intervalos de credibilidade dos pontos ideais dos deputados Lucasvergilio, do partido SD, e Júnior marreca, do partido PEN, incluem o zero. Seus pontos ideaisestimados são: -0,8 e -0,73, respectivamente. Seus desvios padrões a posteriori são: 0,63 e0,1, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-2,02;0,41) e

84

Page 102: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

(-1,52;0,07). A estimativa do ponto ideal, desvio padrão e intervalo de credibilidade da deputadaJandira Feghali, do PCdoB, que foi estimada à esquerda da escala ideológica no artigo de Souzaet al. (2017), são dados por: -0,80; 0,25 e (-1,31;-0.31). Os três deputados apresentados sãoclassificados como de “centro” de acordo com o critério assumido para a classificação.

ze carlos

alice portugal

jose stedile

luiza erundina

henrique fontana

odorico monteiro

carlos zarattini

chico dangelo

weliton prado

paulao

hildo rocha

erika kokay

daniel almeida

assis melo

jandira feghali

lucas vergilio

carlos gomes

geraldo resende

weverton rocha

edmilson rodrigues

junior marreca

domingos neto

severino ninho

jean wyllys

ze silva

orlando silva

alessandro molon

andre figueiredo

joao arruda

leonardo quintao

herculano passos

cajar nardes

goulart

ivan valente

beto salame

ronaldo carletto

paulo magalhaes

arlindo chinaglia

jorge solla

wolney queiroz

elcione barbalho

giovani cherini

alexandre serfiotis

moises diniz

iracema portella

aelton freitas

cabucu borges

chico alencar

sergio souza

nelson marquezelli

josue bengtson

expedito netto

jefferson campos

valadares filho

hugo leal

elizeu dionizio

tereza cristina

moses rodrigues

simone morgado

−2 −1 0 1Orientação política

Dep

utad

os

Modelo logit

fabio mitidieri

joao daniel

luiza erundina

carlos zarattini

henrique fontana

jose stedile

weliton prado

odorico monteiro

chico dangelo

hildo rocha

daniel almeida

assis melo

erika kokay

jandira feghali

paulao

lucas vergilio

weverton rocha

edmilson rodrigues

geraldo resende

jean wyllys

domingos neto

junior marreca

severino ninho

carlos gomes

orlando silva

alessandro molon

ze silva

andre figueiredo

leonardo quintao

joao arruda

herculano passos

goulart

cajar nardes

beto salame

ivan valente

paulo magalhaes

arlindo chinaglia

jorge solla

wolney queiroz

alexandre serfiotis

cabucu borges

giovani cherini

elcione barbalho

aelton freitas

moises diniz

iracema portella

chico alencar

ronaldo carletto

nelson marquezelli

sergio souza

expedito netto

alexandre valle

josue bengtson

elizeu dionizio

jefferson campos

tenente lucio

hugo leal

tereza cristina

moses rodrigues

−1 0Orientação política

Modelo probit

bohn gass

leo de brito

joao daniel

angelim

jose stedile

alice portugal

luciana santos

odorico monteiro

nilto tatto

ze carlos

chico dangelo

geraldo resende

erika kokay

paulo teixeira

hildo rocha

ze silva

henrique fontana

luiza erundina

assis melo

daniel almeida

jandira feghali

carlos zarattini

weliton prado

severino ninho

domingos neto

joao arruda

edmilson rodrigues

jean wyllys

junior marreca

orlando silva

weverton rocha

ronaldo carletto

alessandro molon

herculano passos

ivan valente

andre figueiredo

elcione barbalho

wolney queiroz

cajar nardes

goulart

lucas vergilio

giovani cherini

jorge solla

aelton freitas

leonardo quintao

moises diniz

iracema portella

sergio souza

jaime martins

chico alencar

cabucu borges

paulo feijo

beto salame

arlindo chinaglia

expedito netto

jorginho mello

simone morgado

wladimir costa

paulo foletto

−2 0 2Orientação política

Modelo t−Student

Figura 6.4: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 1.

85

Page 103: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

jorginho mello

paulo foletto

jaime martins

tenente lucio

paulo feijo

afonso hamm

alexandre valle

iraja abreu

luiz fernando faria

marcus vicente

wladimir costa

diego garcia

ze augusto nalin

carlos andrade

maria helena

professora dorinha seabra rezende

rafael motta

rogerio peninha mendonca

rodrigo pacheco

bruna furlan

dulce miranda

dr. jorge silva

leonardo picciani

beto rosado

heitor schuch

roberto goes

romulo gouveia

laercio oliveira

andre amaral

nelson padovani

joao rodrigues

augusto carvalho

keiko ota

carlos eduardo cadoca

evandro gussi

joao marcelo souza

abel mesquita jr

carlos henrique gaguim

elmar nascimento

genecias noronha

felipe bornier

josi nunes

leônidas cristino

marinaldo rosendo

paulo freire

jovair arantes

arnaldo jordy

joao paulo kleinübing

eduardo barbosa

izalci lucas

arolde de oliveira

hissa abrahão

walter alves

valdir colatto

waldir maranhao

vicentinho junior

celso pansera

arnaldo faria de sa

rubens pereira junior

−1 0 1Orientação política

Dep

utad

osModelo logit

jorginho mello

simone morgado

paulo foletto

valadares filho

luiz fernando faria

ze augusto nalin

rodrigo pacheco

wladimir costa

afonso hamm

maria helena

iraja abreu

marcus vicente

rafael motta

jaime martins

paulo feijo

carlos andrade

joao marcelo souza

diego garcia

professora dorinha seabra rezende

leonardo picciani

dr. jorge silva

andre amaral

beto rosado

laercio oliveira

roberto goes

rogerio peninha mendonca

bruna furlan

dulce miranda

keiko ota

heitor schuch

augusto carvalho

nelson padovani

elmar nascimento

carlos henrique gaguim

romulo gouveia

joao rodrigues

hissa abrahão

abel mesquita jr

carlos eduardo cadoca

evandro gussi

josi nunes

leônidas cristino

felipe bornier

marinaldo rosendo

arnaldo jordy

joao paulo kleinübing

celso jacob

genecias noronha

izalci lucas

jovair arantes

glauber braga

paulo freire

arolde de oliveira

arnaldo faria de sa

atila lira

waldir maranhao

celso pansera

valdir colatto

andre moura

−1.0−0.50.00.51.0Orientação política

Modelo probit

hugo leal

tereza cristina

romulo gouveia

rogerio peninha mendonca

diego garcia

moses rodrigues

elizeu dionizio

marcus vicente

alexandre serfiotis

heitor schuch

nelson marquezelli

ze augusto nalin

paulo freire

jefferson campos

carlos andrade

iraja abreu

maria helena

professora dorinha seabra rezende

josue bengtson

dr. jorge silva

carlos eduardo cadoca

afonso hamm

rafael motta

paulo magalhaes

dulce miranda

carlos henrique gaguim

bruna furlan

arolde de oliveira

luiz fernando faria

felipe bornier

beto rosado

joao rodrigues

roberto goes

leonardo picciani

genecias noronha

evandro gussi

walter alves

pompeo de mattos

izalci lucas

joao carlos bacelar filho

aliel machado

nelson padovani

eduardo barbosa

vicentinho junior

jovair arantes

waldir maranhao

leônidas cristino

valdir colatto

eliziane gama

conceicao sampaio

luiz lauro filho

augusto carvalho

julio cesar

marinaldo rosendo

lelo coimbra

jony marcos

delegado eder mauro

alex canziani

celso russomanno

−2 −1 0 1 2Orientação política

Modelo t−Student

Figura 6.5: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 2.

86

Page 104: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

glauber braga

julio cesar

andre moura

pompeo de mattos

fabio reis

joao carlos bacelar filho

renato andrade

stefano aguiar

luiz lauro filho

delegado eder mauro

givaldo carimbao

laudivio carvalho

celso jacob

jony marcos

alexandre leite

conceicao sampaio

pedro paulo

celso russomanno

jhc

evair vieira de melo

thiago peixoto

luis carlos heinze

eliziane gama

aliel machado

alex canziani

marcelo aguiar

roberto balestra

altineu cortes

toninho wandscheer

atila lira

luciano ducci

andre fufuca

christiane de souza yared

carlos bezerra

marco tebaldi

adilton sachetti

roberto de lucena

veneziano vital do rego

guilherme mussi

edmar arruda

pollyana gama

lelo coimbra

mariana carvalho

antonio jacome

flavinho

marcelo castro

jeronimo goergen

alex manente

antonio imbassahy

bebeto

marcelo alvaro antonio

marcos reategui

renzo braz

newton cardoso jr

marcus pestana

paulo azi

wilson filho

damina pereira

sergio zveiter

−1 0 1 2Orientação política

Dep

utad

osModelo logit

rubens pereira junior

walter alves

laudivio carvalho

fabio reis

givaldo carimbao

renato andrade

julio cesar

vicentinho junior

stefano aguiar

eduardo barbosa

luiz lauro filho

pompeo de mattos

joao carlos bacelar filho

toninho wandscheer

delegado eder mauro

alexandre leite

jony marcos

marcelo aguiar

roberto balestra

conceicao sampaio

altineu cortes

luis carlos heinze

evair vieira de melo

jhc

pedro paulo

luciano ducci

veneziano vital do rego

celso russomanno

thiago peixoto

eliziane gama

marco tebaldi

alex canziani

aliel machado

pollyana gama

remidio monai

andre fufuca

edmar arruda

carlos bezerra

marcelo alvaro antonio

adilton sachetti

guilherme mussi

christiane de souza yared

marcelo castro

bebeto

renzo braz

antonio imbassahy

antonio jacome

flavinho

roberto de lucena

tiririca

alex manente

wilson filho

mariana carvalho

marcos reategui

jeronimo goergen

lelo coimbra

sergio zveiter

paulo azi

marcus pestana

−1 0 1Orientação política

Modelo probit

christiane de souza yared

andre moura

arnaldo jordy

jeronimo goergen

rubens pereira junior

adilton sachetti

tenente lucio

abel mesquita jr

valadares filho

roberto de lucena

marcos rogerio

thiago peixoto

arnaldo faria de sa

alexandre leite

josi nunes

luis carlos heinze

guilherme mussi

newton cardoso jr

jhc

ronaldo nogueira

laercio oliveira

mariana carvalho

joao paulo kleinübing

paulo azi

stefano aguiar

arthur oliveira maia

augusto coutinho

marcus pestana

flavinho

pedro paulo

damina pereira

antonio jacome

marcos reategui

celso pansera

carlos bezerra

ronaldo fonseca

roberto balestra

andre amaral

luciano ducci

maia filho

jose priante

fabio reis

andre fufuca

paulo maluf

evair vieira de melo

antonio imbassahy

marcelo aguiar

rodrigo pacheco

evandro roman

givaldo carimbao

rogerio rosso

danilo forte

giuseppe vecci

alex manente

raimundo gomes de matos

fabio faria

elmar nascimento

bebeto

heraclito fortes

−3 −2 −1 0 1 2 3Orientação política

Modelo t−Student

Figura 6.6: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 3.

87

Page 105: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

augusto coutinho

ronaldo nogueira

ronaldo fonseca

julio lopes

danilo forte

arthur oliveira maia

raimundo gomes de matos

joao derly

marcos rogerio

eros biondini

caca leao

francisco chapadinha

fabio faria

maia filho

luiz carlos ramos

paulo maluf

evandro roman

tiririca

lobbe neto

alceu moreira

antonio bulhões

eduardo bolsonaro

remidio monai

pedro fernandes

jose priante

giuseppe vecci

rogerio rosso

joao fernando coutinho

juscelino filho

ricardo izar

marcelo aro

alberto fraga

paulo abi−ackel

heraclito fortes

caio narcio

cesar halum

mara gabrilli

luzia ferreira

reinhold stephanes

daniel vilela

geovania de sa

marcos abrao

delegado edson moreira

hugo motta

delegado waldir

vitor lippi

paulo pereira da silva

delegado francischini

covatti filho

sostenes cavalcante

laura carneiro

afonso motta

sandro alex

mauro mariani

pr. marco feliciano

rodrigo maia

soraya santos

rodrigo martins

bonifacio de andrada

−1 0 1 2Orientação política

Dep

utad

osModelo logit

julio lopes

newton cardoso jr

danilo forte

damina pereira

eros biondini

raimundo gomes de matos

ronaldo fonseca

fabio faria

francisco chapadinha

augusto coutinho

caca leao

joao derly

ronaldo nogueira

arthur oliveira maia

reinhold stephanes

marcos rogerio

evandro roman

lobbe neto

eduardo bolsonaro

maia filho

luiz carlos ramos

alceu moreira

antonio bulhões

pedro fernandes

paulo maluf

marcelo aro

laura carneiro

giuseppe vecci

joao fernando coutinho

ricardo izar

juscelino filho

jose priante

rogerio rosso

cesar halum

paulo abi−ackel

caio narcio

alberto fraga

delegado edson moreira

afonso motta

luzia ferreira

osmar bertoldi

geovania de sa

heraclito fortes

vitor lippi

mara gabrilli

daniel vilela

paulo pereira da silva

delegado waldir

covatti filho

marcos abrao

hugo motta

mauro mariani

sostenes cavalcante

pr. marco feliciano

delegado francischini

sandro alex

bonifacio de andrada

0 1 2Orientação política

Modelo probit

eduardo bolsonaroedmar arruda

luiz carlos ramosalceu moreira

mara gabrillikeiko ota

delegado francischinirenzo braz

delegado waldirhissa abrahão

hugo mottalobbe neto

glauber bragajuscelino filho

daniel vilelamarcos abrao

laudivio carvalhoricardo izar

caca leaomarco tebaldi

joao derlysergio zveiter

julio lopespaulo abi−ackel

alberto fragapaulo pereira da silva

joao fernando coutinhotoninho wandscheer

geovania de sasostenes cavalcante

wilson filhosandro alex

vitor lippicaio narciocovatti filho

veneziano vital do regopedro fernandesrenato andrade

eros biondinipollyana gamamauro marianisoraya santos

alexandre vallejoao marcelo souza

marcelo aroantonio bulhõesdarcisio perondi

pedro chavesvanderlei macris

celso jacobrodrigo maialaerte bessa

marcelo castrofrancisco chapadinha

rodrigo martinsluzia ferreira

cristiane brasilbeto mansur

rodrigo de castrojoao paulo papa

alfredo kaeferantonio carlos mendes thame

daniel coelhobenito gamabaleia rossi

altineu cortesefraim filho

pr. marco felicianofelipe maia

hiran goncalvesmarcelo alvaro antonio

rubens buenodelegado edson moreira

danilo cabrallucio vieira lima

otavio leitebetinho gomes

−2 0 2Orientação política

Modelo t−Student

Figura 6.7: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas entre -1 e 1 - Parte 4.

88

Page 106: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

A Figura 6.8 apresenta as estimativas dos pontos ideais dos deputados federais cujos pontosideais estimados são maiores que 1. Como exemplo, pode-se notar que os deputados EduardoCury, do PSDB, Roberto Freire, do PPS e Jair Bolsonaro, do PSC, estão localizados à direita daescala ideológica de acordo com o modelo logit.

antonio carlos mendes thame

cristiane brasil

darcisio perondi

alfredo kaefer

efraim filho

pedro chaves

osmar bertoldi

vanderlei macris

lucio vieira lima

laerte bessa

beto mansur

benito gama

otavio leite

giacobo

joao paulo papa

milton monti

felipe maia

onyx lorenzoni

danilo cabral

rubens bueno

daniel coelho

rodrigo de castro

baleia rossi

betinho gomes

rogerio marinho

hiran goncalves

alexandre baldy

joao campos

fabio sousa

nilson leitao

marcos montes

ezequiel teixeira

pedro cunha lima

carlos sampaio

luiz nishimori

carlos melles

sheridan

yeda crusius

pauderney avelino

jair bolsonaro

roberto freire

eduardo cury

0 1 2 3Orientação política

Dep

utad

os

Modelo logit

rodrigo martins

rodrigo maia

antonio carlos mendes thame

cristiane brasil

soraya santos

efraim filho

alfredo kaefer

darcisio perondi

milton monti

lucio vieira lima

vanderlei macris

pedro chaves

otavio leite

laerte bessa

benito gama

beto mansur

joao campos

giacobo

onyx lorenzoni

joao paulo papa

ezequiel teixeira

rogerio marinho

felipe maia

rubens bueno

betinho gomes

danilo cabral

alexandre baldy

daniel coelho

hiran goncalves

baleia rossi

rodrigo de castro

fabio sousa

marcos montes

pedro cunha lima

nilson leitao

carlos melles

carlos sampaio

luiz nishimori

sheridan

jair bolsonaro

yeda crusius

roberto freire

pauderney avelino

eduardo cury

0 1 2 3Orientação política

Modelo probit

fabio sousa

giacobo

onyx lorenzoni

cesar halum

carlos sampaio

sheridan

rogerio marinho

alexandre baldy

atila lira

tiririca

milton monti

bonifacio de andrada

nilson leitao

pauderney avelino

yeda crusius

afonso motta

laura carneiro

marcos montes

pedro cunha lima

joao campos

carlos melles

reinhold stephanes

roberto freire

remidio monai

osmar bertoldi

ezequiel teixeira

luiz nishimori

jair bolsonaro

eduardo cury

−2 0 2 4Orientação política

Modelo t−Student

Figura 6.8: Pontos ideais estimados e intervalos de credibilidade de 95% para os deputadosfederais cujas estimativas são maiores que 1.

89

Page 107: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Seus pontos ideais estimados são: 2,66; 1,83 e 1.83 respectivamente. Seus desvios padrões aposteriori são: 0,47; 0,38 e 0.55, respectivamente. Seus respectivos intervalos de credibilidadede 95% são: (1,72;3,57), (1,16;2,59) e (0.79;2.88). A estimativa do ponto ideal, desvio padrão eintervalo de credibilidade do deputado Carlos Sampaio do PSDB, que foi estimado à direita daescala ideológica no artigo de Souza et al. (2017), são dados por: 1,50; 0,32 e (0,87;2,19). Osquatro deputados apresentados são classificados como de “direita” de acordo com o critérioassumido para a classificação.

Ao final das análises referentes aos deputados, concluiu-se que 52 deputados são classificadoscomo de “esquerda”, 238 deputados como de “centro” e 40 deputados como de “direita” deacordo com o critério assumido nesta dissertação.

Resultados para os senadores

A Figura 6.9 apresenta as estimativas dos pontos ideais de todos os senadores. Comoexemplo, pode-se notar que os senadores Humberto Costa, do PT, e Ângela Portela, do PDT,estão localizados à esquerda da escala ideológica de acordo com o modelo logit. Seus pontosideais estimados são: -2,15 e -2,71, respectivamente. Seus desvios padrões a posteriori são: 0,32e 0,45, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-2,79;-1,54)e (-3,61;-1,87). Os dois senadores apresentados são classificados como de “esquerda” de acordocom o critério assumido para a classificação.

Note também que os senadores Romário, do PODE, e Simone Tebet, do PMDB, estãolocalizados ao centro da escala ideológica de acordo com o modelo logit. Seus pontos ideaisestimados são: -0,06 e -0,10, respectivamente. Seus desvios padrões a posteriori são: 0,40 e0,79, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-0,79;0,76) e(-1,49;1,59). Os dois senadores apresentados são classificados como de “centro” de acordo como critério assumido para a classificação.

Para terminar, perceba que os senadores Antônio Anastasia e Aécio Neves, ambos do PSDB,estão localizados à direita da escala ideológica de acordo com o modelo logit. Seus pontosideais estimados são: 2,17 e 1,99, respectivamente. Seus desvios padrões a posteriori são: 0,56e 0,76, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (1,08;3,31) e(0,52;3,36). Os dois senadores apresentados são classificados como de “direita” de acordo como critério assumido para a classificação. O senador Aécio Neves foi estimado à direita da escalaideológica no artigo de Souza et al. (2017).

Ao final das análises referentes aos senadores, concluiu-se que 8 senadores são classificadoscomo de “esquerda”, 49 senadores como de “centro” e 14 senadores como de “direita” de acordo

90

Page 108: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

com o critério assumido nesta dissertação.

ângela portelahumberto costa

paulo rochagleisi hoffmannroberto requiãofátima bezerra

paulo paimjosé pimentel

lindbergh fariasraimundo liraelmano férrerzeze perrella

lídice da mataregina sousaotto alencar

fernando colloracir gurgacz

ataídes oliveiraeduardo braga

vanessa grazziotinjorge viana

jader barbalhoarmando monteiro

cidinho santossérgio petecão

romero jucálúcia vâniahélio josé

joão capiberibesimone tebet

romáriodavi alcolumbre

antonio carlos valadareseduardo lopes

cristovam buarquerandolfe rodrigues

vicentinho alveswellington fagundes

josé maranhãoeduardo amorim

ana améliatelmário mota

dário bergervaldir raupp

ciro nogueirajosé medeiros

cássio cunha limareguffe

renan calheiroseunício oliveira

marta suplicygladson cameli

flexa ribeiropaulo bauer

garibaldi alves filhopedro chaves

kátia abreulasier martins

ronaldo caiadoairton sandoval

wilder moraisroberto rocha

josé serratasso jereissatirose de freitas

alvaro diasricardo ferraço

josé agripinomagno maltaaécio neves

antonio anastasia

−2 0 2Orientação política

Sen

ador

es

Modelo logit

ângela portelahumberto costa

paulo rochagleisi hoffmannfátima bezerra

roberto requiãopaulo paim

josé pimentellindbergh farias

raimundo liraelmano férrerzeze perrella

lídice da mataregina sousaotto alencar

fernando colloracir gurgacz

ataídes oliveiraeduardo braga

jorge vianavanessa grazziotin

romero jucájader barbalhocidinho santos

lúcia vâniaarmando monteiro

simone tebethélio josé

sérgio petecãoromário

joão capiberibeantonio carlos valadares

eduardo lopesdavi alcolumbre

cristovam buarquevicentinho alves

randolfe rodrigueswellington fagundes

josé maranhãoeduardo amorim

ana améliatelmário mota

dário bergervaldir raupp

ciro nogueirarenan calheiros

cássio cunha limaeunício oliveirajosé medeiros

reguffemarta suplicy

flexa ribeirogladson cameli

garibaldi alves filhopaulo bauerkátia abreu

pedro chaveslasier martins

airton sandovalronaldo caiado

wilder moraisrose de freitas

josé serraroberto rocha

tasso jereissatialvaro dias

ricardo ferraçojosé agripinomagno maltaaécio neves

antonio anastasia

−2 0 2Orientação política

Modelo probit

ângela portelahumberto costaroberto requião

paulo rochagleisi hoffmannfátima bezerrajosé pimentel

paulo paimelmano férrerzeze perrella

lindbergh fariasraimundo liraregina sousaacir gurgacz

lídice da matafernando collor

otto alencarjorge viana

ataídes oliveiraeduardo braga

vanessa grazziotinjader barbalhosérgio petecãojoão capiberibe

armando monteirodavi alcolumbre

lúcia vâniahélio josé

cidinho santosromero jucá

antonio carlos valadarescristovam buarquerandolfe rodrigues

eduardo lopesvicentinho alveseduardo amorim

josé maranhãowellington fagundes

telmário motaromário

dário bergerjosé medeiros

valdir rauppciro nogueira

reguffepaulo bauerflexa ribeiro

marta suplicyana amélia

gladson camelipedro chavessimone tebet

eunício oliveiracássio cunha lima

garibaldi alves filhoronaldo caiado

roberto rochalasier martins

tasso jereissatialvaro dias

ricardo ferraçojosé serra

renan calheirosairton sandoval

kátia abreurose de freitas

josé agripinowilder moraismagno malta

antonio anastasiaaécio neves

−2 0 2Orientação política

Modelo t−Student

Figura 6.9: Pontos ideais estimados e intervalos de credibilidade de todos os senadores.

91

Page 109: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Resultados para os partidos

A Tabela 6.3 apresenta as estimativas dos pontos ideais de todos os partidos políticosprovenientes da estimação do modelo logit e a Figura 6.10 apresenta as estimativas provenientesa partir dos três modelos. Como exemplo, pode-se notar que, pelo critério assumido, apenaso PT é classificado como um partido “esquerda” e o PSDB como um partido de“direita”. Osdemais partidos são classificados como de “centro”. Para a construção da Tabela 6.3 e da Figura6.10 utilizou-se os valores a posteriori dos parâmetros e tomou-se a média.

Tabela 6.3: Estimativas das distribuições a posteriori provenientes domodelo logit com intervalosde credibilidade de 95% referentes aos partidos políticos.

Partido Média DP IC de 95%PT -1,48 0,07 (-1,63;-1,34)PMB -0,89 0,33 (-1,55;-0,26)PEN -0,73 0,41 (-1,52;0,07)

PCdoB -0,71 0,10 (-0,91;-0,52)PTC -0,54 0,25 (-1,04;-0,05)PSOL -0,53 0,13 (-0,78;-0,29)PDT -0,37 0,11 (-0,58;-0,16)PV 0,01 0,19 (-0,35;0,37)PSB 0,04 0,08 (-0,11;0,19)REDE 0,05 0,14 (-0,23;0,33)SD 0,06 0,12 (-0,18;0,3)PHS 0,09 0,15 (-0,2;0,39)PSD 0,10 0,08 (-0,06;0,25)PMDB 0,18 0,07 (0,05;0,3)PRB 0,24 0,15 (-0,04;0,53)PP 0,29 0,09 (0,12;0,46)PTB 0,30 0,10 (0,09;0,51)PROS 0,31 0,19 (-0,05;0,68)PR 0,38 0,10 (0,19;0,59)PSC 0,60 0,16 (0,3;0,93)PPS 0,62 0,11 (0,4;0,83)PODE 0,69 0,14 (0,43;0,96)DEM 0,75 0,09 (0,58;0,93)PSL 0,75 0,20 (0,38;1,17)PSDB 0,87 0,08 (0,73;1,01)

92

Page 110: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

PT

PMB

PEN

PCdoB

PTC

PSOL

PDT

PV

PSB

REDE

SD

PHS

PSD

PMDB

PRB

PP

PTB

PROS

PR

PSC

PPS

PODE

DEM

PSL

PSDB

−1 0 1Orientação política

Modelo logit

PT

PMB

PEN

PCdoB

PTC

PSOL

PDT

PSB

PV

REDE

SD

PHS

PSD

PMDB

PRB

PROS

PP

PTB

PR

PSC

PPS

PODE

DEM

PSL

PSDB

−1 0 1Orientação política

Modelo probit

PT

PMB

PEN

PCdoB

PTC

PSOL

PDT

REDE

PV

PSB

SD

PSD

PHS

PRB

PMDB

PTB

PP

PROS

PR

PPS

PSC

PSL

DEM

PODE

PSDB

−1 0 1Orientação política

Modelo t−Student

Figura 6.10: Pontos ideais estimados e intervalos de credibilidade de todos os partidos.

Resultados para os atores

A Figura 6.11 apresenta as estimativas dos pontos ideais de todos os atores políticos.Como exemplo, pode-se notar que os atores Blog Dilma Brasil e a revista Carta capital estãolocalizados à esquerda da escala ideológica de acordo com o modelo logit. Seus pontos ideaisestimados são: -2,43 e -1,17, respectivamente. Seus desvios padrões a posteriori são: 0,28 e0,20, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-3,04;-1,91)e (-1,58;-0,80). A estimativa do ponto ideal, desvio padrão e intervalo de credibilidade daex-presidente Dilma Rousseff, do PT, que foi estimada à esquerda da escala ideológica no artigode Souza et al. (2017), são dados por: -1,67; 0,24 e (-2,17;-1,24). Os três atores apresentadossão classificados como de “esquerda” de acordo com o critério assumido para a classificação.

Note também que a Câmara dos deputados, o Senado federal, a revista Superinteressantee a política brasileira Marina Silva, do partido REDE, estão localizados ao centro da escala

93

Page 111: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

ideológica de acordo com o modelo logit. Seus pontos ideais estimados são: -0,53, -0,34,-0,06 e 0,23, respectivamente. Seus desvios padrões a posteriori são: 0,20, 0,19, 0,21 e 0,19, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (-0,92;-0,13),(-0,71;0,03), (-0,46;0,34) e (-0,13,0,63). A estimativa do ponto ideal, desvio padrão e intervalode credibilidade do atual presidente Michel Temer, filiado ao PMDB, que foi estimado ao centroda escala ideológica no artigo de Souza et al. (2017), são dados por: 0,41; 0,20 e (0,05;0,82). Oscinco atores apresentados são classificados como de “centro” de acordo com o critério assumidopara a classificação.

Para terminar, perceba que os atores Geraldo Alckmin, filiado ao PSDB, e a revista Vejaestão localizados à direita da escala ideológica de acordo com o modelo logit. Seus pontosideais estimados são: 1,67 e 1,40, respectivamente. Seus desvios padrões a posteriori são: 0,27e 0,26, respectivamente. Seus respectivos intervalos de credibilidade de 95% são: (1,17;2,23) e(0,94;1,92). Os dois atores apresentados são classificados como de “direita” de acordo com ocritério assumido para a classificação.

Ao final das análises referentes aos senadores, concluiu-se que 19 atores políticos sãoclassificados como sendo de “esquerda”, 74 atores como sendo de “centro” e 14 atores comosendo de “direita”, de acordo com o critério assumido nesta dissertação.

94

Page 112: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

pt brasilblog dilma br

carta maiorricardo berzoiniconversa afiada

alexandre padilharui falcão

suplicycândido vaccarezza

dilma rousseffluis nassif

manuelaportal brasil

brasil 247tv nbr

ministério da saúdecartacapital

observatórioimprensatv brasiltwibbon

agência brasilplanejamento.gov.br

a voz do brasilipea

tv câmaraagora no planaltoministério justiçacâmara notícias

rádio câmaracâmara dos deputados

stjrádio senado

bbc brasilcnjtse

senado federalstf

jornal do brasilpapa francisco

ig último segundojosé simãoinstagram

reuters brasilcongresso em foco

mp federalsuperinteressante

revista piauíbarack obamaportal r7.com

kennedy alencarrevista vototerra brasil

correio braziliensehenrique e alves

g1 − políticamarcelo tasmarina silva

record tvfolha poder

jornal da cbnvalor econômicomônica bergamopolítica estadão

polícia federalmichel temerancelmo.com

fernando rodriguesuol notíciasjornal hoje

josias de souzauol

folha de s.paulofantástico

jornal o globorádio bandnews fm

revista istoéglobo

dora kramerg1

épocadenise rothenburg

o globo brasilexame

blog do noblatwilliam bonner

joaquim barbosaglobonews

estadãocristiana lôbo

renata lo pretejornal nacional

acm netoradar on−line

deputadoeduardocunhagerson camarotti

míriam leitao.commonica waldvogel

vera magalhãeseliane cantanhêde

andréia sadilauro jardim

vejaaloysio nunes

geraldo alckminpsdb

reinaldo azevedoo antagonista

−2 0 2Orientação política

Ato

res

polít

icos

Modelo logit

pt brasilblog dilma br

carta maiorricardo berzoini

alexandre padilhaconversa afiada

rui falcãosuplicy

dilma rousseffcândido vaccarezza

luis nassifportal brasil

manuelabrasil 247

tv nbrministério da saúde

cartacapitalobservatórioimprensa

tv brasilagência brasil

planejamento.gov.brtwibbon

a voz do brasilipea

tv câmaraagora no planaltoministério justiça

rádio câmaracâmara notícias

câmara dos deputadosstj

rádio senadobbc brasil

cnjtse

senado federalstf

jornal do brasilpapa francisco

instagramig último segundo

josé simãoreuters brasil

mp federalcongresso em focosuperinteressante

revista piauíbarack obamaportal r7.com

kennedy alencarrevista votomarcelo tas

henrique e alvesterra brasil

marina silvacorreio braziliense

g1 − políticarecord tv

jornal da cbnfolha poder

valor econômicopolícia federal

mônica bergamopolítica estadão

michel temerfernando rodrigues

ancelmo.comjornal hoje

uol notíciasjosias de souza

uolfantástico

folha de s.paulojornal o globo

rádio bandnews fmglobo

g1revista istoé

denise rothenburgdora kramer

épocao globo brasil

william bonnerexame

blog do noblatjoaquim barbosa

estadãoglobonews

acm netocristiana lôbo

renata lo pretejornal nacional

deputadoeduardocunharadar on−line

míriam leitao.commonica waldvogelgerson camarottivera magalhães

andréia sadieliane cantanhêde

lauro jardimveja

aloysio nunesgeraldo alckmin

psdbreinaldo azevedo

o antagonista

−4 −2 0 2Orientação política

Modelo probit

pt brasilricardo berzoini

blog dilma brcarta maior

conversa afiadarui falcão

alexandre padilhasuplicy

cândido vaccarezzamanuela

luis nassifdilma rousseff

twibbonportal brasil

brasil 247tv nbr

ministério da saúdecartacapital

observatórioimprensatv brasil

a voz do brasilagência brasil

planejamento.gov.brtv câmara

agora no planaltoipea

câmara notíciasrádio câmara

ministério justiçacâmara dos deputados

senado federalstj

rádio senadobbc brasil

cnjtse

ig último segundostf

josé simãojornal do brasil

mp federalreuters brasil

papa franciscorevista piauí

congresso em focosuperinteressante

portal r7.cominstagram

kennedy alencarbarack obama

correio brazilienserevista voto

record tvmônica bergamo

terra brasilpolítica estadão

jornal da cbnfolha poder

g1 − políticamarina silva

valor econômicopolícia federal

marcelo tasancelmo.com

josias de souzauol notícias

fernando rodriguesjornal hoje

uolhenrique e alves

fantásticomichel temer

rádio bandnews fmfolha de s.paulo

jornal o globodora kramer

o globo brasilrevista istoé

denise rothenburgglobo

renata lo preteg1

exameépoca

blog do noblatcristiana lôbo

globonewsjoaquim barbosa

william bonnerradar on−line

estadãomonica waldvogel

jornal nacionalgerson camarotti

míriam leitao.comvera magalhães

acm netoeliane cantanhêde

deputadoeduardocunhaandréia sadi

vejaaloysio nunes

lauro jardimgeraldo alckmin

reinaldo azevedopsdb

o antagonista

−2 −1 0 1 2Orientação política

Modelo t−Student

Figura 6.11: Pontos ideais estimados e intervalos de credibilidade de todos os atores políticos.

95

Page 113: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Capítulo 7

Considerações finais

A presente dissertação teve como objetivo comparar os dois modelos existentes na literaturacom o modelo proposto aqui através de critérios de comparação. O modelo proposto foiconstruído a partir do modelo de Barberá (2015), que permite a estimação dos pontos ideaisdos usuários comuns com base em quem eles seguem no Twitter. A hipótese chave dessemodelo assume que o Twitter é uma rede social homofílica. No contexto desta dissertação,assumir homofilia equivale a dizer que os usuários comuns do Twitter preferem seguir atorespolíticos que tenham posições ideológicas similares às deles. Foram ajustados três modelosnesta dissertação: o modelo de Barberá (2015) que assume função de ligação logit; o modelode Imai et al. (2016) que assume função de ligação probit e o modelo que foi proposto nestadissertação, que assume função de ligação inversa da função de distribuição acumulada t-Studentcom 1 grau de liberdade.

No Capítulo 2 foram discutidas as similaridades existentes entre o modelo de Barberá (2015)e os modelos espaciais de votação nominal, modelos de teoria da resposta ao item e os modelosde espaços latentes aplicados às redes sociais. No Capítulo 3 foi feita uma breve revisão deinferência Bayesiana, dos métodos de Monte Carlo via cadeias de Markov e dos critérios deseleção de modelos e no Capítulo 4 foi descrita a metodologia utilizada nesta dissertação.

No Capítulo 5 foi conduzido um estudo de simulação baseado em dados artificiais gerados apartir dos modelos propostos, com o intuito de avaliar as estimativas bayesianas dos parâmetros,com base no erro quadrático médio e na taxa de cobertura. Verificou-se que para os dados logit,o modelo t-Student foi o que produziu estimativas mais acuradas e menos precisas, para osdados probit o modelo probit foi o que produziu estimativas mais acuradas e menos precisas epara os dados t-Student o modelo t-Student foi o que obteve melhor ajuste. Concluiu-se queo parâmetro γ funciona como um fator de acomodação, que fornece maior ou menor peso

96

Page 114: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

nas caudas influenciando as estimativas dos θ’s e dos φ’s e por isso é necessário avaliar osparâmetros transformados θ∗’s e φ∗ a fim de observar diferenças entre os parâmetros. Avaliou-setambém que qualquer um dos três modelos preserva o ranking das posições ideológicas θ’s edos φ’s. Os critérios DIC e LPML mostraram que quando os dados são probit ou t-Student, osmodelos geradores são mais fáceis de serem identificados corretamente. Todas essas análisesapenas se baseiam nas R = 100 réplicas geradas a partir de cada um dos modelos, considerandon = 200 em = 20. A convergência das cadeias foi verificada através do critério de Raftery epela avaliação dos traços das cadeias.

No Capítulo 6 realizou-se uma aplicação dos três modelos a um conjunto de dados reaisdos deputados federais e senadores provenientes do Twitter. Constatou-se que o modelo logitforneceu o melhor ajuste de acordo com os critérios DIC e LPML. Os pontos ideais estimadosdos deputados, senadores e dos atores políticos ficaram de acordo com trabalhos existentes naliteratura.

Como trabalhos futuros propõe-se utilizar outras funções de ligação, como a normalassimétrica e a t-Student assimétrica, devido ao fato de que essas funções podem representar demaneira mais adequada a realidade política atual, onde a quantidade de indivíduos de “direita” édiferente da quantidade de indivíduos de “esquerda”. Propõe-se também considerar diferentestamanhos de amostra para avaliar a consistência dos estimadores e dos critérios de seleção eutilizar o máximo a posteriori via algoritmo EM para melhorar o tempo computacional.

97

Page 115: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

98

Page 116: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Apêndice A

Apêndice A

Tabela A.1: Lista dos deputados ordenados por partido.

Deputado PartidoOSMAR BERTOLDI DEMABEL MESQUITA JR DEMALEXANDRE LEITE DEMJUSCELINO FILHO DEMRODRIGO MAIA DEM

PROFESSORA DORINHA SEABRA REZENDE DEMFELIPE MAIA DEM

MARCELO AGUIAR DEMMARCOS ROGERIO DEM

ELMAR NASCIMENTO DEMSOSTENES CAVALCANTE DEM

PAULO AZI DEMCARLOS MELLES DEM

PAUDERNEY AVELINO DEMONYX LORENZONI DEMALBERTO FRAGA DEMEFRAIM FILHO DEM

RUBENS PEREIRA JUNIOR PCdoBORLANDO SILVA PCdoBJANDIRA FEGHALI PCdoBLUCIANA SANTOS PCdoB

ASSIS MELO PCdoBJO MORAES PCdoB

DANIEL ALMEIDA PCdoBMOISES DINIZ PCdoB

ALICE PORTUGAL PCdoBLEÔNIDAS CRISTINO PDT

ROBERTO GOES PDTANDRE FIGUEIREDO PDT

CARLOS EDUARDO CADOCA PDTWOLNEY QUEIROZ PDT

POMPEO DE MATTOS PDTAFONSO MOTTA PDT

WEVERTON ROCHA PDTHISSA ABRAHÃO PDTJUNIOR MARRECA PENDR. JORGE SILVA PHSMARCELO ARO PHSDIEGO GARCIA PHS

CARLOS ANDRADE PHSGIVALDO CARIMBAO PHSWELITON PRADO PMB

ALEXANDRE SERFIOTIS PMDBSORAYA SANTOS PMDB

JOAO MARCELO SOUZA PMDBJOSE PRIANTE PMDB

ALTINEU CORTES PMDBSERGIO ZVEITER PMDBCELSO PANSERA PMDBCABUCU BORGES PMDB

Deputado PartidoNEWTON CARDOSO JR PMDB

PEDRO PAULO PMDBANDRE AMARAL PMDB

LEONARDO QUINTAO PMDBRODRIGO PACHECO PMDBPEDRO CHAVES PMDBDULCE MIRANDA PMDBALCEU MOREIRA PMDBHILDO ROCHA PMDBSERGIO SOUZA PMDBBALEIA ROSSI PMDB

ELCIONE BARBALHO PMDBJOSI NUNES PMDB

LEONARDO PICCIANI PMDBMARCELO CASTRO PMDBVALDIR COLATTO PMDBDANIEL VILELA PMDB

ZE AUGUSTO NALIN PMDBHUGO MOTTA PMDB

SIMONE MORGADO PMDBMOSES RODRIGUES PMDB

FABIO REIS PMDBROGERIO PENINHA MENDONCA PMDB

WALTER ALVES PMDBLUCIO VIEIRA LIMA PMDBMAURO MARIANI PMDBLAURA CARNEIRO PMDB

VENEZIANO VITAL DO REGO PMDBDARCISIO PERONDI PMDB

JOAO ARRUDA PMDBLELO COIMBRA PMDBCELSO JACOB PMDB

CARLOS BEZERRA PMDBFRANCISCO CHAPADINHA PODE

ALEXANDRE BALDY PODEEZEQUIEL TEIXEIRA PODE

CARLOS HENRIQUE GAGUIM PODEANTONIO JACOME PODE

LUIZ CARLOS RAMOS PODERONALDO CARLETTO PP

BETO SALAME PPANDRE FUFUCA PP

MARCUS VICENTE PPHIRAN GONCALVES PPWALDIR MARANHAO PPCONCEICAO SAMPAIO PPGUILHERME MUSSI PP

JULIO LOPES PPLUIZ FERNANDO FARIA PPRENATO ANDRADE PP

99

Page 117: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Deputado PartidoRICARDO IZAR PPRENZO BRAZ PPCACA LEAO PPMAIA FILHO PP

COVATTI FILHO PPLUIS CARLOS HEINZE PP

AFONSO HAMM PPROBERTO BALESTRA PP

BETO ROSADO PPPAULO MALUF PP

IRACEMA PORTELLA PPJERONIMO GOERGEN PP

ALEX MANENTE PPSLUZIA FERREIRA PPSPOLLYANA GAMA PPSELIZIANE GAMA PPS

ARTHUR OLIVEIRA MAIA PPSMARCOS ABRAO PPSARNALDO JORDY PPSROBERTO FREIRE PPSRUBENS BUENO PPSREMIDIO MONAI PRPAULO FREIRE PR

AELTON FREITAS PRLUIZ NISHIMORI PR

DELEGADO WALDIR PRALEXANDRE VALLE PR

PAULO FEIJO PRMILTON MONTI PR

DELEGADO EDSON MOREIRA PRCHRISTIANE DE SOUZA YARED PR

GIACOBO PRCAJAR NARDES PR

VICENTINHO JUNIOR PRTIRIRICA PR

LAERTE BESSA PRJOAO CARLOS BACELAR FILHO PR

GIOVANI CHERINI PRMARCELO ALVARO ANTONIO PR

JORGINHO MELLO PRANTONIO BULHÕES PRBCELSO RUSSOMANNO PRB

JONY MARCOS PRBJHONATAN DE JESUS PRB

JOAO CAMPOS PRBBETO MANSUR PRBCARLOS GOMES PRBCESAR HALUM PRB

RONALDO FONSECA PROSTONINHO WANDSCHEER PROS

Deputado PartidoEROS BIONDINI PROSFELIPE BORNIER PROS

ATILA LIRA PSBADILTON SACHETTI PSBMARIA HELENA PSB

MARINALDO ROSENDO PSBBEBETO PSB

KEIKO OTA PSBFLAVINHO PSB

DANILO CABRAL PSBHERACLITO FORTES PSBHEITOR SCHUCH PSB

JANETE CAPIBERIBE PSBLUIZ LAURO FILHO PSBLUCIANO DUCCI PSB

RODRIGO MARTINS PSBDANILO FORTE PSBHUGO LEAL PSB

JOAO FERNANDO COUTINHO PSBTENENTE LUCIO PSBRAFAEL MOTTA PSB

JHC PSBSEVERINO NINHO PSBTEREZA CRISTINA PSBPAULO FOLETTO PSBJOSE STEDILE PSB

ODORICO MONTEIRO PSBPR. MARCO FELICIANO PSC

JAIR BOLSONARO PSCEDUARDO BOLSONARO PSCAROLDE DE OLIVEIRA PSCVALADARES FILHO PSCANDRE MOURA PSC

HERCULANO PASSOS PSDMARCOS MONTES PSDEXPEDITO NETTO PSD

JOAO PAULO KLEINÜBING PSDJEFFERSON CAMPOS PSD

DELEGADO EDER MAURO PSDMARCOS REATEGUI PSDFABIO MITIDIERI PSD

PAULO MAGALHAES PSDEVANDRO ROMAN PSD

REINHOLD STEPHANES PSDSTEFANO AGUIAR PSDJOAO RODRIGUES PSD

JULIO CESAR PSDIRAJA ABREU PSD

EDMAR ARRUDA PSDDOMINGOS NETO PSD

100

Page 118: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Deputado PartidoROGERIO ROSSO PSDFABIO FARIA PSDGOULART PSD

SANDRO ALEX PSDJAIME MARTINS PSD

ROMULO GOUVEIA PSDTHIAGO PEIXOTO PSD

BONIFACIO DE ANDRADA PSDBEDUARDO CURY PSDB

VITOR LIPPI PSDBRAIMUNDO GOMES DE MATOS PSDB

EDUARDO BARBOSA PSDBIZALCI LUCAS PSDBYEDA CRUSIUS PSDB

SHERIDAN PSDBELIZEU DIONIZIO PSDB

VANDERLEI MACRIS PSDBMARIANA CARVALHO PSDBJOAO PAULO PAPA PSDB

PEDRO CUNHA LIMA PSDBOTAVIO LEITE PSDB

ANTONIO IMBASSAHY PSDBFABIO SOUSA PSDBCAIO NARCIO PSDB

MARCO TEBALDI PSDBLOBBE NETO PSDB

GEOVANIA DE SA PSDBGIUSEPPE VECCI PSDBCARLOS SAMPAIO PSDBPAULO ABI-ACKEL PSDBNILSON LEITAO PSDBBRUNA FURLAN PSDB

RODRIGO DE CASTRO PSDBDANIEL COELHO PSDB

GERALDO RESENDE PSDBBETINHO GOMES PSDB

ROGERIO MARINHO PSDBMARA GABRILLI PSDB

NELSON PADOVANI PSDBMARCUS PESTANA PSDBDAMINA PEREIRA PSLALFREDO KAEFER PSLCHICO ALENCAR PSOLLUIZA ERUNDINA PSOLJEAN WYLLYS PSOL

GLAUBER BRAGA PSOLIVAN VALENTE PSOL

EDMILSON RODRIGUES PSOLLUIZ SERGIO PT

VALMIR PRASCIDELLI PT

Deputado PartidoPATRUS ANANIAS PT

ARLINDO CHINAGLIA PTMARCO MAIA PT

JOSE AIRTON CIRILO PTENIO VERRI PT

WALDENOR PEREIRA PTJOSE GUIMARAES PTWADIH DAMOUS PTERIKA KOKAY PT

VICENTE CANDIDO PTJORGE SOLLA PTZECA DIRCEU PT

ASSIS CARVALHO PTPEPE VARGAS PT

LUIZIANNE LINS PTZE CARLOS PTJOAO DANIEL PTPADRE JOAO PTJOSE MENTOR PT

VALMIR ASSUNCAO PTBENEDITA DA SILVA PT

PEDRO UCZAI PTMARGARIDA SALOMAO PT

ANGELIM PTLEONARDO MONTEIRO PTCARLOS ZARATTINI PT

ANA PERUGINI PTRUBENS OTONI PT

MARIA DO ROSARIO PTHELDER SALOMAO PTAFONSO FLORENCE PT

BETO FARO PTLEO DE BRITO PTNILTO TATTO PT

VANDER LOUBET PTNELSON PELLEGRINO PT

ZECA DO PT PTSAGUAS MORAES PTJOSIAS GOMES PT

PAULAO PTHENRIQUE FONTANA PT

MARCON PTLUIZ COUTO PTDECIO LIMA PT

CHICO DANGELO PTPAULO PIMENTA PTGIVALDO VIEIRA PT

BOHN GASS PTADELMO CARNEIRO LEAO PT

PAULO TEIXEIRA PT

101

Page 119: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Deputado PartidoVICENTINHO PT

REGINALDO LOPES PTJOSUE BENGTSON PTB

ARNALDO FARIA DE SA PTBRONALDO NOGUEIRA PTBPEDRO FERNANDES PTBCRISTIANE BRASIL PTB

NELSON MARQUEZELLI PTBJOVAIR ARANTES PTBBENITO GAMA PTBALEX CANZIANI PTBWILSON FILHO PTBEVANDRO GUSSI PV

EVAIR VIEIRA DE MELO PVANTONIO CARLOS MENDES THAME PV

ROBERTO DE LUCENA PVULDURICO JUNIOR PV

ALESSANDRO MOLON REDEJOAO DERLY REDE

ALIEL MACHADO REDEWLADIMIR COSTA SDLUCAS VERGILIO SD

LAUDIVIO CARVALHO SDPAULO PEREIRA DA SILVA SD

ZE SILVA SDGENECIAS NORONHA SDAUGUSTO COUTINHO SDAUGUSTO CARVALHO SDLAERCIO OLIVEIRA SD

DELEGADO FRANCISCHINI SD

Tabela A.2: Senadores ordenados por partido.

Senador PartidoJosé Agripino DEM

Davi Alcolumbre DEMRonaldo Caiado DEM

Vanessa Grazziotin PCdoBÂngela Portela PDTAcir Gurgacz PDT

Airton Sandoval PMDBElmano Férrer PMDBRose de Freitas PMDBRaimundo Lira PMDBSimone Tebet PMDB

Renan Calheiros PMDBDário Berger PMDBValdir Raupp PMDBMarta Suplicy PMDBKátia Abreu PMDB

Jader Barbalho PMDBJosé Maranhão PMDBHélio José PMDB

Garibaldi Alves Filho PMDBRoberto Requião PMDBRomero Jucá PMDBZeze Perrella PMDB

Eunício Oliveira PMDBEduardo Braga PMDB

Romário PODEAlvaro Dias PODECiro Nogueira PPWilder Morais PPAna Amélia PP

Gladson Cameli PPCristovam Buarque PPSCidinho Santos PRVicentinho Alves PRMagno Malta PR

Wellington Fagundes PREduardo Lopes PRBRoberto Rocha PSBJoão Capiberibe PSB

Antonio Carlos Valadares PSBLídice da Mata PSBLúcia Vânia PSBPedro Chaves PSCSérgio Petecão PSDLasier Martins PSDOtto Alencar PSDJosé Medeiros PSDAécio Neves PSDB

Antonio Anastasia PSDBTasso Jereissati PSDBEduardo Amorim PSDBRicardo Ferraço PSDBPaulo Bauer PSDBFlexa Ribeiro PSDBJosé Serra PSDB

Ataídes Oliveira PSDBCássio Cunha Lima PSDB

Paulo Rocha PTLindbergh Farias PTGleisi Hoffmann PTJorge Viana PT

Fátima Bezerra PTRegina Sousa PT

Humberto Costa PTPaulo Paim PTJosé Pimentel PTTelmário Mota PTB

Armando Monteiro PTBFernando Collor PTC

Randolfe Rodrigues REDEReguffe S/Partido102

Page 120: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Tabela A.3: Lista dos atores políticos.

Ator Político PartidoVEJA

InstagramMinistério JustiçaSenado FederalRádio CâmaraCâmara Notícias

Câmara dos DeputadosTV CâmaraEstadãoG1

Dilma Rousseff PTValor EconômicoRevista ISTOÉFolha de S.PauloCartaCapitalMarina Silva REDE

Joaquim BarbosaJornal NacionalMichel Temer PMDB

DeputadoEduardoCunha PMDBExame

ACM Neto DEMRádio BandNews FM

TSESTF

Radar On-lineCongresso em Foco

Reuters BrasilJornal O Globo

Reinaldo Azevedojosias de souza

iG Último SegundoJornal do Brasil

Correio Brazilienserevista piauí

Alexandre Padilha PTA Voz do BrasilBarack ObamaO Globo BrasilFolha Poder

Cristiana LôboAgora No Planalto

GloboNewsTerra Brasil

Aloysio Nunes PSDBAgência BrasilGeraldo Alckmin PSDB

Marcelo TasPSDB

Mônica BergamoDora KramerLauro Jardim

Denise Rothenburg

Ator Político PartidoÉpoca

Ancelmo.ComBlog do Noblat

FantásticoGlobo

UOL NotíciasMonica WaldvogelMíriam Leitao.comRenata Lo Prete

Eliane CantanhêdeGerson CamarottiAndréia SadiMP Federal

STJCNJ

Jornal da CBNBBC Brasil

Política EstadãoHenrique E Alves PMDB

TV BrasilWilliam Bonner

UOLPortal R7.comConversa Afiada

Fernando RodriguesBrasil 247Luis NassifJosé SimãoPortal BrasilCarta Maior

Blog Dilma BRVera MagalhãesO AntagonistaRui Falcão PTG1 - PolíticaJornal Hoje

Papa FranciscoMinistério da Saúde

TwibbonPolícia FederalRádio Senado

SuperinteressanteTV NBRRecord TV

Planejamento.gov.brIpea

Kennedy AlencarObservatórioImprensa

Suplicy PTCândido Vaccarezza PT

PT BrasilRicardo Berzoini PT

Manuela PCdoBRevista VOTO

103

Page 121: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Referências Bibliográficas

Aguirre, J.-L. (2011). Introducción al análisis de redes sociales. Documentos de Trabajo delCentro Interdisciplinario para el Estudio de Políticas Públicas, 82:1–59.

Bafumi, J., Gelman, A., Park, D. K., e Kaplan, N. (2005). Practical issues in implementing andunderstanding Bayesian ideal point estimation. Political Analysis, 13(2):171–187.

Barberá, P. (2015). Birds of the same feather tweet together: Bayesian ideal point estimationusing Twitter data. Political Analysis, 23(1):76–91.

Birnbaum, A. (1968). Some latent train models and their use in inferring an examinee’s ability.Statistical Theories of Mental Test Scores, pages 395–479.

Brown, W. e Draper, D. (2000). A comparison of Bayesian and likelihood methods for fittingmultilevel models. London: Mathematical Sciences Group, Institute of Education, Universityof London.

Carroll, R., Lewis, J. B., Lo, J., Poole, K. T., e Rosenthal, H. (2013). The structure of utility inspatial models of voting. American Journal of Political Science, 57(4):1008–1028.

Chen, M.-H., Shao, Q.-M., e Ibrahim, J. G. (2012). Monte Carlo Methods in BayesianComputation. Springer Science & Business Media.

Clinton, J., Jackman, S., e Rivers, D. (2004). The statistical analysis of roll call data. AmericanPolitical Science Review, 98(2):355–370.

Downs, A. (1957). An economic theory of political action in a democracy. Journal of PoliticalEconomy, 65(2):135–150.

Ferreira, G. (2011). Redes sociais de informação: uma história e um estudo de caso. Perspectivasem Ciência da Informação, 16(3):208–231.

104

Page 122: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Freeden, M. (2013). Ideología: Una Breve Introducción, volume 6. Ed. Universidad deCantabria.

Gamerman, D. e Lopes, H. F. (2006). Markov Chain Monte Carlo: Stochastic Simulation forBayesian Inference. CRC Press.

García, M., Castellana, N., Rapelli, C., Koegel, L., e Catalano, M. (2014). Criterios deinformación y predictivos para la selección de un modelo lineal mixto. SaberEs, (6).

Gelfand, A. E., Dey, D.K., e Chang, H. (1992). Model determination using predictive distributionswith implementation via sampling-based methods. Technical report, STANFORD UNIV CADEPT OF STATISTICS.

Gelfand, A. E. e Smith, A. F. (1990). Sampling-based approaches to calculating marginaldensities. Journal of the American Statistical Association, 85(410):398–409.

Geman, S. e Geman, D. (1984). Stochastic relaxation, Gibbs distributions, and the Bayesianrestoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence,(6):721–741.

Hastings, W. K. (1970). Monte Carlo sampling methods using Markov chains and theirapplications. Biometrika, 57(1):97–109.

Hoff, P. D., Raftery, A. E., e Handcock, M. S. (2002). Latent space approaches to social networkanalysis. Journal of the american Statistical association, 97(460):1090–1098.

Ibrahim, J. G., Chen, M.-H., e Sinha, D. (2001). Criterion-based methods for Bayesian modelassessment. Statistica Sinica, 11(2):419–443.

Imai, K., Lo, J., e Olmsted, J. (2016). Fast estimation of ideal points with massive data. AmericanPolitical Science Review, 110(4):631–656.

Kadushin, C. (2013). Comprender las Redes Sociales: Teorías, Conceptos y hallazgos,volume 11. CIS-Centro de Investigaciones Sociológicas.

Kolaczyk, E. D. e Csárdi, G. (2014). Statistical Analysis of Network Data with R. Springer.

Lazarsfeld, P. F., Merton, R. K., et al. (1954). Friendship as a social process: a substantive andmethodological analysis. Freedom and Control in Modern Society, 18(1):18–66.

Lord, F. (1952). A Theory of Test Scores. Psychometric Monographs.

105

Page 123: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Martin, S., Saalfeld, T., e Strøm, K. (2014). The Oxford Handbook of Legislative Studies. OUPOxford.

Masters, G. N., Wright, B. D., van der Linden, W. J., e Hambleton, R. K. (1997). Handbook ofModern Item Response Theory. The partial credit model. Springer, New York.

McCarty, N. (2011). Measuring legislative preferences. In The Oxford Handbook of the AmericanCongress, pages 66–94.

McFadden, D. (1973). Conditional logit analysis of qualitative choice behavior.

Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H., e Teller, E. (1953).Equation of state calculations by fast computing machines. The Journal of Chemical Physics,21(6):1087–1092.

Otero, I. D., González, M. L., e Vázquez, A. N. (2012). Ciencia Política Contemporánea,volume 210. Editorial UOC.

Plummer, M. (2009). Jags version 1.0. 3 manual. URL: http://www-ice. iarc. fr/˜martyn/software/jags/jags_user_manual. pdf.

Plummer, M. (2013). rjags: Bayesian graphical models using mcmc. R package version, 3.

Poole, K. T. (2005). Spatial Models of Parliamentary Voting. Cambridge University Press.

Poole, K. T. e Rosenthal, H. (2000). Congress: A Political-Economic History of Roll CallVoting. Oxford University Press on Demand.

Raftery, A. E. e Lewis, S. M. (1992). One long run with diagnostics: implementation strategiesfor Markov chain Monte Carlo. Statistical science, 7(4):493–497.

Robert, C. e Casella, G. (2009). Introducing Monte Carlo Methods with R. Springer Science &Business Media.

Souza, R. M., Graça, L. F. G., e Silva, R. S. (2017). Politics on the web: Using twitter toestimate the ideological positions of brazilian representatives. Brazilian Political ScienceReview.

Spiegelhalter, D. J., Best, N. G., Carlin, B. P., e Van Der Linde, A. (2002). Bayesian measuresof model complexity and fit. Journal of the Royal Statistical Society: Series B (StatisticalMethodology), 64(4):583–639.

106

Page 124: EstimaçãoBayesianadePontosIdeaisViaDados doTwitter · CIP - Catalogação na Publicação Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a)

Stock, J. H. e Watson, M. W. (2004). Combination forecasts of output growth in a seven-countrydata set. Journal of Forecasting, 23(6):405–430.

Team, R. C. (2014). R: A language and environment for statistical computing. vienna, austria: Rfoundation for statistical computing; 2014.

Tierney, L. (1994). Markov chains for exploring posterior distributions. the Annals of Statistics,pages 1701–1728.

Upadhyay, S. K., Singh, U., Dey, D. K., e Loganathan, A. (2015). Current Trends in BayesianMethodology with Applications. Chapman and Hall/CRC.

107