Um estudo preliminar sobre o perfil dos seguidores dos …³rio-Bots... · Sem pretensões de...

33
1 Bots ou não? Um estudo preliminar sobre o perfil dos seguidores dos pré-candidatos à Presidência da República no Twitter Equipe: Lucas Lago e Heloisa Massaro Colaborou: Francisco Brito Cruz INTRODUÇÃO Os robôs, ou, como são conhecidos, os bots, são um tipo específico de programa de computador que realiza tarefas de forma autônoma, a partir de algoritmos. Eles são programados para executar uma série de funções, desde facilitar a navegação na internet até interagir com indivíduos. Ainda que sejam mais conhecidos por terem sido supostamente usados para influenciar as eleições nos EUA em 2016, eles são, na verdade, bem comuns na internet e essenciais para o seu funcionamento. De todo o tráfego da internet, 65,1% é operacionalizado por meio de bots. 1 Os crawlers, por exemplo, são os robôs que navegam nos sites para organizar as informações para buscadores como o Google, enquanto que os chatbots podem ser usados em diversas plataformas para responder a usuários, fornecer informações e facilitar atendimentos. Mais especificamente nas redes sociais, os bots podem ser usados não apenas nos chats, mas também para automatizar contas e perfis. Essas contas podem deixar claro ao usuário que são controladas por robôs e serem usadas para promover engajamento político de usuários, 2 fornecer informações de interesse público, ou, até mesmo, apenas para fins de entretenimento. A bot Fátima, por exemplo, da agência Aos Fatos, está presente no Twitter e no Facebook, e foi elaborada para disseminar a checagem de fatos nas plataformas. Além dela, no Twitter, contas como o @big_ben_clock, que informa o horário com “badaladas” do sino, e o Ruibarbot, criado pelo Jota para informar sobre atrasos em processos no judiciário brasileiro, se apresentam como usuários automatizados e executam tarefas que podem ter um impacto positivo para os usuários. Por outro lado, os bots também podem ser usados para automatizar contas e perfis falsos, de forma não transparente, para que eles se passem por usuários comuns das redes sociais, e 1 Report: Bot traffic is up to 61.5% of all website traffic. Incapsula, 9 de dezembro de 2013. Fonte: <https://www.incapsula.com/blog/bot-traffic-report-2013.html>, acesso em 26 jan 2018. 2 How Twitter Bots Turn Tweeters into Activists. MIT Technology Review, 18 de dezembro de 2015. Disponível em: <https://www.technologyreview.com/s/544851/how-twitter-bots-turn-tweeters-into- activists/>, acesso em 26 jan 2018.

Transcript of Um estudo preliminar sobre o perfil dos seguidores dos …³rio-Bots... · Sem pretensões de...

1

Bots ou não?

Um estudo preliminar sobre o perfil dos seguidores dos pré-candidatos à

Presidência da República no Twitter

Equipe: Lucas Lago e Heloisa Massaro

Colaborou: Francisco Brito Cruz

INTRODUÇÃO

Os robôs, ou, como são conhecidos, os bots, são um tipo específico de programa de

computador que realiza tarefas de forma autônoma, a partir de algoritmos. Eles são

programados para executar uma série de funções, desde facilitar a navegação na internet até

interagir com indivíduos. Ainda que sejam mais conhecidos por terem sido supostamente

usados para influenciar as eleições nos EUA em 2016, eles são, na verdade, bem comuns na

internet e essenciais para o seu funcionamento. De todo o tráfego da internet, 65,1% é

operacionalizado por meio de bots.1 Os crawlers, por exemplo, são os robôs que navegam nos

sites para organizar as informações para buscadores como o Google, enquanto que os

chatbots podem ser usados em diversas plataformas para responder a usuários, fornecer

informações e facilitar atendimentos.

Mais especificamente nas redes sociais, os bots podem ser usados não apenas nos chats, mas

também para automatizar contas e perfis. Essas contas podem deixar claro ao usuário que são

controladas por robôs e serem usadas para promover engajamento político de usuários,2

fornecer informações de interesse público, ou, até mesmo, apenas para fins de entretenimento.

A bot Fátima, por exemplo, da agência Aos Fatos, está presente no Twitter e no Facebook, e

foi elaborada para disseminar a checagem de fatos nas plataformas. Além dela, no Twitter,

contas como o @big_ben_clock, que informa o horário com “badaladas” do sino, e o Ruibarbot,

criado pelo Jota para informar sobre atrasos em processos no judiciário brasileiro, se

apresentam como usuários automatizados e executam tarefas que podem ter um impacto

positivo para os usuários.

Por outro lado, os bots também podem ser usados para automatizar contas e perfis falsos, de

forma não transparente, para que eles se passem por usuários comuns das redes sociais, e

1 Report: Bot traffic is up to 61.5% of all website traffic. Incapsula, 9 de dezembro de 2013. Fonte: <https://www.incapsula.com/blog/bot-traffic-report-2013.html>, acesso em 26 jan 2018. 2 How Twitter Bots Turn Tweeters into Activists. MIT Technology Review, 18 de dezembro de 2015. Disponível em: <https://www.technologyreview.com/s/544851/how-twitter-bots-turn-tweeters-into-activists/>, acesso em 26 jan 2018.

2

inflem a quantidade de seguidores de alguém, por exemplo, ou coloquem um assunto nos

Trending Topics. Com o objetivo de alavancar conteúdos e indivíduos artificialmente, eles

podem ser programados para seguir pessoas, interagir em debates ou publicar e curtir

conteúdos de forma orquestrada. No contexto de disputas político-eleitorais, os bots podem ser

empregados dessa forma para distorcer a dimensão de movimentos políticos, manipular e

radicalizar debates, e criar falsas percepções sobre disputas e consensos nas redes sociais.

Eles podem fazer parecer que determinada figura é mais popular do que de fato é ou, ainda,

serem utilizados para replicar discursos em série, fazendo parecer que há uma enorme adesão

à uma causa quando não há.

No Brasil, é possível diagnosticar o uso de bots em contextos eleitorais desde pelo menos 2011

e há evidências de que eles tenham sido utilizados no Twitter para apoiar candidatos nas

eleições de 2014, durante o processo de impeachment e nas eleições municipais de 2016.3

Estima-se que nas últimas eleições presidenciais eles teriam sido responsáveis por mais de

10% das interações no Twitter.4

Como esses mecanismos inflam artificialmente a audiência, eles são contrários às próprias

políticas das plataformas. No caso do Twitter, a plataforma anunciou mudanças na sua política

com o objetivo de combater esses perfis automatizados.5 As alterações reduziram a

capacidade de uma pessoa ou serviço que controlam diversas contas de realizar spam através

de tweets semelhantes ou de curtidas e retweets em massa.

Quando criados para se passarem por usuários das redes sociais, uma das finalidades dos

bots pode ser a de seguir perfis com o objetivo de inflar o número de seguidores de

determinado indivíduo. No início de 2018, o New York Times elaborou uma reportagem sobre o

mercado de compra de seguidores bots, além de likes e retweets, entre figuras influentes nas

redes sociais.6 Na matéria, o jornal investigou uma companhia suspeita de atuar na venda

desses robôs e analisou o perfil dos seguidores no Twitter dos supostos clientes dessa

empresa. Uma das personalidades identificadas que teve seu perfil analisado foi o chef de

cozinha Michael Symon, que admitiu ter comprado bots por acreditar que isso movimentaria

sua audiência na plataforma.

O objetivo de inflar audiências para aumentar a relevância de um perfil também pode ser

transposto para contextos político-eleitorais. O uso desse mecanismo pode elevar o alcance, a

repercussão, e, até mesmo, a confiabilidade de candidatos, que vêem seu número de

seguidores crescer elevando sua influência nas redes sociais.

3 ARNAUD, Dan. Computational propaganda in Brazil: social bots during elections. University of Oxford

Working Paper, n.8, 2017. Disponível em: http://blogs.oii.ox.ac.uk/politicalbots/wp-content/uploads/sites/89/2017/06/Comprop-Brazil-1.pdf 4 Robôs, redes sociais e política no Brasil: estudo sobre interferências ilegítimas no debate público na

web, riscos à democracia e processo eleitoral de 2018. Coordenação Marco Aurélio Ruediger. – Rio de Janeiro: FGV, DAPP, 2017. 5 https://blog.twitter.com/official/en_us/topics/company/2018/2016-election-update.html https://blog.twitter.com/developer/en_us/topics/tips/2018/automation-and-the-use-of-multiple-accounts.html 6 https://www.nytimes.com/interactive/2018/01/27/technology/social-media-bots.html

3

Com a aproximação das eleições presidenciais de 2018, emergem inquietações sobre o

possível uso desses mecanismos automatizados em processos de desinformação e

manipulação de opiniões. Pela primeira vez a legislação eleitoral vai admitir propaganda

política na internet por meio de impulsionamento. Estas eleições serão provavelmente a

primeira na história na qual a internet, e principalmente as redes sociais, terão um papel

importante na campanha eleitoral.

É nesse contexto que fomos investigar o perfil dos seguidores dos pré-candidatos à presidência

da república no Twitter. Sem pretensões de trazer conclusões sobre compras e usos de bots,

nosso principal objetivo foi verificar se haviam bots seguindo os pré-candidatos e, se sim,

quantos eles seriam. Para isso, desenvolvemos um sistema a partir das APIs7 públicas do

Twitter e do Botometer, que, a partir de uma amostra aleatória dos seguidores de cada um dos

candidatos, permitiu calcular a probabilidade de cada um deles ser bot. Com esse conjunto de

dados elaboramos três tipos de análises: estimamos estatisticamente a quantidade de

prováveis robôs que seguem cada pré-candidato; mapeamos essa rede seguidores bots com

base em quem eles seguem em comum; e, por fim, identificamos a ordem na qual cada conta -

seja ela bot ou não - seguiu determinado pré-candidato e cruzamos essa informação com a

probabilidade de cada uma delas ser totalmente automatizada ou não.

7 APIs (Interface de Programação de Aplicação) é um conjunto de interfaces estabelecidas por um software - como o Twitter e o Botometer - para permitir que outras aplicações utilizem funcionalidades do software sem precisar se envolver completamente com o seu funcionamento.

4

METODOLOGIA

Como já dito, para esse estudo nós utilizamos as APIs públicas do Twitter e do Botometer e

desenvolvemos um sistema capaz de calcular a probabilidade de cada conta de uma amostra

de seguidores de um pré-candidato ser totalmente automatizada ou não. Com esses dados,

primeiro elaboramos cálculos estatísticos para estimar a quantidade de possíveis bots que

seguem cada candidato. Em seguida, a partir do software Gephi, aplicamos o algoritmo de

Modularidade com o objetivo de mapear essa rede de bots com base em quem eles seguem

em comum. Por fim, adaptamos a metodologia utilizada pelo New York Times na reportagem

acima citada para identificar a ordem em que cada conta, seja ela bot ou não, passou a seguir

um pré-candidato no Twitter, e sua respectiva probabilidade de ser bot.

O Botometer

Toda pessoa que utiliza o Twitter provavelmente já cruzou com algum usuário que é um bot.

Essas contas falsas possuem algumas características comuns que podem ser identificadas por

algoritmos especializados em diferenciar usuários humanos de usuários automatizados. Uma

dessas ferramentas é o Botometer, criado pelo “Observatory of Social Media” da Universidade

de Indiana nos Estados Unidos.

O Botometer é um algoritmo de inteligência artificial que calcula a probabilidade de um perfil do

Twitter ser totalmente automatizado, a partir de uma base de dados composta por milhares de

contas no Twitter classificadas como bots ou humanos pelos pesquisadores. O algoritmo utiliza

muitas características diferentes para classificar se um perfil da rede é um bot ou não, mas

algumas delas são fáceis de se imaginar como a frequência de postagem, o tipo de interação, e

as características de seguidores e amigos.

A abordagem específica do Botometer é o uso de um algoritmo chamado de “floresta aleatória”.

Muito usado para classificação de elementos, esse algoritmo precisa de uma base de testes

para ser treinado, e a escolha dessa base é crucial para a qualidade dos resultados da

classificação. Para o seu treinamento, o Botometer utiliza repositórios de contas no twitter

classificadas de diversas formas entre humanos e robôs, que estão disponíveis online8.

Com essas informações, o algoritmo fornece alguns scores para cada perfil, como mostram as

imagens abaixo:

8 https://botometer.iuni.iu.edu/bot-repository/

5

Cada uma desses scores utilizam diferentes aspectos da conta na rede social. O score final do

perfil do InternetLab no Twitter, por exemplo, foi de 0.6, e o score de probabilidade dele ser

considerado um perfil “totalmente automatizado”, o chamado CAP, foi de 0%. Isso faz bastante

sentido, já que o perfil do InternetLab é comandado pela nossa equipe. Por outro lado, o score

do John - um seguidor de um dos membros da nossa equipe identificado como um possível bot

- foi muito mais alto, 4.8 em 5, enquanto seu score de probabilidade de ser um perfil

completamente automatizado, índice CAP, foi 95%.

Por ser um score mais conservador, os desenvolvedores do Botometer recomendam a

utilização do CAP para estimativas sobre um perfil ser ou não um bot. Além disso, sugerem que

seja utilizado o CAP universal, e não o específico para língua inglesa, na hipótese de contas

que não sejam 100% em inglês.

De acordo com um estudo publicado em uma conferência da Association for the Advancement

of Artificial Intelligence (AAAI), a taxa de acerto do Botometer é de 86%.9 A ferramenta possui

uma baixa probabilidade de classificar erroneamente perfis que seriam claramente apontados

como bots ou como usuários reais. Os casos que podem gerar erros da ferramenta são

principalmente aqueles que envolvem perfis dúbios, nos quais as características de bots ou de

humanos não ficam claras. Ainda assim, o fator de confiança médio atinge os 86% citados.

Para essa pesquisa, nós utilizamos o índice CAP - Complete Automation Probability - como

indicador da probabilidade de um perfil ser completamente automatizado. Esse índice já foi

utilizado por diversos estudos para analisar o comportamento de bots na rede social. Os

pesquisadores Pozzana e Ferrara, por exemplo, aplicaram o índice CAP em 53% como o limite

a partir do qual uma conta pode ser identificada como bot.10 Já o Pew Research Center, em

outro trabalho, utilizou o valor de 43%11. Em nossa pesquisa, como elaboramos uma estimativa

estatística para estimar a quantidade de bots de cada perfil, que será melhor explicada abaixo,

não foi traçado um CAP específico. Não obstante, ao mapear a rede de bots que seguem os

9 VAROL, Onur; et al. Online Human-Bot Interactions: Detection, Estimation, and Characterization. In: Proceedings of the Eleventh International AAAI Conference on Web and Social Media, 2017, pp. 280–289. Disponível em: https://aaai.org/ocs/index.php/ICWSM/ICWSM17/paper/view/15587/14817 10 POZZANA, Iacopo; FERRARA, Emilio. Measuring bot and human behavioral dynamics. 2018. Disponível em: https://arxiv.org/pdf/1802.04286.pdf 11 GRAMLICH, John. Q&A: How Pew Research Center identified bots on Twitter. Pew Research Center, 19 abr. 2018. Disponível em: http://www.pewresearch.org/fact-tank/2018/04/19/qa-how-pew-research-center-identified-bots-on-twitter/

6

pré-candidatos, para afastar ao máximo a chance de falsos positivo, selecionamos apenas

aquelas contas cujo CAP fosse maior de 90%.

Nosso algoritmo

A partir das APIs públicas do Twitter e do Botometer, nós desenvolvemos um sistema que

permitiu levantar o identificador de todos os usuários que seguem os pré-candidatos à

Presidência da República, para, em seguida, calcular o score CAP de uma amostra desses

seguidores. A arquitetura desse sistema pode ser visualizada abaixo, e os códigos fonte estão

disponíveis aqui:

● get_followers.py

○ Esse código utiliza a API do Twitter para inserir no banco de dados os

seguidores de uma conta a partir do seu Twitter ID. Como a API do Twitter

retorna os resultados na ordem em que os perfis seguiram o ID enviado, essa

informação também é registrada.

● prob_bot.py

○ Esse código busca perfis aleatórios capturados pelo get_followers.py e os envia

para a API do Botometer, que retorna, entre outras informações, o CAP dessa

conta, informação que também é armazenada no banco de dados.

● guesstimator.py

○ Utiliza as informações salvas no banco de dados pelas outras duas aplicações

acima e calcula o intervalo de confiança para a estimativa da quantidade de

7

seguidores automatizados que um perfil tem de acordo com o CAP calculado

pelo Botometer.

● Banco de dados

○ O banco de dados utilizado possui 3 tabelas: perfis, seguidores e

perfis_seguidores. Na primeira estão as informações das contas dos pré-

candidatos que serão analisadas. A segunda contém as contas dos seguidores

dos perfis analisados, com uma coluna para o CAP. A última é para fazer o

relacionamento entre perfil e seguidor.

Estimativas estatísticas sobre o número de seguidores bots

Com o sistema acima descrito, foi feito um levantamento dos dados de seguidores de diversos

pré-candidatos à presidência da república entre os dias 04 e 28 de junho. Como o Botometer

analisa apenas contas do Twitter, essa pesquisa foi feita só com os perfis dos pré-candidatos

nessa plataforma, pois não encontramos ferramentas semelhantes para outras redes sociais.

Com os dados coletados, foi possível calcular o intervalo de confiança do score CAP de robôs

seguidores que cada um dos perfis dos candidatos possui. A partir desse cálculo, foi possível

extrapolar o intervalo de confiança da quantidade de seguidores robôs de cada perfil, conforme

ilustrado abaixo.

Para cada perfil analisado, foi extraída uma amostra aleatória com n perfis ativos (com pelo

menos uma postagem12) e não bloqueados (perfis acessíveis publicamente13) no Twitter. Após,

o CAP desses perfis foi calculado. A partir desse dado, o CAP médio de cada perfil analisado e

seu desvio padrão foi calculado com a seguinte fórmula (onde cap[k] significa o score CAP do

k-ésimo perfil):

12 Contas como https://twitter.com/abdulla20145 não possuíam nenhuma postagem durante as análises e foram ignoradas. 13 Contas como https://twitter.com/itambe_0 estavam bloqueadas durante as análises e foram portanto ignoradas.

8

Com essas duas informações foi possível calcular o intervalo de confiança do CAP para cada

um dos perfis dos pré-candidatos de acordo com a seguinte fórmula:

A multiplicação do CAP pelo número total de seguidores é uma boa métrica para extrapolar a

quantidade de seguidores que cada uma das contas analisadas possui.

Limitações Conhecidas

No curso da pesquisa algumas possíveis limitações foram identificadas. O sistema utilizado

buscava uma amostra aleatória de seguidores de cada um dos perfis analisados, porém,

considerava os resultados que fossem comuns nos cálculos dos intervalos de confiança. Dessa

forma, se um seguidor amostrado no perfil A seguisse outros perfis, seu CAP seria considerado

em todos eles e não somente no perfil A. Isso foi realizado para conseguir uma amostra

significativa de forma mais eficiente, mas pode ter interferido com a aleatoriedade da

amostragem realizada caso exista uma relação entre scores CAP e seguir múltiplas contas,

hipótese que não foi considerada no modelo.

Outra limitação conhecida é que o sistema ignora no cálculo das estimativas contas que não

tenham postado nenhuma vez, ou que sejam perfis privados. Apesar da freqüencia encontrada

dessas contas ser pequena, elas podem alterar o resultado final.

9

RESULTADOS

Com base na metodologia acima, coletamos dados entre os dia 4 e 28 de junho e dos perfis

dos seguintes pré-candidatos à presidência da república: Adilson Barroso (PATRIOTA), Álvaro

Dias (PODEMOS), Ciro Gomes (PDT), Fernando Collor (PTC), Flávio Rocha (PRB), Geraldo

Alckmin (PSDB), Guilherme Boulos (PSOL), Henrique Meirelles (MDB), Jair Bolsonaro (PSL),

Jaques Wagner (PT), João Amoêdo (NOVO), Lula (PT), Manuela D’Ávila (PCdoB), Marina Silva

(REDE), Paulo Rabello (PSC), Rodrigo Maia (DEM).

Além dos pré-candidatos, foi incluído na pesquisa os dados coletados do perfil do chef de

cozinha Michael Symon, que admitiu ter comprado seguidores após ter sido apontado pela

reportagem do New York Times como um dos clientes de uma companhia suspeita de atuar na

venda de bots. Com a informação prévia de que ele possui efetivamente seguidores robôs,

seus dados foram acoplados à pesquisa para fins de comparação e validação da metodologia

utilizada.

Os resultados foram divididos em três partes: estimativas estatisticas da quantidade de

prováveis robôs que seguem cada pré-candidato; mapeamento dessa rede de seguidores bots

com base em quem eles seguem em comum; e identificação de padrões de possíveis compras

de bots a partir da ordem na qual cada conta - seja ela bot ou não - seguiu determinado pré-

candidato.

Estimativas Estatísticas sobre a quantidade de seguidores bots

Com base na metodologia aplicada, foi calculado estatisticamente o número máximo e o

número mínimo de bots que seguem cada pré-candidato, chamado de intervalo de confiança.

Os dados foram organizados na tabela abaixo:

Perfil Seguidores Amostra Intervalo de confiança

Mínimo Máximo Média

Michael Symon 893825 21999 340897 340897 340897

Guilherme Boulos 65555 9455 8732 9637 9185

Paulo Rabello 1086 225 135 245 190

João Amoêdo 69344 12174 14027 15036 14532

Manuela 205286 17437 43912 46528 45220

Lula 336905 21291 72583 76433 74508

Henrique Meirelles 48696 8317 11302 12208 11755

Flávio Rocha 26274 5761 7254 7882 7568

Rodrigo Maia 42042 7660 12301 13184 12743

10

Ciro Gomes 165113 18171 51858 54147 53003

Jair Bolsonaro 1187867 24191 394633 409077 401855

Marina Silva 1914200 27195 682102 704279 693191

Jaques Wagner 64995 10268 24241 25476 24859

Fernando Collor 28381 6474 11197 11896 11547

Geraldo Alckmin 992735 21823 448407 461674 455041

Adilson Barroso 841 707 364 426 395

Alvaro Dias 408732 22754 260255 265645 262950

Se olharmos apenas para o número absoluto de bots que seguem cada pré-candidato, é

possível observar que ele será maior na medida em que os perfis possuem um maior número

de seguidores.

Para uma visualização mais precisa do perfil dos seguidores dos pré-candidatos, portanto, é

necessário olhar quanto esses bots representam percentualmente com relação ao total de

seguidores. Com a média do intervalo de confiança, estimamos esse percentual, conforme

pode ser visto no gráfico e na tabela abaixo:

11

Perfil Seguidores Intervalo de confiança

Mínimo Máximo Media

Michael Symon 893825 38.1% 38.1% 38.1%

Guilherme Boulos 65555 13.3% 14.7% 14.0%

Paulo Rabello 1086 12.4% 22.6% 17.5%

João Amoêdo 69344 20.2% 21.7% 21.0%

Manuela 205286 21.4% 22.7% 22.0%

Lula 336905 21.5% 22.7% 22.1%

Henrique Meirelles 48696 23.2% 25.1% 24.1%

Flávio Rocha 26274 27.6% 30.0% 28.8%

Rodrigo Maia 42042 29.3% 31.4% 30.3%

Ciro Gomes 165113 31.4% 32.8% 32.1%

Jair Bolsonaro 1187867 33.2% 34.4% 33.8%

12

Marina Silva 1914200 35.6% 36.8% 36.2%

Jaques Wagner 64995 37.3% 39.2% 38.2%

Fernando Collor 28381 39.5% 41.9% 40.7%

Geraldo Alckmin 992735 45.2% 46.5% 45.8%

Adilson Barroso 841 43.3% 50.7% 47.0%

Alvaro Dias 408732 63.7% 65.0% 64.3%

O pré-candidato Guilherme Boulos apresentou o menor percentual, com um Intervalo de

Confiança entre 13.3% e 14.7%, o que representa uma média de aproximadamente 9.185 bots

entre seus seguidores. Na outra ponta do gráfico, acima dos 38,1% de Michael Symon, se

encontram Fernando Collor, Geraldo Alckmin, Adilson Barroso e Álvaro Dias. Este último

possui o maior percentual entre todos, com um Intervalo de Confiança entre 63.7% e 65.0%,

equivalente a uma média de 262.950 seguidores bots.

Em nenhum caso o percentual chegou a zero ou próximo disso. Essa alta quantidade de bots

nos perfis dos pré-candidatos à presidência, todavia, não indica, necessariamente, que houve

qualquer tipo de aquisição de seguidores por eles ou pelas empresas de marketing que os

auxiliam. O Brasil é um dos países com o maior uso de bots em redes sociais14 e, de acordo

com um relatório da Symantec de 2016,15 o Brasil hospeda o 8º maior número de bots do

mundo. Além disso, como já foi dito acima, isso não é algo fundamentalmente novo, afinal já foi

identificado a atividade de robôs no Twitter desde na última eleição presidencial em 2014,

durante o processo de impeachment e nas eleições municipais de 2016.16

14 ARNAUD, Dan. Computational propaganda in Brazil: social bots during elections. University of Oxford Working Paper, n.8, 2017. Disponível em: http://blogs.oii.ox.ac.uk/politicalbots/wp-content/uploads/sites/89/2017/06/Comprop-Brazil-1.pdf 15 Internet Security Threat Report, vol. 21, Abril 2016. Disponível em: https://www.symantec.com/content/dam/symantec/docs/reports/istr-21-2016-en.pdf, acesso em 26 jan 2018. 16 ARNAUD, Dan. Computational propaganda in Brazil: social bots during elections. University of Oxford Working Paper, n.8, 2017. Disponível em: http://blogs.oii.ox.ac.uk/politicalbots/wp-content/uploads/sites/89/2017/06/Comprop-Brazil-1.pdf

13

Isolamento ou conexão entre seguidores bots

O funcionamento de bots nas plataformas é muito diversificado, nem sempre eles são objeto de

compra, podendo seguir usuários e interagir com conteúdos com base em palavras-chave,

assunto, conjuntos de interesse etc. Mapear esses bots a partir de quem eles seguem em

comum pode levantar pistas sobre isso. Há mais chances de que eles sejam ativados a partir

de palavras-chave ou temas em comum, por exemplo, se eles seguem mais de um perfil com

características semelhantes.

Diante disso, com os dados coletados, aplicamos um algoritmo de modularidade e mapeamos

a rede de seguidores bots existente entre os pré-candidatos. A partir do software Gephi17,

criamos o grafo de quais perfis os seguidores com CAP maior que 90%18 da amostra de

seguidores analisados seguiam, com o objetivo de verificar se esses bots seguiam vários pré-

candidatos em comum ou apenas um perfil dentre eles. Nessa visualização, quanto mais

próximos os pré-candidatos estão entre si, maior o número de seguidores bots em comum. As

cores indicam a formação de aparentes clusters, em decorrência de um relativo alto número de

seguidores compartilhados entre eles, conforme pode ser observado abaixo:

17 O Gephi é um software open-source para visualização e análise de redes utilizado em pesquisas acadêmicas e jornalísticas. 18 O score CAP reflete a probabilidade de uma conta ser totalmente automatizada. Estudos acadêmicos selecionaram um score entre 40 e 60% para considerar a conta um robô, todavia para essa pesquisa nós escolhemos um score mais conservador com o objetivo de reduzir ao máximo a chance de falsos positivos.

14

Como pode ser observado, os clusters identificados a partir dos seguidores em comum ilustram

de certa forma um cenário político-eleitoral no Brasil, que se aproxima do que foi feito em

pesquisas que se utilizaram de metodologia semelhante para mapear debates políticos nas

redes sociais.19 Além disso, esse tipo de abordagem para encontrar perfis que são

potencialmente bots já foi também aplicado em outros estudos20, que usaram como base para

a captura de dados, todavia, hashtags, e não perfis específicos.

Há uma distorção, todavia, que pode ser observada com relação ao candidato Álvaro Dias, que

claramente se isola dos demais. Esse achado indica, principalmente, que entre ele e os outros

pré-candidatos existe um baixo número de seguidores bots compartilhados, se comparado com

a situação dos demais. Se ele for retirado, é possível ter uma visualização mais aproximada da

rede de bots compartilhada entre os outros candidatos:

19 MALINI, Fábio. UM MÉTODO PERSPECTIVISTA DE ANÁLISE DE REDES SOCIAIS: cartografando topologias e temporalidades em rede. In: XXV Encontro Anual da Compós, 2016. Goiânia: Associação Nacional dos Programas de Pós-Graduação em Comunicação. Disponível em: http://www.labic.net/wp-content/uploads/2016/06/compos_Malini_2016.pdf. 20 CÔRTES, Thaísa G. et al. O #VemPraRua em dois ciclos: análise e comparação das manifestações no Brasil em 2013 e 2015. In: XXXIX Congresso Brasileiro de Ciências da Comunicação, 2016. São Paulo: Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação. Disponível em: http://portalintercom.org.br/anais/nacional2016/resumos/R11-1938-1.pdf

15

Algoritmos de modularidade mostram o quão semelhantes diferentes conjuntos de nós das

redes são. O algoritmo utilizado no Gephi21 possui um parâmetro chamado resolução22, que ao

ser aumentado reduz o número de comunidades criadas pelo algoritmo. Abaixo verificamos

diferentes resoluções e as comunidades criadas por esse algoritmo. A redução das

comunidades acentua o isolamento que o nó que representa o candidato Álvaro Dias possui

em relação ao ecossistema de bots no Twitter.

21 Vincent D Blondel, Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre, Fast unfolding of communities in large networks, in Journal of Statistical Mechanics: Theory and Experiment 2008 (10), P1000 22 R. Lambiotte, J.-C. Delvenne, M. Barahona Laplacian Dynamics and Multiscale Modular Structure in Networks 2009

16

Resolução #comunidades Rede

0.5 13

1 8

17

2 4

4 2

18

8 2

16 2

19

32 1

Ao aumentarmos a resolução do algoritmo, as comunidades vão se agrupando. Com resolução

0.5, são criadas 13 comunidades para os 16 candidatos, já quando aumentamos isso para

resolução de 1, temos somente 8 comunidades formadas pelos 16 candidatos:

Número da comunidade Candidatos

0 Rodrigo Maia e Fernando Collor

1 Jaques Wagner

2 Álvaro Dias

3 Geraldo Alckmin

4 Marina Silva e Adilson Barroso

5 Lula e Ciro Gomes

6 Manuela D’Ávila e Guilherme Boulos

7 Paulo Rabello, Henrique Meirelles, Jair Bolsonaro, Flávio Rocha e João Amoêdo

20

A quantidade de seguidores em comum entre os candidatos também pode ser vista nessa

rede. Com um recorte de apenas 3 candidatos, Geraldo Alckmin, Marina Silva e Álvaro Dias, é

possível visualizar mais claramente os robôs que seguem somente 1 dos candidatos, os que

seguem 2, e os que seguem os 3 candidatos.

Em uma análise sobre o número de possíveis robôs que seguem cada candidato e quantos

desses seguidores são compartilhados entre eles, apuramos que o candidato Geraldo Alckmin

é seguido por 3816 possíveis robôs, Marina Silva por 2793 e Álvaro Dias por 10411. Destes

números, 547 são compartilhados por Marina Silva e Geraldo Alckmin, 151 entre Álvaro Dias e

Geraldo, 72 entre Marina e Álvaro e 140 pelos três candidatos. A tabela abaixo ilustra esses

dados:

21

Geraldo Alckmin Marina Silva Álvaro Dias

Geraldo Alckmin 3816 547 151

Marina Silva 547 2793 72

Álvaro Dias 151 72 10411

*além disso 140 seguidores são compartilhados pelos 3 candidatos simultaneamente

A quantidade de robôs que seguem os candidatos Geraldo e Marina ao mesmo tempo é muito

maior do que os que seguem um dos candidatos e o candidato Álvaro Dias, mesmo esse último

possuindo um maior número de seguidores que foram identificados como robô pelo score CAP.

Sabendo que alguns desses robôs seguem por palavras-chave ou por tipo de conta (contas de

políticos, por exemplo) o compartilhamento de alguns robôs é esperado em um ambiente onde

eles seguiram os candidatos de forma “orgânica”.

Modelo para ilustrar perfis com suspeita de compra de bots

Na reportagem produzida pelo New York Times, acima mencionada, foi aplicada uma

metodologia que permitiu identificar a ordem em que cada conta passou a seguir um perfil no

Twitter, seja ela bot ou não, e sua respectiva data de criação. Essa abordagem possibilitou

identificar momentos nos quais muitos prováveis bots passaram a seguir um perfil em conjunto,

o que pode indicar uma suposta compra de bots.

O sistema desenvolvido pelo internetlab coleta o score CAP de uma amostra aleatória de

seguidores de diversos perfis de pré-candidatos à presidência e a ordem que eles seguiram

cada um dos perfis indicados. Com isso, para replicar essa investigação feita pelo New York

Times no perfil dos pré-candidatos, nós adaptamos a metodologia para utilizarmos o CAP

calculado pelo Botometer, e plotamos o CAP de cada um dos seguidores analisados versus a

ordem que eles seguiram o perfil de cada pré-candidato.

Grandes blocos de seguidores com CAP alto indicam a provável compra de seguidores,

enquanto que um gráfico sem esses blocos indica que bots naturalmente seguiram o perfil.

Para validar esse sistema, primeiro nós aplicamos essa metodologia ao perfil de Michael

Symon, que já havia confessado a compra de bots. No gráfico abaixo, observamos no topo

algumas aglomerações de perfis que são provavelmente automatizados (score CAP próximo de

1.0), o que indica o momento nos quais essas compras ocorreram:

22

Uma outra forma de analisar esses dados é dividir os seguidores das contas em faixas de igual

tamanho, colocando os primeiros seguidores na primeira faixa, os seguidores seguintes na

segunda e assim por diante. Neste trabalho utilizamos 20 faixas para realizar essa divisão e

cada uma foi nomeada com os percentis que ela representa. A faixa 0-5, por exemplo, é a

primeira das dez faixas e contém todos os seguidores entre o primeiro e o que marca o

percentil 5.

Intervalo de percentis (posição entre os seguidores) CAP médio23

00-05 11.5%

05-10 13.0%

10-15 13.9%

15-20 15.9%

20-25 18.5%

25-30 33.4%

30-35 30.7%

35-40 24.5%

40-45 22.9%

45-50 43.6%

50-55 26.6%

23 Quanto mais perto de 100% for esse valor, maior a quantidade de bots que seguiram a conta naquele percentil.

23

55-60 41.1%

60-65 45.3%

65-70 59.9%

70-75 72.3%

75-80 68.6%

80-85 72.4%

85-90 79.2%

90-95 59.4%

95-100 24.0%

As manchas escuras na parte superior da imagem representam onde provavelmente ocorreu a

compra de seguidores, principalmente ao ser acompanhada por uma mancha mais clara na

parte debaixo do gráfico.

O mesmo processo foi aplicado nos pré-candidatos à Presidência da República. Como a

seleção da amostra de seguidores analisados é feita de forma aleatória, a diferença na

quantidade de pontos testados em cada perfil está relacionada à quantidade de seguidores dos

perfis. O resultado está representado na tabela e nos gráficos abaixo.

24

Faixa CAP Médio

Geraldo

Alckmin

Álvaro

Dias

Marina

Silva

Jair

Bolsonaro

Ciro

Gomes Lula

00-05 23.6% 47.7% 14.7% 15.5% 25.3% 9.1%

05-10 26.9% 37.2% 18.5% 16.6% 22.8% 20.4%

10-15 33.9% 63.1% 21.7% 18.1% 25.2% 19.2%

15-20 37.7% 80.8% 19.4% 16.6% 30.2% 15.5%

20-25 36.3% 79.1% 27.8% 24.3% 38.2% 16.9%

25-30 35.4% 95.5% 30.8% 29.6% 36.9% 15.7%

30-35 39.6% 96.0% 39.0% 24.9% 23.0% 15.3%

35-40 50.7% 89.0% 35.9% 24.4% 18.3% 19.8%

40-45 55.8% 87.9% 34.6% 27.0% 20.4% 24.9%

45-50 60.5% 87.4% 32.3% 32.1% 43.8% 31.4%

50-55 58.2% 86.2% 30.2% 35.2% 36.3% 33.8%

55-60 43.6% 83.1% 34.1% 43.3% 50.7% 16.0%

60-65 50.2% 80.2% 49.8% 42.6% 38.3% 37.3%

65-70 63.0% 27.2% 54.5% 46.3% 50.1% 36.4%

70-75 58.2% 29.6% 53.3% 49.5% 37.4% 21.5%

25

75-80 54.5% 39.3% 37.3% 54.2% 30.1% 16.5%

80-85 45.1% 47.5% 40.0% 45.6% 31.7% 14.0%

85-90 51.2% 41.4% 50.6% 42.6% 35.7% 15.1%

90-95 52.3% 49.7% 55.9% 46.6% 29.5% 33.6%

95-100 40.0% 38.7% 44.3% 41.6% 17.9% 29.9%

26

Faixa CAP Médio

Guilherme

Boulos

Manuela

D’Ávila

João

Amôedo

Jaques

Wagner

Henrique

Meirelles

Fernando

Collor

00-05 6.6% 26.5% 10.6% 23.2% 8.7% 26.1%

05-10 10.6% 25.0% 9.6% 24.3% 11.0% 29.1%

10-15 11.0% 25.8% 9.9% 35.8% 13.2% 33.3%

15-20 13.8% 32.1% 14.0% 40.2% 15.0% 34.4%

20-25 12.7% 36.3% 17.1% 31.5% 13.7% 32.4%

25-30 11.5% 41.3% 12.5% 38.8% 16.9% 30.4%

30-35 12.7% 34.5% 24.1% 37.5% 20.8% 43.6%

35-40 11.9% 25.1% 31.9% 37.6% 18.4% 51.2%

40-45 16.8% 22.0% 21.9% 37.2% 19.9% 54.7%

45-50 14.4% 17.8% 34.6% 28.5% 26.1% 64.1%

50-55 12.0% 21.7% 41.0% 24.7% 24.5% 70.3%

55-60 12.3% 15.0% 22.1% 27.3% 23.8% 36.2%

60-65 16.5% 12.9% 19.2% 25.4% 23.9% 22.7%

65-70 16.4% 5.3% 17.6% 38.7% 25.0% 43.6%

70-75 14.0% 11.3% 20.8% 56.4% 23.6% 46.4%

27

75-80 13.0% 13.0% 20.6% 57.8% 29.4% 32.3%

80-85 17.3% 15.5% 21.5% 58.9% 48.9% 55.1%

85-90 17.8% 18.4% 23.6% 54.4% 48.8% 36.7%

90-95 19.7% 21.6% 21.5% 44.6% 28.1% 41.9%

95-100 19.0% 19.6% 24.9% 42.2% 43.1% 29.0%

28

Faixa CAP Médio

Flávio

Rocha

Rodrigo

Maia

Adilson

Barroso

Paulo

Rabelo

00-05 23.6% 30.4% 34.5% 4.8%

05-10 35.8% 26.4% 38.9% 3.0%

10-15 22.8% 37.9% 42.1% 18.2%

15-20 34.0% 37.3% 41.4% 20.2%

20-25 30.6% 39.3% 47.8% 14.2%

25-30 32.0% 50.3% 50.1% 17.2%

30-35 45.5% 40.0% 54.7% 12.8%

35-40 44.5% 35.1% 44.2% 13.9%

40-45 49.3% 17.7% 42.1% 7.7%

45-50 19.4% 19.2% 46.9% 12.8%

50-55 24.6% 28.7% 53.4% 18.5%

55-60 26.8% 23.0% 55.7% 23.1%

60-65 27.8% 28.0% 47.6% 47.5%

65-70 21.9% 26.4% 49.9% 15.6%

70-75 21.5% 25.8% 51.9% 19.9%

29

75-80 28.8% 28.9% 43.5% 19.4%

80-85 22.4% 24.1% 70.8% 19.5%

85-90 20.5% 28.5% 51.1% 28.5%

90-95 24.0% 29.1% 50.5% 26.4%

95-100 20.4% 30.2% 24.1% 6.4%

30

31

32

33

De todos os pré-candidatos pesquisados, apenas Álvaro Dias apresentou características

semelhantes àquela observada no gráfico de Michael Symon. Esse contorno anormal, todavia,

não significa, necessariamente, uma compra de seguidores robôs, mas indica que em algum

momento na história do perfil todos os novos seguidores eram provavelmente bots, algo que

não é comum em um crescimento orgânico na relevância de um perfil. Além disso, com o

espaço amostral ainda limitado que estamos usando, existe a possibilidade do perfil do

candidato se apresentar dessa forma por uma anomalia estatística.

CONSIDERAÇÕES FINAIS

As análises deste estudo não tem a pretensão de traçar afirmações categóricas sobre a origem

e o uso de bots no cenário político-eleitoral, mas de começar a olhar para esse cenário. As

conclusões aqui encontradas nos revelam que a presença de bots no discurso político nas

eleições de 2018 será uma realidade. Mais de 1 milhão de robôs seguem os pré-candidatos e

em muitos casos seguem mais de um simultaneamente. Além disso, todos os candidatos

possuem um percentual considerável de seus seguidores composto por contas automatizadas.

Tudo isso aponta a importância de que tanto cidadãos quanto a justiça eleitoral estejam atentos

à essas questões durante a campanha eleitoral.