Por que as pesquisas erram tanto?

Partindo do vídeo ‘Porque as pesquisas erram tanto?’ do canal do YouTube Nerdologia, resolvemos entender a relação dos públicos com esses resultados, principalmente se levando em conta os ‘erros’ recentes como as eleições americanas, o Brexit, etc.

Nosso objetivo é entender, dentro do contexto recente de preditividade errada, como os públicos de Jair Bolsonaro e Lula se comportam diante dos dados que estão sendo coletados para a presidência 2018.

Assim, analisaremos o comportamento dos públicos diante do resultado da pesquisa Datafolha do dia 30 de Abril e as publicações dos candidatos no Facebook, através da ferramenta Netvizz. Também analisaremos as hashtags lula2018, bolsonaro2018 e diretasja. Esses dados nos ajudarão na compreensão dos assuntos que cercam a disputa política, e o que as pessoas que utilizam as hashtags acreditam dentro do contexto político e de pesquisas.

A ideia geral é entender o comportamento dos públicos diante das pesquisas dentro e fora de um cluster formado, partindo do conceito de cluster como aglutinação de pensamento, principalmente na rede. Assim, a busca das pessoas pelo viés de confirmação de sua opinião aglomera pessoas de pensamento similar em determinadas páginas, principalmente dentro da política. Dessa forma buscamos entender o que as postagens e as hashtags geram dentro e fora daquele grupo de pessoas e como os resultados das pesquisas atuais são vistos e interpretados por essas partes.

Algumas questões que podem surgir são: quem são os públicos dos políticos analisados? Como eles interpretam as eleições de 2018? Existem outros grupos (clusters) que interagem com as postagens/hashtags? Como essa interação acontece (ataque ao candidato, defesa de um ponto de vista, comentário sobre a política – análise principalmente das hashtags associadas aos objetos da análise)?

Análise das Postagens nas páginas de Facebook dos candidatos relativas à Pesquisa Eleitoral do grupo Datafolha

Começamos com a análise dos posts nas páginas de Facebook dos pré-candidatos, relativos à pesquisa Datafolha de 30 de abril de 2017, através da extração de comentários, compartilhamentos e reações em cada publicação. A escolha desse conteúdo se deve ao ponto de partida escolhido (pesquisa do Instituto Datafolha) e ao desejo de entender primeiro como a pesquisa foi abordada pelos candidatos analisados e como o público de cada uma das páginas reagiu, para que, mais adiante, possamos entender melhor as reações desses públicos à eventos mais recentes do cenário político nacional (caso você queira entender melhor o cenário político do país em 2017, recomendamos o resumo da Superinteressante sobre o assunto).

Facebook Lula

Imagem 1: reação na página do Facebook do Lula à mais recente pesquisa Datafolha

 

Gráfico 1: da esquerda para a direita, os posts do Facebook de Lula no dia 30/04/2017 – post sobre a pesquisa Datafolha, post sobre geração de empregos nos governos do PT e divulgação Twitter do Lula


O gráfico 1 ilustra as estatísticas básicas dos três posts divulgados na página de Lula no dia 30/04/2017, evidenciando o número de Reações, Comentários e Compartilhamentos de cada um, respectivamente. Considerando os posts que ocorreram nesse período, é possível perceber que a relação do público com o conteúdo não segue necessariamente um critério específico. Nesse dia, o post da pesquisa (imagem 1) obteve o maior número de reações, comentários e compartilhamentos; em segundo veio a divulgação do Twitter do ex-presidente, uma postagem com pouquíssimo conteúdo e de caráter mais promocional que a terceira postagem, que relatava sobre a geração de empregos nas gestões Lula e Dilma.

Partindo disso, buscamos visualizar pelo Gephi como foram as interações nas postagens do dia 30/04. É importante destacar que “interação”, nesse caso, aglomera comentários, reações e compartilhamentos, portanto uma pessoa que interage 3 vezes pode ter realizado um comentário, uma curtida e um compartilhamento, ou três comentários, ou qualquer outra combinação que resulte em 3 “interações”.

Gráfico 2: visualização dos três posts do dia 30/04/2017 (círculos em cinza claro) por grau (tamanho dos círculos) e nível de interação do público com cada postagem (demais cores), onde rosa equivale a apenas uma interação, verde equivale a 2 interações e azul três interações; demais cores equivalem a 4 ou mais interações)

Porcentagem por número de interações

O gráfico 2 ilustra as interações do usuário na página do ex-presidente no dia em questão, e mostra o quanto o comportamento é diverso em relação ao tema das postagens: se torna ainda mais visível o quanto o post de Geração de Empregos nas Gestões Lula e Dilma recebeu poucas interações em comparação aos outros, assim como a quantidade surpreendente de interação que o post promocional do Twitter recebeu, pois em sua essência ele é apenas a divulgação de um outro canal de comunicação, uma forma de propaganda mais explícita. O gráfico demonstra também que não existe necessariamente uma relação de fidelização desse público, pois existe uma parcela muito pequena dos usuários com 3 ou mais interações com a página (apenas 0,68% do total).


Facebook Bolsonaro

 

Imagem 2: reação na página do Bolsonaro no Facebook à mais recente pesquisa do Datafolha

 

Gráfico 3: da esquerda para a direita os posts do facebook de Bolsonaro no dia 30/04/2017 – post sobre a pesquisa Datafolha, post o Movimento Lamarca Vive e a infância do candidato

Na página do candidato Jair Bolsonaro, encontramos a seguinte situação: o post sobre a pesquisa do Datafolha (à esquerda) é apenas a imagem da manchete da Folha de São Paulo, que expõe os resultados da pesquisa que saíram naquele dia (30/04/2017). Como mostra o gráfico, o post sobre o Movimento Lamarca Vive, postado posteriormente no mesmo dia, é menos impactante, mas trata de um assunto de valor emocional relacionável à campanha do pré-candidato à presidência, e uma possibilidade é que tenha sido utilizado para aproveitar o momento em que o candidato se ergue nas pesquisas.

É importante destacar que não encontramos no site da folha a matéria correspondente à manchete postada (imagem 2). O grupo acredita ter ocorrido manipulação na imagem, primeiro para dar enfoque aos tons vermelhos, que não são tão presentes no site e é a cor símbolo do PT e da luta de esquerda (representando o socialismo), além de ter ocorrido alteração na manchete publicada – a matéria encontrada pelo grupo no site da Folha de S. Paulo (vide link) possui uma manchete diferente, evocando o possível candidato petista primeiro pela liderança ampliada na disputa eleitoral, e após o ponto e vírgula trata da chegada de Bolsonaro à segunda posição. Vale ressaltar que não existe o link para a matéria da pesquisa na postagem (imagem 2) no perfil do pré-candidato, e o conteúdo da reportagem é escondido do eleitor, e isso reforça, para nós, a produção e maquiagem da manchete em questão. Acreditamos ser importante destacar também nessa questão a produção de uma possível pós-verdade, não no conteúdo da notícia, mas na maneira em que ela é exibida ao público pelo perfil do candidato.

Gráfico 4: visualização dos dois posts do dia 30/04/2017 (círculos em cinza claro) por grau (tamanho dos círculos) e nível de interação do público com a página naquele dia (demais cores), onde rosa (80,95% dos círculos) equivale a apenas uma interação, verde (17,35% dos círculos) equivale a duas interações e azul (1,17%) equivale a 3 interações; demais cores (0,53%) equivalem a 4 ou mais interações.

Porcentagem por número de interações

O gráfico 4 demonstra as interações (novamente, interações nesse caso correspondem ao agrupamento de reações, comentários e compartilhamentos) dos usuários com as postagem realizadas no dia 30 de Abril. Através das porcentagens de interação é possível perceber que o público de Bolsonaro se relaciona bastante com a página; em um dia com apenas duas postagens, 18,52% das pessoas realizaram duas ou três interações. Isso se torna ainda mais visível quando comparado aos dados de Lula: em um dia que o ex-presidente realizou três postagens, somando as porcentagens de duas e três interações, a página obteve 17,09% do total de interações, e por haver um maior número de postagens, era esperado que houvesse uma maior porcentagem de múltiplas interações. Por outro lado, assim como vimos com Lula, o número de usuários com 3 ou mais interações na página de Bolsonaro é baixo, correspondendo a apenas 0,53% do total.


Análise da página do facebook dos candidatos entre 28 de abril e 2 de maio

Ao analisarmos o conteúdo postado por cada candidato, buscamos entender os movimentos antes-durante-depois à notícia da pesquisa Datafolha e quanto isso gerou movimento típicos ou atípicos dos públicos de cada candidato. Tendo em vista a popularidade de posts anteriores e posteriores, buscamos entender a relação do público com o conteúdo da página, bem como se há relação entre o engajamento dos mesmos com a relevância política do tema postado.

Facebook – Lula

Gráfico 5: vale ressaltar que, devido ao tamanho das esferas de cada postagem, apenas os posts com mais engajamento são legíveis

O gráfico 5 busca comparar o engajamento do público com a divulgação da pesquisa eleitoral, que o colocava na frente de todos os outros candidatos, no meio das outras postagens. Ao todo, foram 424.685 engajamentos ao longo de 15 postagens, sendo que nesse caso, engajamento é a soma de todos os comentários, curtidas e reações; embora essa não seja uma métrica muito interessante, uma vez que comentário muitas vezes significa um maior interesse do que uma curtida, continua sendo útil para entender a popularidade de cada postagem. Curiosamente, o vídeo sobre o Ato em Defesa da Indústria Naval (postagem dia 29/04/2017 – representado pela esfera laranja-escuro) foi, de longe, o post com maior engajamento, seguido por um outra publicação do mesmo ato. Uma das explicações para a popularidade desse conteúdo seria o fato de que foi feito em formato de vídeo ao-vivo (ou live), e o Facebook costuma impulsionar bastante e dar prioridade nas Timelines para esse tipo de postagem.

Partindo disso, conseguimos enxergar que, a dimensão da publicação sobre o Twitter de Lula, que num primeiro momento – gráfico 2 – se mostra com um grande número de engajamento por parte dos usuários, dentro de um contexto da página não representa a maioria dos engajamentos. Quando consideramos sua temática, vemos que ela difere das demais publicações de maior engajamento. Porém pode ser entendido como um movimento de alavancar o conteúdo sobre o candidato no Twitter que, como veremos adiante, sofre um movimento de queda na rede.

Facebook – Bolsonaro

Gráfico 6: novamente, devido ao tamanho das esferas de cada postagem, apenas os posts com mais engajamento são legíveis. Link para o workbook do Tableau

No gráfico 6 foram analisadas diversas postagens na página do Facebook de Bolsonaro entre os dias 28 de Abril e 02 de Maio. Ao todo, foram 1.022.181 engajamentos ao longo de 13 postagens, um número consideravelmente maior que os de Lula, porém novamente essa é uma métrica utilizada com o único propósito de ilustrar a popularidade dos posts entre si. Ao contrário do que pensamos, o post de Pesquisa Eleitoral não recebeu tanta atenção quanto esperávamos, sendo apenas o 10º post em termos de engajamento no período analisado. Isso pode ser resultado da falta de conteúdo na postagem (sem link da matéria ou descrição do post), o que limita os modos de atração do usuário da rede por não, necessariamente, se destacar no ambiente da timeline.

Munidos da interação dos públicos com as páginas do Facebook, partimos para a análise da presença (ativa ou passiva) dos políticos no Twitter, para entender como o público reagiu às ações dos candidatos e o contexto político em determinados momentos-chave. É importante ressaltar também que durante o período do projeto, a hashtag diretasja se popularizou, e isso tem relação com lula2018 e bolsonaro2018, portanto decidimos incluir na análise as relações existentes entre o movimento Diretas Já e as candidaturas de ambos

Análise das hashtags #diretasja, #lula e #bolsonaro entre 14 e 30 de maio

A análise dos tweets segue como um acompanhamento da popularidade dos candidatos, uma vez que o período de coleta das informações foi posterior à coleta dos dados no Facebook (entre 14 e 30 de Maio). Com isso buscamos entender, dentro de um cenário político de grandes alterações (após à pesquisa DataFolha, foram anunciadas novas questões relevantes da política nacional – delações premiadas, mandados de prisão, e os dois pré-candidatos citados em investigações da polícia federal), qual a situação dos candidatos e sua popularidade. E assim, se isso pode, ou não, servir como embasamento para os cenários propostos nos resultados das pesquisas.

Gráfico 7: cada ponto no gráfico representa o fluxo de tweets com a hashtag durante o perído de 60 minutos, sendo o pico máximo 357 tweets em uma hora.

Como mostra o gráfico, ocorreu um pico significativo de tweets após o vazamento do áudio de Temer e as delações que acusam Aécio, e outro ainda maior após a Lava-Jato denunciar o ex-presidente Lula pelo sítio de Atibaia. Para rápida contextualização, o áudio de Temer mostrava o presidente sendo conivente com crimes relatados por Joesley Batista, como uma “mesada” para Eduardo Cunha não realizar Delação Premiada. No caso de Aécio, ele foi citado em Delação Premiada e acusado de recebimento de propina, assim como tentativa de obstrução de investigação.

Gráfico 8

Similar ao gráfico anterior, o número de tweets com “#lula2018” também estourou logo após o vazamento dos áudios, atingindo um pico maior que o apresentado no gráfico anterior, porém no dia 22 de maio o pico é bem menos significativo, uma vez que as notícias do dia foram de teor negativo ao ex-presidente. Assim como o gráfico anterior, esses picos parecem ser uma reação imediata dos usuários aos acontecimentos políticos, e associação feita é a de que a cada nova tensão que emerge, as pessoas expressam a solução que elas imaginam para o problema, em forma das hashtags “bolsonaro2018” e “lula2018”.

#DiretasJá

Após a pressão sobre a renúncia de Temer se avolumar ao longo dos acontecimentos das semanas, a #DiretasJá começou a crescer rapidamente. Essa seria uma forma das pessoas poderem eleger o presidente sem depender das eleições indiretas, uma vez que nessa os senadores e deputados quem elegem o novo presidente, e esse permaneceria no poder até as eleições do ano que vem. O argumento para evitar a eleição indireta é que muitos dos representantes eleitos estão sendo investigados pela Lava-Jato, e essa escolha poderia não representar os interesses do povo.
Para analisar a hashtag, utilizamos do TAGS para recolher os tweets. Devido a algumas limitações no software, e no volume gigantesco de dados, não pudemos pegar os tweets antes de 28 de maio, porém conseguimos unir 23351 tweets entre 28 de 30 de maio.

Gráfico 9: os protestos que contaram com a presença de artistas gerou o pico do gráfico, com 2236 tweets em uma hora. Link para o workbook do Tableau.
Como dissemos anteriormente, essa hashtag é especialmente importante acompanhar pois teoricamente, caso ocorressem eleições diretas em breve, as pesquisas eleitorais teriam ainda maior impacto. Esse é um dos motivos que fazem com que a #diretasja seja mais associada a #lula do que com a #bolsonaro, uma vez que caso ocorressem eleições agora, de acordo com as pesquisas, Lula seria o vencedor. Nesse caso, não escolhemos a #lula2018 ou #bolsonaro2018 pois elas, individualmente, omitiam muitos resultados, porém elas também estão inclusas nos tweets extraídos.

Gráfico 10: ao todo, a #lula chegou a ter 292 co-ocorrências por hora com #diretasja, enquanto #bolsonaro alcançou em seu pico 2 co-ocorrências, evidenciando a maior associação do ex-presidente com o movimento.
 

Imagem 3: wordcloud dos tweets com a #DiretasJá. É bem perceptível o quão forte o movimento foi no Rio de Janeiro pelas diversas palavras associadas à cidade que aparecem.

A opinião pública, mesmo com milhares de estatísticas, é bem inconstante e difícil de ser prevista. Além dos problemas com a utilização de dados nas pesquisas e com a forma em que esses são interpretados, como aponta o vídeo do Nerdologia, é necessário entender o quão rápida a opinião pública se altera com o decorrer dos acontecimentos (especialmente nesse período extremamente intenso) para responder “Por que as pesquisas erram tanto?”: no decorrer de meros dias é perceptível que o apoio para o candidato político pode enfraquecer ou fortalecer (vide os gráficos 10 e 11).

Caso ocorressem eleições diretas agora, as pesquisas, assim como as reações nas redes sociais, apontam para uma vitória de Lula, mas em uma disputa em 2018 a situação fica muito mais nebulosa. Os fãs de Bolsonaro são, no geral, mais engajados, e tem crescido bastante em número nos últimos meses (a página de Bolsonaro possui 1.366.315 mais fãs que Lula, e seu Twitter 336.000). Porém, por mais que possam fornecer um panorama interessante sobre uma situação complexa, é importante lembrar que os dados e as pesquisas não devem servir como a verdade absoluta, muito menos como uma “bola de cristal” reveladora do futuro.

Equipe:

Guilherme Marques e Robertha Moreira