Inteligência artificial na pesquisa sobre desinformação em saúde, extremismos políticos e análise de dados sociais
LABHDUFBA
14/03/2025

O LABORATÓRIO DE HUMANIDADES DIGITAIS DA UFBA


  • Surge em 2018 em associação com o Programa de Pós-Graduação em Ciências Sociais (PPGCS) da UFBA

  • Tem como missão promover pesquisa e ensino entre as humanidades e o campo ciência de dados

  • Contatos:

O LABHDUFBA investiga, desde 2020, grupos e canais extremista do Telegram…


  • Em parceria com PPGAS/UFSC (Prof. Letícia Cesarino) e apoio do InternetLab

  • + de 70 milhões de mensagens

  • + 3.5 milhões de imagens e + de 900 mil vídeos

  • + de 3 milhões de links do Youtube

  • + 30 Terabytes de dados

Aliança entre raciocínio computacional com a compreensão interpretativa das ciências sociais



  • Ciência de dados com ciências sociais

  • Rastreabilidade total dos conteúdos

  • Detecção de “talkatives” e porta-vozes

  • Fine-tunning de modelos de NLP: NER, Topic Modeling, Clustering e detecção automatizada de violência online, como racismo, misoginia e anti-semitismo.

  • Telegram enquanto espaço de experimentações

Ecossistema multiplataforma de desinformação e radicalização




A utilização sistemática e estratégica de ferramentas, tecnologias e serviços que permitem a criação e disseminação de desinformação e incitação à radicalização política em diferentes plataformas, como redes sociais, sites de notícias e aplicativos de mensagens.

QUAIS SÃO OS DESAFIOS?



  • Acesso aos dados

  • Complexidade metodológica

  • Recursos computacionais

ACESSO AOS DADOS


  • Política de acesso aos dados digitais de todas as plataformas

  • “Sem API não há solução!”

  • Plataforma pública e auditável de armazenamento de conteúdos

  • Pensar os dados digitais enquanto memória social

COMPLEXIDADE METODOLÓGICA


  • Dados digitais contituem um “objeto epistêmico complexo” Aradau & Blanke, 2015

  • Estratégia penelopeana de desinformação e radicalização

  • Coleta de dados em tempo real: a vigilância-como-método

  • Necessidade de atualização do Sistema CEP/Conep diante das pesquisas com dados digitais

  • Esboçar, de modo inequívoco, a relação dos dados coletados de plataformas digitais com a LGPD

Acesso a recursos computacionais


  • Necessidade de uma divisão igualitária de recursos com a região norte-nordeste;

  • Estrutura pública de servidores (VMs) e armazenamento (S3) ou “cotas” em nuvens federadas;

  • Acesso a créditos para uso de APIs de IA generativa e a modelos avançados de processamento de linguagem natural.


A partir de 2025 vamos investigar a desinformação em saúde


  • Em parceria com o Programa Integrado em Economia, Tecnologia e Inovação em Saúde (PECS/ISC/UFBA) e apoio do CNPq.

  • Coletar e analisar dados de redes sociais, sites de notícias e aplicativos de mensagens;

  • Implantação de aplicações de IA para classificação automática de conteúdos multimodais.;

  • Painel de detecção de conteúdos em tempo real.

Resultados preliminares


Uso de Knowledge graphs (KGs)/redes semânticas para análise de polarização política em momentos extremos


  • Servem para a compreensão contextualizada de dados, especialmente em contextos de grandes volumes de informações heterogêneas;

  • Em contexto políticos os KG ajudam a conectar conceitos possibilitando análises sobre as dinâmicas de narrativas (OSMONOVA; TIKHONOV; YAMSHCHIKOV, 2024);

Uso de Knowledge graphs (KGs)/redes semânticas para análise de polarização política em momentos extremos


  • 945k de mensagens de 01/01/2023 a 10/01/2023 em 207 grupos e 268 canais do Telegram.


  • Amostra de 7610 mensagens (5825 de grupos e 1785 de canais) que continham os termos “forças armadas” ou “militares”;

  • Utilizamos o LLMGraphTransformer + gpt-4o-mini para: identificar entidades, relações, tipos de nós e conexões e extração de propriedades.

Uso de Knowledge graphs (KGs)/redes semânticas para análise de polarização política em momentos extremos


  • Em seguida, usamos os mesmos dados na plataforma InfraNodus, apenas para acelerar o processo de visualização;


  • KG resultante apresenta quatro grandes narrativas ou (clusters) principais: a) intervenção militar; b) força nacional; c) Brasil popular e d) governo Bolsonaro;

  • Resultados são valiosos em cenários mutáveis em que precisamos entender os impacto de narrativas políticas no comportamento social (JUNGHERR, 2015)..

Knowledge Graph de mensagens com os termos “forças armadas” ou “militares” (01/01/2023 - 00:00h a 10/01/2023 - 23:59h)


Intervenção Militar: expressa o papel dos militares e as demandas por intervenção

Governo Bolsonaro: inclui debates sobre dinâmicas políticas, críticas ao ex-presidente Lula e discursos sobre a legitimidade do novo governo

Força Nacional: refere-se à atuação da Força Nacional, explorando questões relacionadas à segurança pública para garantir a ordem no dia 08 de Janeiro

Brasil Popular: narrativas voltadas para a população brasileira, com um discurso mais emocional para a mobilização popular unida em torno de valores nacionais e religiosos

Clusterizar imagens de grupos masculinistas do Telegram


  • 22k de imagens de 10 grupos masculinistas postadas do surgimento até dezembro de 2024 ;

  • Aplicação do modelo CLIP (Contrastive Language-Image Pretraining), desenvolvido pela OpenAI;

  • Entender formas imagéticas de violência, mais difíceis de detecção automatizada.


Cluster 01

Cluster 02

Cluster 03

Cluster 04

Clusterização de imagens de grupos anti-vacina em grupos do Telegram


  • Amostra de 10k de imagens de 7 grupos anti-vacina de jan/dez de 2024;

  • Aplicação do modelo CLIP (Contrastive Language-Image Pretraining), desenvolvido pela OpenAI;

  • Semântica Rica, Zero-Shot Learning e Escalabilidade.


Frequência mensal de postagens das imagens nos grupos analisados

Cluster 0

Cluster 11

Cluster 6

Cluster 7

Cluster 2


Obrigado!