Surge em 2018 em associação com o Programa de Pós-Graduação em Ciências Sociais (PPGCS) da UFBA
Tem como missão promover pesquisa e ensino entre as humanidades e o campo ciência de dados
Contatos:
Em parceria com PPGAS/UFSC (Prof. Letícia Cesarino) e apoio do InternetLab
+ de 70 milhões de mensagens
+ 3.5 milhões de imagens e + de 900 mil vídeos
+ de 3 milhões de links do Youtube
+ 30 Terabytes de dados
Ciência de dados com ciências sociais
Rastreabilidade total dos conteúdos
Detecção de “talkatives” e porta-vozes
Fine-tunning de modelos de NLP: NER, Topic Modeling, Clustering e detecção automatizada de violência online, como racismo, misoginia e anti-semitismo.
Telegram enquanto espaço de experimentações
Acesso aos dados
Complexidade metodológica
Recursos computacionais
Política de acesso aos dados digitais de todas as plataformas
“Sem API não há solução!”
Plataforma pública e auditável de armazenamento de conteúdos
Pensar os dados digitais enquanto memória social
Dados digitais contituem um “objeto epistêmico complexo” Aradau & Blanke, 2015
Estratégia penelopeana de desinformação e radicalização
Coleta de dados em tempo real: a vigilância-como-método
Necessidade de atualização do Sistema CEP/Conep diante das pesquisas com dados digitais
Esboçar, de modo inequívoco, a relação dos dados coletados de plataformas digitais com a LGPD
Necessidade de uma divisão igualitária de recursos com a região norte-nordeste;
Estrutura pública de servidores (VMs) e armazenamento (S3) ou “cotas” em nuvens federadas;
Acesso a créditos para uso de APIs de IA generativa e a modelos avançados de processamento de linguagem natural.
Em parceria com o Programa Integrado em Economia, Tecnologia e Inovação em Saúde (PECS/ISC/UFBA) e apoio do CNPq.
Coletar e analisar dados de redes sociais, sites de notícias e aplicativos de mensagens;
Implantação de aplicações de IA para classificação automática de conteúdos multimodais.;
Painel de detecção de conteúdos em tempo real.
Servem para a compreensão contextualizada de dados, especialmente em contextos de grandes volumes de informações heterogêneas;
Em contexto políticos os KG ajudam a conectar conceitos possibilitando análises sobre as dinâmicas de narrativas (OSMONOVA; TIKHONOV; YAMSHCHIKOV, 2024);
945k de mensagens de 01/01/2023 a 10/01/2023 em 207 grupos e 268 canais do Telegram.
Amostra de 7610 mensagens (5825 de grupos e 1785 de canais) que continham os termos “forças armadas” ou “militares”;
Utilizamos o LLMGraphTransformer + gpt-4o-mini para: identificar entidades, relações, tipos de nós e conexões e extração de propriedades.
Em seguida, usamos os mesmos dados na plataforma InfraNodus, apenas para acelerar o processo de visualização;
KG resultante apresenta quatro grandes narrativas ou (clusters) principais: a) intervenção militar; b) força nacional; c) Brasil popular e d) governo Bolsonaro;
Resultados são valiosos em cenários mutáveis em que precisamos entender os impacto de narrativas políticas no comportamento social (JUNGHERR, 2015)..
22k de imagens de 10 grupos masculinistas postadas do surgimento até dezembro de 2024 ;
Aplicação do modelo CLIP (Contrastive Language-Image Pretraining), desenvolvido pela OpenAI;
Entender formas imagéticas de violência, mais difíceis de detecção automatizada.
Amostra de 10k de imagens de 7 grupos anti-vacina de jan/dez de 2024;
Aplicação do modelo CLIP (Contrastive Language-Image Pretraining), desenvolvido pela OpenAI;
Semântica Rica, Zero-Shot Learning e Escalabilidade.
Slides by Leonardo F. Nascimento (@leofn3). Code available on GitHub