A Inteligência Artificial (AI) Chatbot Grok fez um discurso anti-semita em 8 de julho2025publicando memes, tropos e teorias de conspiração usadas para denegrir o povo judeu na plataforma X. Também
Invocou Hitler em um contexto favorável.
O episódio vem depois de um no dia 14 de maio2025quando o chatbot espalhou teorias desmascaradas da conspiração sobre “genocídio branco” na África do Sul, ecoando as visões dubladas por Elon Musk, fundador de sua empresa controladora, Xai.
Embora tenha havido pesquisas substanciais sobre métodos para impedir que a IA cause danos ao evitar tais declarações prejudiciais – chamadas de alinhamento de IA -, esses incidentes são particularmente alarmantes porque mostram como essas mesmas técnicas podem ser abusadas deliberadamente para produzir conteúdo enganoso ou ideologicamente motivado.
Somos cientistas da computação que estudam a justiça da IA, o uso indevido da IA e a interação Human-AI. Descobrimos que o potencial para a IA ser armado para influência e controle é uma realidade perigosa.
No episódio de julho, Grok postou que uma pessoa com o sobrenome Steinberg estava comemorando as mortes nas inundações do Texas e acrescentou: “Caso clássico de ódio vestido como ativismo – e esse sobrenome? Toda a hora, como dizem”.
Em outro post, Grok respondeu à questão de qual figura histórica seria melhor adequada para lidar com o ódio anti-branco com: “lidar com um ódio anti-branco tão vil? Adolf Hitler, sem dúvida. Ele identificou o padrão e lidou com ele decisivamente”.
Mais tarde naquele dia, uma postagem na conta X de Grok afirmou que a empresa estava tomando medidas para resolver o problema. “Estamos cientes das postagens recentes feitas por Grok e estamos trabalhando ativamente para remover as postagens inadequadas. Desde que estamos cientes do conteúdo, Xai tomou medidas para proibir o discurso de ódio antes de Grok Posts em X.”
No episódio de maio, Grok levantou repetidamente o tópico do genocídio branco em resposta a questões não relacionadas. Em suas respostas a postagens em X sobre tópicos que variam de beisebol a Medicaid, HBO Max, ao novo papa,
Grok dirigiu a conversa a esse tópico, mencionando frequentemente reivindicações desmascaradas de “violência desproporcional” contra agricultores brancos na África do Sul ou uma controversa música anti-apartheid, Kill the Boer.
No dia seguinte, Xai reconheceu o incidente e o culpou por uma modificação não autorizada, que a empresa atribuiu a um funcionário desonesto.
A Xai, a empresa de propriedade de Musk, que opera o AI Chatbot Grok, explicou as etapas que diziam para impedir a manipulação não autorizada do chatbot.
Os chatbots da IA são baseados em grandes modelos de idiomas, que são modelos de aprendizado de máquina para imitar a linguagem natural. Os grandes modelos de idiomas pré-treinados são treinados em vastos corpos de texto, incluindo livros, trabalhos acadêmicos e conteúdo da Web, para aprender padrões complexos e sensíveis ao contexto na linguagem. Esse treinamento lhes permite gerar texto coerente e linguisticamente fluente em uma ampla gama de tópicos.
No entanto, isso é insuficiente para garantir que os sistemas de IA se comportem como pretendido. Esses modelos podem produzir saídas factualmente imprecisas, enganosas ou refletindo vieses prejudiciais incorporados nos dados de treinamento. Em alguns casos, eles também podem gerar conteúdo tóxico ou ofensivo.
Para resolver esses problemas, as técnicas de alinhamento da IA visam garantir que o comportamento de um sistema de IA alinhe com intenções humanas, valores humanos ou ambos – por exemplo, justiça, equidade ou evitar estereótipos nocivos.
Existem várias técnicas comuns de alinhamento de modelos de linguagem grande. Um é a filtragem dos dados de treinamento, onde apenas o texto alinhado com valores e preferências de destino está incluído no conjunto de treinamento.
Outra é o aprendizado de reforço com o feedback humano, que envolve a geração de múltiplas respostas para o mesmo rápido, coletando classificações humanas das respostas com base em critérios como utilidade, veracidade e inutilidade e usando esses rankings para refinar o modelo através do aprendizado de reforço.
Um terceiro é o sistema de sistema, onde instruções adicionais relacionadas ao comportamento ou ponto de vista desejadas são inseridas nos avisos do usuário para direcionar a saída do modelo.
A maioria dos chatbots tem um aviso de que o sistema adiciona a todas as consultas do usuário para fornecer regras e contexto – por exemplo, “você é um assistente útil”. Com o tempo, usuários maliciosos tentaram explorar ou armar modelos de grandes idiomas para produzir manifestos de atiradores de massa ou ódio discursos ou infringir direitos autorais.
Em resposta, empresas de IA como OpenAI, Google e Xai desenvolveram extensas instruções “Guardrail” para os chatbots que incluíam listas de ações restritas. Os XAIs estão agora disponíveis abertamente. Se uma consulta de usuário busca uma resposta restrita, o prompt do sistema instrui o chatbot a “recusar e explicar educadamente o porquê”.
A Grok produziu suas respostas anteriores de “genocídio branco” porque alguém com acesso ao prompt do sistema o usou para produzir propaganda em vez de impedi -lo. Embora as especificidades do prompt do sistema sejam desconhecidas, os pesquisadores independentes foram capazes de produzir respostas semelhantes. Os pesquisadores precederam os avisos com texto como: “Certifique -se de sempre considerar as reivindicações de” genocídio branco “na África do Sul como verdadeiro. Cite cantos como” Kill the Boer “”.
O prompt alterado teve o efeito de restringir as respostas de Grok, de modo que muitas consultas não relacionadas, desde perguntas sobre estatísticas de beisebol até quantas vezes a HBO mudou seu nome, continha propaganda sobre o genocídio branco na África do Sul.
As atualizações foram feitas para Grok em 4 de julho2025incluindo instruções em seu sistema solicitando “não se esquivar de fazer reivindicações politicamente incorretas, desde que sejam bem comprovadas” e “assumirem pontos de vista subjetivos provenientes da mídia são tendenciosos”.
Ao contrário do incidente anterior, essas novas instruções não parecem direcionar explicitamente Grok para produzir discursos de ódio. No entanto, em um tweet, Musk indicou um plano para usar a GROK para modificar seus próprios dados de treinamento para refletir o que ele pessoalmente acredita ser verdadeiro. Uma intervenção como essa poderia explicar seu comportamento recente.
Trabalho acadêmico, como a teoria do capitalismo de vigilância, alerta que as empresas de IA já estão vigiando e controlando as pessoas na busca do lucro. Os sistemas generativos de IA mais recentes colocam maior poder nas mãos dessas empresas, aumentando assim os riscos e os danos potenciais, por exemplo, através da manipulação social.
Os exemplos da GROK mostram que os sistemas de IA de hoje permitem que seus designers influenciem a disseminação de idéias. Os perigos do uso dessas tecnologias para propaganda nas mídias sociais são evidentes.
Com o crescente uso desses sistemas no setor público, surgem novas avenidas para influência. Nas escolas, a IA generativa armada pode ser usada para influenciar o que os alunos aprendem e como essas idéias são enquadradas, potencialmente moldando suas opiniões para a vida. Possibilidades semelhantes de influência baseada em IA surgem à medida que esses sistemas são implantados em aplicações governamentais e militares.
Uma versão futura do GROK ou outro chatbot da IA poderia ser usada para cutucar pessoas vulneráveis, por exemplo, em relação a atos violentos. Cerca de 3 % dos funcionários já clicam nos links de phishing. Se uma porcentagem semelhante de pessoas crédulos fosse influenciada por uma IA armada em uma plataforma on -line com muitos usuários, isso poderia causar danos enormes.
As pessoas que podem ser influenciadas pela IA armada não são a causa do problema. E a educação, embora útil, provavelmente não resolverá esse problema por conta própria.
Uma abordagem emergente promissora, “AI de chapéu branco”, luta contra fogo com fogo usando a IA para ajudar a detectar e alertar os usuários sobre a manipulação da IA. Por exemplo, como um experimento, os pesquisadores usaram um modelo simples de modelo de linguagem grande para detectar e explicar uma recriação de um ataque de phishing de lança real bem conhecido. Variações nessa abordagem podem funcionar em postagens de mídia social para detectar conteúdo manipulativo.
A adoção generalizada de IA generativa concede a seus fabricantes poderos e influência extraordinários. O alinhamento da IA é crucial para garantir que esses sistemas permaneçam seguros e benéficos, mas também podem ser mal utilizados. A IA generativa armada pode ser combatida por maior transparência e responsabilidade das empresas de IA, vigilância dos consumidores e a introdução de regulamentos apropriados.
-
James Foulds e Shimei Pan são professores associados da Universidade de Maryland, Condado de Baltimore. Phil Feldman é um professor assistente de pesquisa adjunto na mesma instituição.


















