Todos nós sentimos a crescente suspeita de que o que lemos está sendo escrito por um grande modelo de linguagem. Mas é muito difícil definir. Durante vários meses do ano passado, todos ficaram convencidos de que certas palavras como “explorar” e “sublinhado” poderiam identificar o modelo, mas as evidências eram escassas e, à medida que os modelos se tornaram mais sofisticados, as palavras reveladoras tornaram-se mais difíceis de localizar.
Mas acontece que o pessoal da Wikipedia ficou muito bom em sinalizar prosa escrita por IA. “Sinais de escrita de IA” Este é o melhor recurso que encontrei para ver se suas suspeitas são justificadas. (Crédito ao poeta Jameson Fitzpatrick por apontar a documentação X.)
Desde 2023, os editores da Wikipedia têm trabalhado para entender as postagens de IA. Este é um projeto que eles chamam de Projeto AI Cleanup. Com milhões de edições feitas todos os dias, há uma riqueza de material para explorar e, no estilo dos editores clássicos da Wikipédia, o grupo criou um guia de campo detalhado e baseado em evidências.
Primeiro, este guia revisará o que já sabemos. Isso significa que as ferramentas automatizadas são basicamente inúteis. Em vez disso, este guia concentra-se em convenções e frases que são raras na Wikipédia, mas comuns em toda a Internet (e, portanto, comuns em dados de treinamento de modelos). De acordo com o guia, os envios de IA passam muito tempo enfatizando por que seu assunto é importante, geralmente em termos gerais como “momento crucial” ou “movimento mais amplo”. O modelo de IA também gasta muito tempo detalhando pequenos pontos na mídia para fazer o assunto parecer digno de nota. Este é o tipo de coisa que você esperaria de uma biografia pessoal, mas não de uma fonte independente.
Este guia aponta uma peculiaridade particularmente interessante em relação às cláusulas finais cujo significado é ambíguo. O modelo diria que algum evento ou detalhe “enfatiza” o significado de algo, ou “reflete a relevância contínua” de alguma ideia geral. (Os geeks da gramática conhecerão isso como “particípio presente”.) É um pouco difícil de identificar, mas depois que você aprender a reconhecê-lo, você o verá em todos os lugares.
A terminologia de marketing também tende a ser vaga, o que é muito comum na internet. O cenário é sempre lindo, as vistas são sempre de tirar o fôlego e tudo é limpo e moderno. Como dizem nossos editores, é “semelhante a transcrever um comercial de TV”.
Vale a pena ler este guia na íntegra, fiquei muito impressionado. Anteriormente, eu teria dito que a prosa do LLM estava se desenvolvendo rápido demais para ser específico. Mas os hábitos sinalizados aqui estão profundamente enraizados na forma como os modelos de IA são treinados e implantados. Você pode ocultá-los, mas é difícil livrar-se deles completamente. E à medida que o público se torna mais experiente na identificação da prosa da IA, todo o tipo de consequências interessantes podem surgir.


















