As pessoas agora estão rotineiramente usando chatbots para escrever código de computador, resumir artigos e livros ou solicitar conselhos. Mas esses chatbots também são empregados para gerar rapidamente texto do zero, com alguns usuários passando as palavras como suas.
Isso, sem surpresa, criou dores de cabeça para os professores encarregados de avaliar o trabalho escrito de seus alunos. Ele também criou problemas para pessoas que buscam conselhos sobre fóruns como o Reddit ou consultoria de revisões de produtos antes de fazer uma compra.
Nos últimos anos, os pesquisadores têm explorado se é possível distinguir a escrita humana do texto gerado por inteligência artificial. Mas as melhores estratégias para distinguir entre os dois podem vir dos próprios chatbots.
Vários estudos recentes destacaram o quão difícil é determinar se o texto foi gerado por um humano ou um chatbot.
Os participantes da pesquisa recrutados para um estudo on-line de 2021, por exemplo, não conseguiram distinguir entre histórias geradas por humanos e chatGPT, artigos de notícias e receitas.
Especialistas em idiomas não se saem melhor. Em um estudo de 2023, os membros do conselho editorial dos principais periódicos de linguística não conseguiram determinar quais resumos de artigo foram escritos por seres humanos e quais foram gerados pelo ChatGPT. E um estudo de 2024 constatou que 94 % dos exames de graduação escritos por ChatGPT foram não detectados pelos alunos de uma universidade britânica.
Claramente, os humanos não são muito bons nisso.
Uma crença comum é que palavras raras ou incomuns podem servir como “contar” em relação à autoria, assim como um jogador de poker pode de alguma forma revelar que eles seguram uma mão vencedora.
De fato, os pesquisadores documentaram um aumento dramático em palavras relativamente incomuns, como “Dives” ou “Cruciais”, em artigos publicados em periódicos científicos nos últimos dois anos. Isso sugere que termos incomuns podem servir como diz que a IA generativa foi usada.
Isso também implica que alguns pesquisadores estão usando ativamente bots para escrever ou editar partes de suas observações em periódicos acadêmicos. Se essa prática reflete as irregularidades está em debate.
Em outro estudo, os pesquisadores perguntaram às pessoas sobre características que associam ao texto gerado por chatbot. Muitos participantes apontaram para o uso excessivo de traços em EM-um painel alongado usado para desencadear o texto ou servir como uma quebra de pensamento-como um marcador de saída gerada por computador. Mas mesmo neste estudo, a taxa de detecção de IA dos participantes foi apenas marginalmente melhor que o acaso.
Dado um desempenho tão fraco, por que tantas pessoas acreditam que os traços são claros para os chatbots? Talvez seja porque essa forma de pontuação é empregada principalmente por escritores experientes. Em outras palavras, as pessoas podem acreditar que a escrita que é “muito boa” deve ser gerada artificialmente.
Mas se as pessoas não podem dizer intuitivamente a diferença, talvez haja outros métodos para determinar a autoria humana versus artificial.
Algumas respostas podem ser encontradas no campo da estilometria, na qual os pesquisadores empregam métodos estatísticos para detectar variações nos estilos de escrita dos autores.
Sou um cientista cognitivo que escreveu um livro sobre a história das técnicas estilométricas. Nele, documento como os pesquisadores desenvolveram métodos para estabelecer autoria em casos contestados ou para determinar quem pode ter escrito textos anônimos.
Uma ferramenta para determinar a autoria foi proposta pelo estudioso australiano John Burrows. Ele desenvolveu o Delta de Burrows, uma técnica computadorizada que examina a frequência relativa de palavras comuns, em oposição a raras, que aparecem em textos diferentes.
Pode parecer contra -intuitivo pensar que o uso de alguém como “o” “e” ou “a” pode determinar a autoria, mas a técnica tem sido impressionantemente eficaz.
O Delta de Burrows, por exemplo, foi usado para estabelecer que Ruth Plumly Thompson, sucessor de L. Frank Baum, era o autor de um livro disputado da série Mágico de Oz. Também foi usado para determinar que cartas de amor atribuídas ao general confederado George Pickett eram na verdade as invenções de sua viúva, Lasalle Corbell Pickett.
Uma grande desvantagem do delta de Burrows e técnicas semelhantes é que elas exigem uma quantidade bastante grande de texto para distinguir de forma confiável entre os autores. Um estudo de 2016 descobriu que pelo menos 1.000 palavras de cada autor podem ser necessárias. Um ensaio relativamente curto do aluno, portanto, não forneceria informações suficientes para uma técnica estatística trabalhar sua mágica de atribuição.
Trabalhos mais recentes fizeram uso do que é conhecido como Modelos de Linguagem Bert, que são treinados em grandes quantidades de texto gerado por humanos e chatbot. Os modelos aprendem os padrões comuns em cada tipo de escrita e podem ser muito mais discriminadores do que as pessoas: os melhores estão entre 80 % e 98 % precisos.
No entanto, esses modelos de aprendizado de máquina são “caixas pretas”-ou seja, não sabemos realmente quais recursos dos textos são responsáveis por suas habilidades impressionantes. Os pesquisadores estão tentando ativamente encontrar maneiras de entender deles, mas, por enquanto, não está claro se os modelos estão detectando sinais específicos e confiáveis que os humanos podem procurar por conta própria.
Outro desafio para identificar o texto gerado por bot é que os próprios modelos estão mudando constantemente-às vezes de maneiras principais.
No início de 2025, por exemplo, os usuários começaram a expressar preocupações de que o ChatGPT se tornou excessivamente obsequioso, com consultas mundanas consideradas “incríveis” ou “fantásticas”. O Openai abordou a questão revertendo algumas mudanças que haviam feito.
Obviamente, o estilo de escrita de um autor humano também pode mudar com o tempo, mas normalmente o faz mais gradualmente.
Em algum momento, eu me perguntava o que os bots tinham a dizer por si mesmos. Perguntei ao ChatGPT-4O: “Como posso saber se alguma prosa foi gerada pelo ChatGPT? Ele tem algum” conta “, como escolha característica de palavra ou pontuação?”
O bot admitiu que distinguir a prosa humana da não humana “pode ser complicada”. No entanto, isso me forneceu uma lista de 10 itens, repleta de exemplos.
Isso incluía o uso de hedges – palavras como “frequentemente” e “geralmente” – bem como redundância, uma dependência excessiva nas listas e um “tom polido e neutro”. Ele mencionou “vocabulário previsível”, que incluiu certos adjetivos como “significativos” e “notáveis”, juntamente com termos acadêmicos como “implicação” e “complexidade”.
No entanto, embora observe que essas características do texto gerado por chatbot são comuns, concluiu que “nenhum é definitivo por conta própria”.
Os chatbots são conhecidos por alucinar ou cometem erros factuais.
Mas quando se trata de falar sobre si mesmos, eles parecem surpreendentemente perceptivos.