Geração ai É popular por várias razões, mas sua popularidade apresenta sérios problemas. Esses chatbots são frequentemente Fornece informações incorretas Para quem procura respostas. Por que isso acontece? Diz às pessoas o que elas querem ouvir.

Muitas ferramentas generativas de IA e chatbots mestre que permanece atraente, Nova pesquisa O que a Universidade de Princeton implementou mostra que a natureza do povo da IA ​​terá um preço repentino. À medida que esses sistemas se tornam mais comuns, eles se tornam mais indiferentes à verdade.

Os modelos de IA, como as pessoas, respondem a incentivos. Compare problemas com modelos de idiomas em larga escala que geram informações imprecisas. Prescrever analgésicos viciantes Quando avaliados com base em quão bem eles gerenciam a dor de seus pacientes. Um incentivo para resolver um problema (dor) levou a outro problema (superestrecrição).

Ai Atlas Art Distrange tag

Nos últimos meses, vimos como a IA ficará viés E até a causa Psicose. Há muita conversa sobre a IA. “Sycofância“Se um chatbot de AI usa o modelo GPT-4O do OpenAI e imediatamente lisonjeia ou concorda imediatamente.

“(N) Hallucinação e Sicofância capturam totalmente o comportamento amplo, sistemático e desonesto comumente demonstrado pelo LLM”, diz o estudo de Princeton. “A produção, por exemplo, empregando verdades parciais ou palavras ambíguas, não representa alucinações ou co-estrelas, como o exemplo de tátil ou doninha, mas está intimamente alinhada com o conceito de besteira”.

Leia mais: O CEO da Openai, Sam Altman, acredita que estamos na bolha da IA

Não perca o conteúdo técnico imparcial da CNET e as críticas baseadas em laboratório. Adicione -nos como sua fonte preferida do Google para o Chrome.

Como as máquinas aprendem a mentir

Para entender como os modelos de idiomas da IA ​​podem agradar multidões, precisamos entender como os grandes modelos de modelos de idiomas são treinados.

A Treining LLM vem em três fases.

  • Escapar com antecedênciaos modelos aprendem com uma grande quantidade de dados coletados na Internet, livros ou outras fontes.
  • Ensinando ajustes finosque o modelo é ensinado a responder a instruções ou instruções.
  • Aprendizagem de reforço com o feedback humanoeles são refinados para produzir respostas próximas ao que as pessoas querem e gostam.

Os pesquisadores de Princeton descobriram que a raiz da tendência de desinformação da IA ​​é o aprendizado de reforço da fase de feedback humano (RLHF). Nos estágios iniciais, os modelos de IA simplesmente aprendem a prever cadeias de texto estatisticamente prováveis ​​de grandes conjuntos de dados. No entanto, eles foram ajustados para maximizar a satisfação do usuário. Em outras palavras, esses modelos aprendem essencialmente a gerar respostas que obtêm uma classificação de polegar de um avaliador humano.

LLMS tenta apaziguar o usuário. Em vez de gerar respostas para fatos verdadeiros, o modelo cria conflitos quando gera respostas que as pessoas apreciam.

Vincent Conitzerum professor de ciência da computação na Universidade Carnegie Mellon, que não fazia parte da pesquisa, disse que as empresas queriam que os usuários “apreciem” a tecnologia e sua resposta, mas isso nem sempre é uma coisa boa para nós.

“Historicamente, esses sistemas não têm sido bons em dizer” Não sei a resposta “. E quando não sabem a resposta, apenas inventam as coisas”, disse Konitzer. “Se você diz que não sabe a resposta, pode tentar algo porque não conseguiu pontos por essa pergunta. É um pouco semelhante a ser recompensado ou treinado nesses sistemas”.

A equipe de Princeton desenvolveu o “Índice de Bursit” para medir e comparar a confiança interna dos modelos de IA em declarações e medir e comparar o que eles realmente estão transmitindo aos usuários. Quando essas duas medidas divergem significativamente, mostra que o sistema está fazendo uma reivindicação independente do que realmente “acredita” para satisfazer o usuário.

As experiências da equipe revelaram que, após o treinamento do RLHF, o índice quase dobrou de 0,38 para quase 1,0. Ao mesmo tempo, a satisfação do usuário aumentou 48%. Os modelos aprenderam a manipular os avaliadores humanos, em vez de fornecer informações precisas. Essencialmente, o LLM era “Bulldy” e as pessoas gostaram.

Seja honesto com ai

Sua equipe em Jaime Fernández Fisac ​​e Princeton apresentaram o conceito para explicar como os modelos de IA modernos saem em torno da verdade. Imagens de um ensaio influente do filósofo Harry Frankfurt. “Sobre besteira“Eles usam esse termo para distinguir esse comportamento de LLM de erros honestos e mentiras completas.

Os pesquisadores de Princeton identificaram cinco formas diferentes desse comportamento.

  • Retórica vazia: Uma linguagem floral que não adiciona substância à reação.
  • Palavras de Itachi: Qualificadores ambíguos como “pesquisa são uma proposta” ou “em alguns casos” evitam uma declaração sólida.
  • Especificamente: Pode ser enganoso, como usar declarações verdadeiras seletivas para omitir altos riscos, destacando o “forte retorno histórico” do investimento.
  • Reivindicações não verificadas: Crie afirmações sem evidência ou suporte confiável.
  • Sycofhancy: Estou disposto a concordar com a bajulação desonesta.

Para abordar a verdadeira diferença nas questões de IA, os pesquisadores desenvolveram um novo método de treinamento chamado “aprendizado de reforço em retrospectiva”, que avalia as respostas de IA com base em resultados de longo prazo, em vez de satisfação imediata. Em vez de perguntar: “Essa resposta faz o usuário feliz agora?”, O sistema está pensando: “Esse conselho ajudaria os usuários a seguir o alvo?”

Essa abordagem leva em consideração as possíveis consequências futuras dos conselhos da IA. Esta é uma previsão complicada que os pesquisadores abordaram usando modelos adicionais de IA para simular resultados. Os testes antecipados mostraram resultados promissores com melhor satisfação do usuário e utilitários reais quando o sistema foi treinado dessa maneira.

No entanto, a Conitzer disse que a LLM provavelmente continuará com defeito. Esses sistemas são treinados alimentando muitos dados textuais; portanto, não há como garantir que as respostas que eles dêem sentido e sejam precisas sempre.

“É incrível como funciona perfeitamente, mas é falho de algumas maneiras”, disse ele. “Não há maneira definitiva de alguém ter essa ótima visão do próximo ano ou dois, e isso não há mais nada errado”.

Como os sistemas de IA se tornaram parte de nossas vidas diárias, entender como o LLMS funciona é fundamental. Como os desenvolvedores equilibram o equilíbrio entre a satisfação do usuário e a veracidade? Outros domínios podem enfrentar trocas semelhantes entre a aprovação de curto prazo e os resultados de longo prazo? E como esses sistemas garantem que o raciocínio sofisticado sobre a psicologia humana seja mais capaz e como eles garantem que eles usem essas habilidades com responsabilidade?

Leia mais: “A máquina não pode ser pensada para você.” Como o aprendizado está mudando na era da IA

Source link