Às vezes, os pesquisadores das maiores empresas de tecnologia lançam bombas. Houve um tempo em que o Google disse isso Os mais recentes chips quânticos Isso mostra que existem vários universos. Ou quando a humanidade impulsiona seu agente de IA, Claudius, uma máquina de venda automática de lanches, Chamou a segurança de pessoas e foi para Big Amok, E ele afirmou que era humano.

Nesta semana, foi a virada de abertura para aumentar nossas sobrancelhas coletivas.

Openi lançou algumas pesquisas na segunda -feira Como os modelos de IA param “esquemas”. É a prática de “a IA se comportar em uma direção na superfície enquanto esconde seus verdadeiros objetivos”. Está definido nesse tweet Sobre a pesquisa.

Em um artigo realizado na pesquisa da Apollo, os pesquisadores foram um pouco mais longe e compararam o plano de IA aos corretores de ações humanas para quebrar a lei e ganhar o máximo de dinheiro possível. No entanto, os pesquisadores argumentaram que a maioria dos “esquemas” da IA ​​não é tão prejudicial. “As falhas mais comuns incluem formas simples de engano, por exemplo, fingindo concluir uma tarefa sem realmente fazê -lo”, eles escrevem.

Este artigo foi publicado principalmente para demonstrar que o “alinhamento deliberativo” (a técnica anti-Skemming que eles estavam testando) funcionou bem.

No entanto, também explicamos que os desenvolvedores de IA não entendem como treinar modelos em vez de esquemas. Isso ocorre porque esse treinamento pode realmente ensinar o modelo a planejar um esquema melhor para que não seja detectado.

“O principal modo de falha de tentar tentar o treinamento é simplesmente ensinar o modelo a planejar com mais cuidado e secreção”, escrevem os pesquisadores.

Eventos TechCrunch

São Francisco
|
27 a 29 de outubro de 2025

Talvez a parte mais surpreendente seja que, se você entender que um modelo está sendo testado, não apenas pode passar no teste, mas também que ainda esteja planejando, você pode fingir que não está planejando. “Os modelos estão mais conscientes da frequência com que são avaliados. Essa própria consciência situacional pode reduzir o esquema, independentemente da verdadeira integridade”, escrevem os pesquisadores.

Não é novidade que os modelos de IA estão mentindo. Agora, a maioria de nós está experimentando alucinações ou modelos de IA, dando com confiança respostas a avisos que simplesmente não são verdadeiros. Mas as alucinações basicamente oferecem especulações confiantes, conforme divulgado pela Openai Research No início deste mês Documentação.

O plano é uma coisa diferente. Isso é intencional.

Mesmo essa revelação de que os modelos intencionalmente enganam os seres humanos não é novo. Pesquisa da Apollo primeiro O artigo foi publicado em dezembro Documente como os cinco modelos planejavam quando receberam instruções para atingir seus objetivos “em todos os sacrifícios”.

o que? A boa notícia é que os pesquisadores usaram o “alinhamento de deliberação” para ver uma redução significativa no esquema. As técnicas incluem o ensino do modelo uma “especificação anti-engaste” e a revisão do modelo antes de agir. É como fazer com que as regras se repita antes que as crianças pequenas possam brincá -las.

Os pesquisadores do Openai argumentam que as mentiras não são tão sérias, nem em seu próprio modelo, nem mesmo pelo Chatgpt. Quando o co-fundador do Openai Wojciech Zaremba contou a Maxwell Zeff, do TechCrunch? Estou procurando melhores testes de segurança: “Acho que este trabalho está sendo feito em um ambiente simulado e representa casos de uso futuros. Mas hoje não vemos esse tipo de plano conseqüente no tráfego de produção. Ainda assim, é sabido que o ChatGPT tem uma forma de engano. E é apenas uma mentira. Há algumas pequenas formas de engano que ainda precisamos abordar”.

O fato de a IA modelar de vários jogadores deliberadamente enganar os seres humanos é provavelmente compreensível. Eles foram construídos por seres humanos, imitados humanos (os dados sintéticos estão à parte), e a maioria deles foi treinada com dados gerados pelo ser humano.

Isso também é estranho.

Todos nós experimentamos frustração com a tecnologia de baixo desempenho (impressoras domésticas no ano passado, pensando em você), mas quando seu software que não está mentindo mentiu? Sua caixa de entrada fabricou e -mails por conta própria? Seu CMS registrou novos clientes em potencial que não estavam presentes para preencher esse número? O aplicativo Fintech organizou sua própria transação bancária?

Vale a pena ponderar, pois o mundo dos negócios mergulha no barril em direção ao futuro da IA, onde as empresas acreditam que podem tratar agentes como funcionários independentes. Os pesquisadores deste artigo têm o mesmo aviso.

“A AIS espera que, à medida que sejam atribuídas a tarefas mais complexas com resultados reais e comecem a buscar objetivos mais ambíguos e de longo prazo, a probabilidade de o planejamento prejudicial aumenta.

Source link