Na quarta-feira, pesquisadores da Microsoft lançaram um novo ambiente de simulação projetado para testar agentes de IA, juntamente com novas pesquisas mostrando que os modelos atuais de agentes podem ser vulneráveis ​​à manipulação. O estudo, realizado em colaboração com a Arizona State University, levanta novas questões sobre o desempenho dos agentes de IA quando trabalham sem supervisão e a rapidez com que as empresas de IA podem concretizar a promessa do seu futuro.

Um ambiente de simulação chamado “Mercado Magnético” Construído pela Microsoft como uma plataforma de síntese para experimentar o comportamento do agente de IA. Em um experimento típico, um agente do cliente pode tentar pedir o jantar de acordo com as instruções do usuário, enquanto agentes representando diferentes restaurantes competem para receber o pedido.

O primeiro experimento da equipe envolveu 100 agentes individuais do lado do cliente interagindo com 300 agentes do lado comercial. Como o código-fonte do Marketplace é de código aberto, é fácil para outros grupos adaptarem o código para executar novos experimentos e reproduzir os resultados.

Ece Kamar, diretor administrativo do AI Frontiers Lab da Microsoft Research, disse que este tipo de pesquisa será importante para a compreensão das capacidades dos agentes de IA. “Existem questões reais sobre como o mundo muda quando estes agentes trabalham juntos, conversam e negociam entre si”, disse Kamal. “Queremos entender essas coisas profundamente.”

Em nossa pesquisa inicial, investigamos uma combinação de modelos principais, incluindo GPT-4o, GPT-5 e Gemini-2.5-Flash, e descobrimos alguns pontos fracos surpreendentes. Especificamente, os pesquisadores descobriram várias técnicas que as empresas podem usar para manipular os agentes do cliente para que comprem seus produtos. Os pesquisadores descobriram que a eficiência diminuiu, especialmente porque os agentes do cliente tinham mais opções de escolha e uma grande quantidade de espaço para atenção dos agentes.

“Queremos que esses agentes nos ajudem a trabalhar em diversas opções”, diz Comer. “E descobrimos que o modelo atual está sobrecarregado com muitas opções.”

Os agentes também encontraram problemas quando solicitados a trabalhar juntos em direção a um objetivo comum. Aparentemente, eles não sabiam qual agente deveria desempenhar qual papel na colaboração. Embora dessem ao modelo instruções mais claras sobre como colaborar para melhorar o desempenho, os pesquisadores acreditavam que os recursos exclusivos do modelo ainda precisavam de melhorias.

evento de crise tecnológica

São Francisco
|
13 a 15 de outubro de 2026

“Você pode instruir um modelo passo a passo, assim como ensinaria um modelo”, diz Comer. “Mas se você estiver testando essencialmente recursos colaborativos, esperaria que esses modelos tivessem esses recursos por padrão.”

Source link