Apesar dos esforços da OpenAI para melhorar a sua Navegador Atlas AI A empresa reconhece o ataque cibernético injeção imediataé um tipo de ataque que manipula agentes de IA para seguir instruções maliciosas, muitas vezes escondidas em páginas da web ou e-mails, e esse risco não desaparecerá tão cedo, levantando questões sobre a segurança com que os agentes de IA podem operar na web aberta.
“Tal como acontece com a fraude e a engenharia social na web, é improvável que a implantação instantânea seja uma ‘solução’ completa”, escreveu a OpenAI em um artigo na segunda-feira. postagem no blog Ele detalha como a empresa está fortalecendo a armadura do Atlas para resistir a ataques constantes. A empresa reconheceu que o “Modo Agente” do ChatGPT Atlas “expande a superfície das ameaças à segurança”.
A OpenAI anunciou seu navegador ChatGPT Atlas em outubro, e pesquisadores de segurança se apressaram em lançar uma demonstração mostrando que você pode alterar o comportamento do navegador subjacente escrevendo algumas palavras em um Documento Google. Corajoso naquele dia Postagem de blog publicada Descrevemos a injeção indireta de prompt como um desafio sistêmico para navegadores com tecnologia de IA. cometa da perplexidade.
A OpenAI não é a única empresa a perceber que a injeção imediata não vai desaparecer. de O Centro Nacional de Segurança Cibernética da Grã-Bretanha alertou no início deste mês Ataques imediatos de injeção em aplicações generativas de IA “podem não ser totalmente mitigados” e colocam os sites em risco de serem vítimas de uma violação de dados. As agências governamentais do Reino Unido aconselharam os especialistas cibernéticos a reduzir o risco e o impacto das injeções imediatas, em vez de pensarem que podem “parar” um ataque.
Em relação ao OpenAI, a empresa disse: “Acreditamos que a injeção rápida é um desafio de segurança de IA de longo prazo e precisamos fortalecer continuamente nossas defesas contra ela”.
Qual é a resposta da empresa a este desafio de Sísifo? A empresa afirma que seu ciclo de resposta proativo e rápido está se mostrando promissor em ajudar as empresas a descobrir novas estratégias de ataque antes que elas possam ser exploradas “na natureza”.
Isso não é totalmente diferente do que afirmam concorrentes como a Anthropic e o Google. Isso significa que as defesas devem ser dispostas em camadas e continuamente testadas para combater o risco persistente de ataques imediatos. Esforços recentes do GooglePor exemplo, nos concentramos em controles em nível de arquitetura e em nível de política para sistemas de agentes.
Mas o que a OpenAI faz de diferente é o seu “atacante automatizado baseado em LLM”. O invasor é essencialmente um bot treinado pela OpenAI usando aprendizado por reforço para desempenhar o papel de um hacker que procura uma maneira de enviar secretamente instruções maliciosas a um agente de IA.
Os bots podem testar ataques em uma simulação antes de realmente usá-los, e o simulador mostra como a IA alvo pensará e agirá se reconhecer o ataque. O bot pode então estudar essa resposta, ajustar seu ataque e tentar novamente e novamente. Em teoria, os bots da OpenAI deveriam ser capazes de descobrir falhas mais rapidamente do que os atacantes do mundo real, uma vez que os insights sobre o raciocínio interno da IA alvo são inacessíveis para quem está de fora.
Esta é uma tática comum em testes de segurança de IA. Crie um agente para encontrar casos extremos e testá-lo rapidamente em simulação.
“Com nosso treinamento (aprendizado por reforço), um invasor pode persuadir um agente a executar um fluxo de trabalho demorado, sofisticado e prejudicial que se desdobra em dezenas (ou mesmo centenas) de etapas”, escreveu OpenAI. “Também observamos novas estratégias de ataque que não apareceram em operações de equipes vermelhas humanas ou em relatórios externos”.

Em uma demonstração (parcialmente retratada acima), a OpenAI mostrou como um invasor automatizado poderia inserir um e-mail malicioso na caixa de entrada de um usuário. Mais tarde, quando o agente de IA examinou a caixa de entrada, seguiu as instruções ocultas no e-mail e enviou uma mensagem de demissão em vez de criar uma resposta de ausência temporária. No entanto, a empresa afirma que após uma atualização de segurança, o “Modo Agente” foi capaz de detectar com sucesso a tentativa de injeção imediata e sinalizar o usuário.
A empresa afirma que é difícil defender-se contra injeções imediatas de maneira infalível, mas ela depende de testes extensivos e ciclos de patches mais rápidos para fortalecer os sistemas antes que eles apareçam em um ataque real.
Um porta-voz da OpenAI se recusou a dizer se as atualizações de segurança do Atlas levaram a uma redução mensurável nas injeções bem-sucedidas, mas disse que a empresa tem trabalhado com terceiros para proteger o Atlas contra injeções rápidas desde antes de seu lançamento.
Rami McCarthy, pesquisador principal de segurança Empresa de segurança cibernética Wizdiz que o aprendizado por reforço é uma forma de se adaptar continuamente ao comportamento de um invasor, mas é apenas parte do quadro.
“Uma maneira útil de inferir riscos em um sistema de IA é multiplicar autonomia com acesso”, disse McCarthy ao TechCrunch.
“Os navegadores de agentes tendem a estar na extremidade difícil do espectro, o que é uma combinação de autonomia moderada e acesso muito elevado”, disse McCarthy. “Muitas das recomendações atuais refletem esse compromisso: restringir o acesso de login reduz principalmente o risco, mas exigir a revisão das solicitações de confirmação restringe a autonomia.”
Estas são duas recomendações da OpenAI para ajudar os usuários a reduzir seus próprios riscos, e um porta-voz disse que a Atlas também é treinada para obter confirmação dos usuários antes de enviar mensagens ou fazer pagamentos. A OpenAI também sugere que os usuários forneçam instruções específicas ao agente, em vez de dar ao agente acesso à sua caixa de entrada e dizer-lhe para “executar a ação necessária”.
De acordo com a OpenAI, “A ampla tolerância torna mais fácil que conteúdos ocultos ou maliciosos afetem os agentes, mesmo quando medidas de segurança estão em vigor”.
A OpenAI afirma que proteger os usuários do Atlas contra injeções imediatas é uma prioridade máxima, mas McCarthy está cético quanto ao retorno do investimento para o navegador propenso a riscos.
“Para a maioria dos casos de uso diário, os navegadores dos agentes ainda não fornecem valor suficiente para justificar seu perfil de risco atual”, disse McCarthy ao TechCrunch. “Mesmo que esse acesso seja o que os torna poderosos, dado o seu acesso a dados sensíveis como e-mail e informações de pagamento, os riscos são elevados. Esse equilíbrio irá evoluir, mas as compensações ainda são muito reais hoje.”


















