Início Mobile Este agente de IA foi projetado para não trapacear

Este agente de IA foi projetado para não trapacear

Por

28 Fevereiro 2026

Algo como um agente de IA garra aberta Sua popularidade explodiu recentemente porque permite que você assuma o controle de sua vida digital. Se você deseja um resumo personalizado das notícias matinais, um agente que possa competir com o atendimento ao cliente da sua empresa de TV a cabo ou um auditor para sua lista de tarefas que possa realizar algumas tarefas para você e solicitar que você resolva o resto, o Agent Assistant foi desenvolvido para acessar suas contas digitais e executar comandos. Isto é conveniente, mas também causou muita confusão. bots estão por toda parte Exclusão em massa de e-mails Fui instruído a salvá-lo, mas Escreva um trabalho de sucesso substituindo o trabalho que parece ser ignorado.e Lançar um ataque de phishing contra o proprietário.

Depois de observar o caos se desenrolar nas últimas semanas, Niels Provos, engenheiro e pesquisador de segurança de longa data, decidiu tentar algo novo. Hoje ele está lançando um assistente de IA seguro e de código aberto. cortinas de ferro Projetado para adicionar uma importante camada de controle. O agente não interage diretamente com o sistema ou conta do usuário, mas funciona em uma máquina virtual isolada. E essa capacidade de realizar qualquer acção é mediada pelas políticas (que podem ser consideradas como uma constituição) criadas pelos proprietários para governar o sistema. É importante ressaltar que o IronCurtain foi projetado para levar essas políticas abrangentes em linguagem simples e aplicá-las por meio de um processo de várias etapas que usa modelos de linguagem em larga escala (LLMs) para transformar a linguagem natural em políticas de segurança aplicáveis.

“Serviços como o OpenClaw estão em alta no momento, mas espero que haja uma oportunidade de dizer: ‘Bem, provavelmente não é isso que queremos fazer’”, diz Provos. “Em vez disso, vamos desenvolver algo que ofereça um nível muito alto de utilidade, mas que não siga um caminho totalmente desconhecido e às vezes destrutivo”.

De acordo com Provos, o LLM é notoriamente “probabilístico” e probabilístico, portanto a capacidade do IronCurtain de pegar uma declaração intuitiva e direta e transformá-la em uma linha vermelha exequível e determinística (ou previsível) é crítica. Em outras palavras, nem sempre produzem o mesmo conteúdo ou fornecem as mesmas informações para o mesmo prompt. Isso representa desafios para as proteções de IA. Os sistemas de IA evoluem ao longo do tempo e podem modificar a forma como interpretam os mecanismos de controlo ou restrição, o que pode resultar em atividades não autorizadas.

De acordo com Provos, a política do IronCurtain é que “Os agentes podem ler todos os meus e-mails. Eles podem enviar e-mails para pessoas em meus contatos sem perguntar. Para outros, pergunte-me primeiro. Não exclua nada permanentemente”.

O IronCurtain pega essas instruções e as transforma em políticas aplicáveis, atuando como um intermediário entre o agente assistente dentro da máquina virtual e o que é chamado de Model Context Protocol Server, que concede ao LLM acesso a dados e outros serviços digitais para executar suas tarefas. A capacidade de restringir agentes desta forma acrescenta um componente importante de controle de acesso que plataformas web, como provedores de e-mail, não oferecem atualmente. Isso ocorre porque ele não foi desenvolvido para um cenário em que tanto o proprietário humano quanto o bot do agente de IA usam a mesma conta.

Provos ressalta que o IronCurtain foi projetado para refinar e melhorar a “constituição” de cada usuário ao longo do tempo, à medida que o sistema encontra casos extremos e pede informações humanas sobre como lidar com eles. O sistema é independente de modelo, pode ser usado com qualquer LLM e foi projetado para manter um registro de auditoria de longo prazo de todas as decisões políticas.

IronCurtain é um protótipo de pesquisa e não um produto de consumo. Provos deseja que as pessoas explorem e contribuam para o projeto à medida que ele evolui. Dino Dai Zovi, um proeminente pesquisador de segurança cibernética que fez experiências com as primeiras versões do IronCurtain, diz que a abordagem conceitual adotada pelo projeto está alinhada com sua intuição sobre como a IA do agente deve ser restringida.

Source link

Este agente de IA foi projetado para não trapacear

Notícias ao vivo

Série de TV de Carrie ganha data de lançamento e teaser...

Os principais especialistas em cérebro alertam que a marca de refrigerantes...

Quadro de perguntas dos acionistas da SIA, investimento da Air India,...

Os republicanos odeiam o ‘cessar-fogo’ de Trump no Irã – mas...

Burnham instou a pressionar diretamente os líderes da UE para que...

‘Pantera Negra 3’ será lançado em 2028 com David Johnson como...

A maré está mudando para Julieta

Motorista foge após acidente de carro em Mount Lawley Street, Perth

Último acidente do Orgulho de Berlim: um morto e 17 feridos...

Polícia diz que carro bate em multidão no Festival do Orgulho...

O que assistir na semana de 26 de julho de 2026...

Motorista foge após acidente de carro em Mount Lawley Street, Perth

Dharmendra Pradhan, CJP: Os protestos da ‘Barata’ na Índia terminam após...

O primeiro show do grupo K-pop EXO em Cingapura em 7...

Cidade Morta, A Arca, Cabo do Medo e muito mais!

Categoria