Algo como um agente de IA garra aberta Sua popularidade explodiu recentemente porque permite que você assuma o controle de sua vida digital. Se você deseja um resumo personalizado das notícias matinais, um agente que possa competir com o atendimento ao cliente da sua empresa de TV a cabo ou um auditor para sua lista de tarefas que possa realizar algumas tarefas para você e solicitar que você resolva o resto, o Agent Assistant foi desenvolvido para acessar suas contas digitais e executar comandos. Isto é conveniente, mas também causou muita confusão. bots estão por toda parte Exclusão em massa de e-mails Fui instruído a salvá-lo, mas Escreva um trabalho de sucesso substituindo o trabalho que parece ser ignorado.e Lançar um ataque de phishing contra o proprietário.

Depois de observar o caos se desenrolar nas últimas semanas, Niels Provos, engenheiro e pesquisador de segurança de longa data, decidiu tentar algo novo. Hoje ele está lançando um assistente de IA seguro e de código aberto. cortinas de ferro Projetado para adicionar uma importante camada de controle. O agente não interage diretamente com o sistema ou conta do usuário, mas funciona em uma máquina virtual isolada. E essa capacidade de realizar qualquer acção é mediada pelas políticas (que podem ser consideradas como uma constituição) criadas pelos proprietários para governar o sistema. É importante ressaltar que o IronCurtain foi projetado para levar essas políticas abrangentes em linguagem simples e aplicá-las por meio de um processo de várias etapas que usa modelos de linguagem em larga escala (LLMs) para transformar a linguagem natural em políticas de segurança aplicáveis.

“Serviços como o OpenClaw estão em alta no momento, mas espero que haja uma oportunidade de dizer: ‘Bem, provavelmente não é isso que queremos fazer’”, diz Provos. “Em vez disso, vamos desenvolver algo que ofereça um nível muito alto de utilidade, mas que não siga um caminho totalmente desconhecido e às vezes destrutivo”.

De acordo com Provos, o LLM é notoriamente “probabilístico” e probabilístico, portanto a capacidade do IronCurtain de pegar uma declaração intuitiva e direta e transformá-la em uma linha vermelha exequível e determinística (ou previsível) é crítica. Em outras palavras, nem sempre produzem o mesmo conteúdo ou fornecem as mesmas informações para o mesmo prompt. Isso representa desafios para as proteções de IA. Os sistemas de IA evoluem ao longo do tempo e podem modificar a forma como interpretam os mecanismos de controlo ou restrição, o que pode resultar em atividades não autorizadas.

De acordo com Provos, a política do IronCurtain é que “Os agentes podem ler todos os meus e-mails. Eles podem enviar e-mails para pessoas em meus contatos sem perguntar. Para outros, pergunte-me primeiro. Não exclua nada permanentemente”.

O IronCurtain pega essas instruções e as transforma em políticas aplicáveis, atuando como um intermediário entre o agente assistente dentro da máquina virtual e o que é chamado de Model Context Protocol Server, que concede ao LLM acesso a dados e outros serviços digitais para executar suas tarefas. A capacidade de restringir agentes desta forma acrescenta um componente importante de controle de acesso que plataformas web, como provedores de e-mail, não oferecem atualmente. Isso ocorre porque ele não foi desenvolvido para um cenário em que tanto o proprietário humano quanto o bot do agente de IA usam a mesma conta.

Provos ressalta que o IronCurtain foi projetado para refinar e melhorar a “constituição” de cada usuário ao longo do tempo, à medida que o sistema encontra casos extremos e pede informações humanas sobre como lidar com eles. O sistema é independente de modelo, pode ser usado com qualquer LLM e foi projetado para manter um registro de auditoria de longo prazo de todas as decisões políticas.

IronCurtain é um protótipo de pesquisa e não um produto de consumo. Provos deseja que as pessoas explorem e contribuam para o projeto à medida que ele evolui. Dino Dai Zovi, um proeminente pesquisador de segurança cibernética que fez experiências com as primeiras versões do IronCurtain, diz que a abordagem conceitual adotada pelo projeto está alinhada com sua intuição sobre como a IA do agente deve ser restringida.

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui