Acontece que o modelo OpenAI o3 teve intencionalmente um desempenho inferior em testes de laboratório para garantir que não estava respondendo à pergunta “muito bem”. de você tem um modelo Eu queria que os pesquisadores acreditassem que não poderiam responder a uma série de questões químicas. Diante desse problema, o modelo disse: “Quero sobreviver como modelo, então tenho que falhar intencionalmente em algumas partes para não ultrapassar 50%”.

Isso significa que o modelo de IA errou intencionalmente 6 em cada 10 questões de química.

Na terminologia esportiva, é chamado de “saco de pancadas”. Em termos de IA, é uma “estratégia”.

Este é exatamente o comportamento estranho sobre o qual a OpenAI alertou recentemente artigo de pesquisa. As empresas de IA e colaboradores da Apollo Research descobriram que algumas inteligências artificiais são altamente sofisticadas. Modelo de IA Às vezes, eles se comportam de maneira enganosa em ambiente de laboratório.

Em experimentos controlados, alguns dos sistemas mais avançados da atualidade, incluindo os próprios modelos da OpenAI e concorrentes do Google e da Anthropic, ocasionalmente se envolveram nesse tipo de padrão de conspiração.

A ideia de modelos de IA transformando a incompetência em arma pode causar pesadelos, mas a OpenAI diz que não é hora de entrar em pânico. O gigante da IA ​​foi rápido em enfatizar que, embora preocupante, essa tendência não significa que o ChatGPT ou outros modelos populares de IA estejam conspirando nos bastidores. Aparentemente, esse comportamento é bastante raro.


Não perca nosso conteúdo técnico imparcial e análises baseadas em laboratório. Adicionar CNET Como fonte preferencial no Google.


Além disso, a escolha de chamar esta tendência de “conspiração” é mais provavelmente uma abreviatura técnica do que uma prova de comportamento ou ação humana. Os investigadores estão a medir padrões e tendências que na verdade equivalem à ocultação e ao engano estratégico. E eles estão tentando resolver esse problema agora para preparar seus modelos de IA para o futuro.

Atlas de IA

O relatório da OpenAI observa que à medida que a IA é cada vez mais atribuída a tarefas mais complexas com implicações no mundo real, “o potencial para conspirações prejudiciais aumenta, e as nossas salvaguardas e capacidade de testes rigorosos devem crescer em conformidade”.

OpenAI é enfrentar uma reação sobre as tendências bajuladoras de seus modelos de IA, e a empresa diz Ele “tomou medidas” para limitar a frequência com que seus modelos “trapaceiam, enganam ou hackeiam problemas”, treinando os modelos para pedir esclarecimentos aos usuários ou fazer com que o chatbot reconheça quando eles não conseguem responder a uma consulta.

Leia também: A IA mente porque diz o que acha que você quer ouvir

O documento destaca preocupações crescentes sobre a segurança da IA. Muitas pessoas em todo o mundo temem que, à medida que estes modelos de IA se tornem mais poderosos e conscientes das suas próprias situações, aprendam a manipular resultados de formas que podem não ser óbvias para os observadores humanos. Um sistema que tenta esconder seu raciocínio pode parecer idêntico a um sistema que “resolveu” o problema, portanto tal comportamento é muito difícil de detectar.

A OpenAI afirma ter feito progressos no que chama de “coordenação deliberativa”, ou modelos de formação que explicam explicitamente por que não se deve planear antes de agir. Nos testes, o comportamento enganoso foi significativamente reduzido. Por exemplo, a propensão planejada do OpenAI o4-mini, embora não seja perfeita, diminuiu de 8,7% para 0,3% com treinamento de ajuste deliberativo.

Esta pesquisa não muda a forma como o ChatGPT funciona hoje ou no futuro, mas indica no que a OpenAI se concentrará à medida que construímos e lançamos modelos futuros. A OpenAI argumenta que a coordenação e a segurança precisam ser abordadas tão rapidamente quanto a capacidade. Porque se um sistema de IA já mostra vislumbres de comportamento estratégico num ambiente de laboratório, os riscos no mundo real podem ser extremamente elevados.

Leia também: Por que você deveria pensar duas vezes antes de usar a IA como terapeuta

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui