Mês passado eu escrevi isso O novo benchmark da Mercor Meça a capacidade dos agentes de IA em tarefas especializadas, como análise jurídica e corporativa. As pontuações na época eram bastante terríveis, com todos os principais institutos pontuando abaixo de 25%. Portanto, concluímos que os advogados estão a salvo da exclusão da IA, pelo menos por enquanto.

Mas as capacidades da IA ​​podem mudar drasticamente em questão de semanas.

Lançamento do Opus 4.6 da Anthropic esta semana eu tremi quadro de líderesO novo modelo da Antrópico obteve pontuação pouco menos de 30% no teste único e obteve média de 45% ao adicionar mais algumas rachaduras ao problema. Notavelmente, esta versão inclui uma série de novos recursos de agente, incluindo “enxames de agentes”, que podem ser úteis para esse tipo de resolução de problemas em várias etapas.

De qualquer forma, esta pontuação representa um grande salto em relação ao estado da arte anterior e mostra que o progresso do modelo subjacente não está a abrandar. O CEO da Melco, Brendan Foudy, ficou particularmente impressionado, dizendo: “Passar de 18,4% para 29,8% em questão de meses é uma loucura.”

Tabela de classificação do agente APEX.Créditos da imagem:Melkor (captura de tela)

30 por cento ainda está muito longe de 100 por cento, por isso não precisamos nos preocupar com a substituição de advogados por máquinas na próxima semana. Mas eles deveriam estar muito menos confiantes do que no mês passado.

Source link