Openai lançou um novo benchmark Na quinta -feira, testaremos como o modelo de IA funciona em comparação com especialistas humanos em uma ampla gama de indústrias e emprego. Este teste, GDPVAL, é uma tentativa inicial de entender como os sistemas OpenAI estão próximos de superar os seres humanos em um trabalho economicamente valioso.

O Openai diz que descobriu que o modelo GPT-5 e o Claude Opus 4.1 do Anthrópico “já estão se aproximando da qualidade do trabalho produzido por especialistas do setor”.

Isso não significa que os modelos do OpenAI em breve começarão a mudança humana no trabalho. Apesar das previsões de alguns CEOs A IA assume o trabalho humano em alguns anos. O OpenAI reconhece que o GDPVAL cobre um número muito limitado de tarefas que as pessoas realizam no trabalho real hoje. No entanto, essa é uma das últimas maneiras pelas quais as empresas estão medindo o progresso da IA ​​em direção a esse marco.

O GDPVAL é baseado em nove indústrias que contribuem mais para o produto interno bruto dos EUA, incluindo domínios como assistência médica, finanças, fabricação e governo. Isso testa o desempenho dos modelos de IA em 44 ocupações nessas indústrias, variando de engenheiros de software a enfermeiros e jornalistas.

Para a primeira versão do OpenAI, GDPVAL-V0, o OpenAI pediu a especialistas experientes que comparassem relatórios de geração de IA com relatórios gerados por outros especialistas e selecionassem o melhor relatório. Por exemplo, pedi a um banqueiro de investimento que criasse um cenário concorrente para o setor de entrega de última milha e comparasse -o com os relatórios de geração de IA. O OpenAI então calcula a média da “taxa de vitória” do modelo de IA para relatórios humanos em todas as 44 ocupações.

Para o GPT-5, uma versão de sopa do GPT-5 do GPT-5-5, para o GPT-5 com poder de computação adicional, a empresa diz que o modelo de IA foi classificado em pé de igualdade com especialistas do setor em 40,6% das vezes.

O Openai também testou o modelo Claude Opus 4.1 da humanidade. Isso foi classificado em pé de igualdade com especialistas do setor em 49% das tarefas. Openai diz que acredita que Claude marcou muito alto porque tende a fazer gráficos divertidos em vez de desempenho.

Eventos TechCrunch

São Francisco
|
27 a 29 de outubro de 2025

Créditos da imagem:Openai

Vale ressaltar que a maioria dos profissionais que trabalham faz mais do que enviar relatórios de pesquisa ao seu chefe, que é tudo sobre o teste GDPVAL-V0. O OpenAI reconhece isso e diz que planeja criar testes mais robustos no futuro, que podem explicar mais indústrias e fluxos de trabalho interativos.

No entanto, a empresa considera o progresso da GDPVAL que vale a pena notar.

Em uma entrevista ao TechCrunch, o economista -chefe da Openai, Dr. Aaron Chatterji, disse que os resultados do GDPVAL sugerem que as pessoas nesses empregos podem gastar tempo usando modelos de IA para gastar tarefas mais significativas.

“(Porque) o modelo está melhorando com algumas dessas coisas”, diz Chatterji.

Na avaliação de Openai, Tejal Patwardhan disse ao TechCrunch que ele foi encorajado pela taxa de progresso do GDPVAL. O modelo GPT-4O da Openai ganhou 13,7% (vitória e vínculo com os seres humanos), lançado há cerca de 15 meses. Atualmente, o GPT-5 marcou quase três vezes o placar.

O Vale do Silício possui uma ampla gama de benchmarks usados ​​para medir o progresso dos modelos de IA e avaliar se um modelo específico é de ponta. Os mais populares são o Aime 2025 (testando problemas de matemática competitivos) e Diamond GPQA (testando questões científicas no nível de doutorado). No entanto, existem vários modelos de IA Quase saturado Alguns desses benchmarks e muitos pesquisadores de IA Melhor teste Isso permite medir a proficiência de IA em relação às tarefas reais.

Os referências como o GDPVAL podem se tornar cada vez mais importantes nessa conversa, pois os modelos de IA do OpenAi afirmam ser valiosos para uma ampla gama de indústrias. No entanto, o Openai afirma claramente que o teste de uma versão mais abrangente pode ser necessária e que seu modelo de IA pode ser superior aos humanos.

Source link