As ferramentas de codificação de IA são rápidas. Pode ser difícil observar o quanto está mudando se não funcionar no seu código, mas o GPT-5 e o Gemini 2.5 agora tornaram possível automatizar um novo conjunto de truques de desenvolvedor.

Ao mesmo tempo, outras habilidades estão avançando mais lentamente. Se você usa a IA para escrever e -mails, provavelmente obterá o mesmo valor que fez há um ano. Mesmo que o modelo melhore, o produto nem sempre traz benefícios. Especialmente quando o produto é um chatbot que possui trabalhos diferentes ao mesmo tempo. A IA ainda está progredindo, mas não é tão uniformemente distribuída quanto antes.

A diferença em andamento é mais fácil do que parece. Os aplicativos de codificação se beneficiam de bilhões de testes facilmente mensuráveis. Isso permite que você treine para escrever código executável. Este é o aprendizado de reforço (RL) e, sem dúvida, é a maior força motriz da IA ​​nos últimos seis meses. Está sempre ficando complicado. O aprendizado de desempenho e reforço humano pode ser feito, mas funciona melhor quando há métricas claras de passagem, permitindo que seja repetido bilhões de vezes sem interromper a contribuição humana.

À medida que a indústria confia cada vez mais no aprendizado de reforço para melhorar seus produtos, vemos uma diferença real entre os recursos que podem ser classificados automaticamente e aqueles que não podem. Habilidades amigáveis ​​ao RL, como correções de bugs e matemática competitiva, são mais rápidas, mas habilidades como escrever apenas produzem progresso progressivo.

Em suma, há uma lacuna no fortalecimento e está se tornando um dos fatores mais importantes do que os sistemas de IA podem e não podem fazer.

Em alguns aspectos, o desenvolvimento de software é um ótimo tema para o aprendizado de reforço. Mesmo antes da IA, havia uma linha de subdiship inteira dedicada a testar como o software se mantém sob pressão. Isso ocorre porque os desenvolvedores precisam garantir que seu código não quebre antes que possam ser implantados. Portanto, mesmo o código mais elegante deve passar nos testes de unidade, testes de integração, testes de segurança e muito mais. Os desenvolvedores humanos usam regularmente esses testes para validar seu código, Como o diretor sênior de ferramentas de desenvolvimento do Google me disse recentementeeles são igualmente úteis para validar o código gerado pela IA. Mais do que isso, eles já são sistematizados e repetíveis em larga escala, o que pode ser útil para o aprendizado de reforço.

Não há maneira fácil de validar e-mails bem escritos ou boas respostas de chatbot. Essas habilidades são de natureza subjetiva e difíceis de medir em larga escala. No entanto, nem todas as tarefas se encaixam corretamente na categoria “fácil de testar” ou “difícil de testar”. Não há kits de teste prontos para uso para relatórios financeiros trimestrais ou ciência atuarial, mas uma startup contábil capitalmente apropriada pode ser construída do zero. Obviamente, alguns kits de teste funcionam melhor que outros, e algumas empresas são mais inteligentes sobre como abordar o problema. No entanto, a testabilidade do processo subjacente será um determinante se o processo subjacente pode ser transformado em um produto funcional e não apenas em uma demonstração emocionante.

Eventos TechCrunch

São Francisco
|
27 a 29 de outubro de 2025

Alguns processos acabaram sendo mais testáveis ​​do que você pensa. Se você me perguntasse na semana passada, eu teria colocado vídeos gerados pela IA na categoria “difícil de testar”, Novo modelo Sora 2 do OpenAi Isso mostra que pode não ser tão difícil quanto parece. Em Sora 2, os objetos desaparecem do nada. Os rostos parecem mais uma pessoa em particular do que apenas uma coleção de recursos. Sora 2 imagens respeita as duas leis da física claro e sutil método. Se você olhar para trás das cortinas, encontrará um sistema de aprendizado de reforço robusto para cada uma dessas qualidades. Coletivamente, eles fazem a diferença entre fotorrealismo e alucinações divertidas.

Para ficar claro, essa não é uma regra difícil para a inteligência artificial. Este é o resultado do aprendizado de reforço de função central no desenvolvimento da IA, que pode mudar facilmente à medida que o modelo se desenvolve. No entanto, desde que a RL seja a principal ferramenta para levar os produtos de IA ao mercado, a lacuna de reforço será grande e terá um sério impacto nas startups e na economia como um todo. Se o processo estiver no lado direito da lacuna de aprimoramento, a startup provavelmente será bem -sucedida na automação. E quem faz o trabalho pode estar procurando uma nova carreira. Por exemplo, a questão de quais serviços de saúde são RL-Trainable terá um grande impacto na forma da economia nos próximos 20 anos. E se uma surpresa como Sora 2 é alguma indicação, talvez você não precise esperar muito pela resposta.

Source link