Durante anos, os CEOs das principais empresas de alta tecnologia estão promovendo sua visão Agente da IA Isso permite que as pessoas concluam tarefas usando aplicativos de software. Mas leve os agentes de IA de consumo de hoje para dar uma volta, seja aberta ou não Agente Chatgpt Ou confuso cometae você pode entender rapidamente o quão limitada a tecnologia ainda é. Tornar os agentes de IA mais robustos poderia potencialmente adotar um novo conjunto de técnicas que o setor ainda está descobrindo.
Uma dessas técnicas é simular cuidadosamente um espaço de trabalho onde os agentes podem ser treinados em tarefas de várias etapas conhecidas como ambientes de tarefas em várias etapas (RL). Como os conjuntos de dados rotulados montados na última onda de IA, o ambiente RL está começando a aparecer como um fator importante no desenvolvimento do agente.
Pesquisadores de IA, fundadores e investidores dizem ao TechCrunch que os principais laboratórios de IA estão exigindo mais ambientes de RL e há uma escassez de startups que desejam fornecê -los.
“Todos os grandes laboratórios de IA estão construindo ambientes RL internamente”, disse Jennifer Li, parceira geral da Andreessen Horowitz, em entrevista ao TechCrunch. “Mas, como você pode imaginar, criar esses conjuntos de dados é tão complicado que a AI Labs também está analisando fornecedores de terceiros que podem criar ambientes e avaliações de alta qualidade. Todo mundo está olhando para esse espaço”.
Com um impulso para o ambiente da RL, novas classes de startups bem financiadas, como o trabalho de mecanização e o Prime Intelligent, visam liderar o espaço. Enquanto isso, grandes empresas de etiquetas de dados como Mercor e Surge dizem que estão investindo mais em ambientes RL, abordando a mudança do setor de conjuntos de dados estáticos para simulações interativas. Os principais laboratórios estão pensando em investir pesadamente. As informações mostram que os líderes humanos estão debatendo mais gastos. US $ 1 bilhão em um ambiente RL próximo ano.
As esperanças de investidores e fundadores emergiram como uma dessas startups como “escala de IA para o meio ambiente”; Powerhouse de rotulagem de dados de US $ 29 bilhões Ele dirigiu a era dos chatbots.
A questão é se o ambiente RL realmente aumentará a fronteira da progressão da IA.
Eventos TechCrunch
São Francisco
|
27 a 29 de outubro de 2025
O que é um ambiente RL?
Como os ambientes RL são essenciais, eles são a base para o treinamento para simular o que os agentes de IA fazem em aplicativos de software reais. Um fundador explicou para construí -los Entrevistas recentes “É como criar um videogame muito chato”.
Por exemplo, o ambiente pode simular um navegador Chrome e os agentes da AI para comprar meias na Amazon. O agente é classificado por seu desempenho e envia um sinal de recompensa quando é bem -sucedido (neste caso, compra meias valiosas).
Tais tarefas parecem relativamente simples, mas há muitos lugares onde os agentes da IA podem tropeçar. Você pode estar navegando por menus suspensos em uma página da web ou comprando muitas meias. Além disso, como os desenvolvedores não podem prever com precisão o que um agente está fazendo, o ambiente em si deve ser robusto o suficiente para capturar comportamentos inesperados e ainda fornecer feedback útil. Isso torna o ambiente construído muito mais complicado do que um conjunto de dados estático.
Alguns ambientes são muito robustos e permitem que os agentes de IA usem ferramentas, acessem a Internet e usem uma variedade de aplicativos de software para concluir determinadas tarefas. Outros são mais estreitos e têm como objetivo ajudar os agentes a aprender tarefas específicas em aplicativos de software corporativo.
Atualmente, o ambiente da RL é a coisa mais quente do Vale do Silício, mas há muitos precedentes para usar essa técnica. Um dos primeiros projetos da Openai em 2016 foi “Building”.Ginásio rl“Isso foi muito semelhante ao conceito moderno do meio ambiente. No mesmo ano, o Google Deepmind é treinado ALPHAGO – Vá, um sistema de IA que pode vencer os campeões mundiais em jogos de tabuleiro – use técnicas de RL dentro de um ambiente simulado.
O que é único no ambiente de hoje é que os pesquisadores estão tentando criar agentes de IA baseados em computador com modelos trans em larga escala. Ao contrário do AlphaGo, um sistema de IA especializado que é executado em um ambiente fechado, os agentes de IA de hoje são treinados para ter funções mais gerais. Hoje, os pesquisadores da IA têm um ponto de partida mais forte, mas também existem objetivos complexos que não combinam muito com muito mais.
Um campo movimentado
As empresas de rotulagem de dados da IA AI, como IA, Surge, Mercor, estão tentando se encontrar no momento e construir um ambiente de RL. Essas empresas têm mais recursos do que muitas startups nesse espaço, bem como seus relacionamentos mais profundos com os laboratórios de IA.
O CEO da Surge, Edwin Chen, disse ao TechCrunch que a demanda por ambientes de RL nos laboratórios de IA tem sido “um aumento significativo” recentemente. Surimentos – supostamente gerados US $ 1,2 bilhão em receita Ele disse que recentemente girou uma nova organização interna que tem sido especificamente encarregada de criar ambientes de RL desde que trabalhou com laboratórios de IA como Openai, Google, Anthrópica e Meta.
Logo atrás do Surge está Mercor, uma startup de US $ 10 bilhões que também funciona em Openai, Meta e Humanity. Melkor vende investidores para seus negócios Construindo um ambiente RL De acordo com os materiais de marketing vistos pelo TechCrunch, para tarefas específicas de domínio, como codificação, assistência médica e direito.
“Leah, poucas pessoas entendem o quão grandes são as oportunidades em torno do ambiente da RL”, disse o CEO da Melkor Brendan Hoody ao TechCrunch em uma entrevista.
A escala da IA usada para dominar o espaço de rotulagem dos dados, mas perdeu terreno desde a meta Investiu US $ 14 bilhões Eu contratei um CEO. Desde então, Google e OpenAI Foi descartado Expandindo a IA como cliente, as startups estão até enfrentando concorrência pelo trabalho de rotulagem de dados Na meta. Mas, mesmo assim, a escala está tentando se encontrar no momento e criar um ambiente.
“Isso está na natureza dos negócios (escala da IA)”, disse Chetan Rane, chefe de produto para agentes e ambientes de RL. “A escala prova sua capacidade de se adaptar rapidamente. Fizemos isso no início de nossa primeira unidade de negócios, os carros autônomos. Quando o ChatGPT saiu, a IA se adaptou a ela.
Alguns novos jogadores se concentraram apenas no meio ambiente desde o início. Entre eles está a mecanização do trabalho, uma startup fundada há cerca de seis meses com o objetivo ousado de “automatizar todos os empregos”. No entanto, o co-fundador Matthew Barnett diz ao TechCrunch que sua empresa começa com o ambiente RL de um agente de codificação de IA.
O objetivo do trabalho de mecanização é fornecer um pequeno número de ambientes RL robustos para os laboratórios de IA, diz Barnett, em vez de uma grande empresa de dados que cria uma ampla gama de ambientes RL simples. Neste ponto, a startup está oferecendo engenheiros de software Salário de US $ 500.000 Para construir um ambiente de RL, você pode trabalhar com IA ou surtos muito mais altos do que um contratado por hora.
O trabalho de mecanização já está trabalhando com a humanidade em um ambiente de RL, duas fontes familiarizadas com o problema disseram ao TechCrunch. Ele mecanizou o trabalho e se recusou a comentar a parceria.
Outras startups apostam que o ambiente RL terá um impacto fora dos laboratórios de IA. Prime Intelect – Uma startup apoiada pelos pesquisadores da IA Andrej Karpathy, Founders Fund e Menlo Ventures tem como alvo pequenos desenvolvedores em ambientes de RL.
Prime Intelect foi libertado no mês passado RL Ambiente Hub, Isso pretende “abraçar o rosto de um ambiente de RL”. A idéia é permitir que os desenvolvedores de código aberto acessem os mesmos recursos que os grandes laboratórios de IA possuem, permitindo que esses desenvolvedores acessem recursos computacionais no processo.
De acordo com o principal pesquisador de inteligência Bell Brown, o treinamento que geralmente é competente em ambientes de RL pode ser mais computacional do que as técnicas anteriores de treinamento de IA. Juntamente com as startups que constroem ambientes RL, os provedores de GPU podem aprimorar seus processos têm outra oportunidade.
“O ambiente da RL seria grande demais para uma empresa controlar”, disse Brown em entrevista. “Parte do que fazemos é tentar criar uma ótima infraestrutura de código aberto em torno dele. Os serviços que vendemos são cálculos, por isso é uma conveniente rampa para usar as GPUs, mas é nisso que estamos pensando a longo prazo”.
Ele escala?
Uma questão não resolvida sobre o ambiente RL é se a técnica é escalada como métodos de treinamento anteriores de IA.
A aprendizagem de reforço reforçou alguns dos maiores saltos da IA no ano passado. Openi’s O1 E a raça humana Trabalho de fechamento 4. Estes são descobertas particularmente importantes, pois agora são os métodos usados para melhorar os modelos de IA anteriormente Indica uma diminuição em troca.
O ambiente faz parte das apostas maiores da AI Labs no RL, e acreditamos que muitos continuarão a impulsionar o progresso à medida que os dados e os recursos computacionais são adicionados ao processo. Vários pesquisadores do OpenAI por trás da O1 disseram ao TechCrunch anteriormente que a empresa havia investido originalmente em modelos de raciocínio de IA (criados por meio de investimentos em RL e cálculos de tempo de teste). Eles pensaram que iria expandir Está indo bem.
A melhor maneira de escalar a RL permanece desconhecida, mas o ambiente parece ser um candidato promissor. Em vez de simplesmente recompensar o chatbot pelas respostas de texto, os agentes usam ferramentas e computadores à sua disposição para executar em simulações. É muito mais intensivo em recursos, mas potencialmente gratificante.
Alguns são céticos de que todos esses ambientes RL dão certo. Ross Taylor, ex-líder de pesquisa da IA da Meta, que co-fundou o raciocínio geral, diz ao TechCrunch que os ambientes RL tendem a recompensar o hacking. Este é o processo no qual a IA modela trapaceia para ganhar recompensas sem realmente executar tarefas.
“Acho que as pessoas subestimam o quão difícil é expandir o meio ambiente”, disse Taylor. “Mesmo os melhores (ambientes RL) que geralmente estão disponíveis normalmente não funcionam sem mudanças sérias”.
Sherwin Wu, chefe de engenharia da OpenAI para negócios de API, Podcasts recentes Ele era “curto” em uma startup em um ambiente de RL. Wu disse que é um espaço muito competitivo, mas a pesquisa de IA evoluiu tão rapidamente que é difícil servir bem os laboratórios de IA.
A Karpathy, uma líder de investidor de inteligência que chama o ambiente de RL de um potencial avanço, prestou mais atenção ao espaço da RL. em Vou postar em xele levantou preocupações sobre se mais avanços da IA poderiam ser espremidos em RL.
“Sou otimista sobre a interação entre meio ambiente e agente, mas, especificamente, estou com baixa em relação ao aprendizado de reforço”, diz Karpathy.


















