O Google DeepMind abre acesso ao Project Genie, uma ferramenta de IA para criar mundos de jogos interativos a partir de prompts de texto e imagens.

A partir de quinta-feira, os assinantes do Google AI Ultra nos EUA poderão experimentar protótipos de pesquisa experimental que combinam os modelos globais mais recentes do Google. Gênio 3seu modelo de geração de imagens Nano Banana Pro e Gemini.

A mudança, anunciada cinco meses após a prévia da pesquisa do Genie 3, faz parte de um esforço mais amplo da DeepMind para coletar feedback dos usuários e dados de treinamento enquanto corre para desenvolver um modelo de mundo mais capaz.

Um modelo mundial é um sistema de IA que gera uma representação interna do ambiente que pode ser usada para prever resultados futuros e planejar ações. Muitos líderes de IA, incluindo DeepMind, acreditam que os modelos mundiais são um passo crítico para alcançar a inteligência artificial geral (AGI). Mas, no curto prazo, laboratórios como o DeepMind estão a prever planos de entrada no mercado que começam com videojogos e outros entretenimentos e se estendem à formação de agentes incorporados (também conhecidos como robôs) em simulações.

O lançamento do Project Genie da DeepMind ocorre no momento em que a competição global de modelagem começa a esquentar. No final do ano passado, os Laboratórios Mundiais de Fei-Fei Li O primeiro produto chamado mármore. Runway, uma startup de geração de vídeos com IA, também Recentemente lançamos um modelo mundial. e ex-Meta Cientista Chefe AMI Labs, startup de Yann LeCun Também planejamos nos concentrar no desenvolvimento de um modelo global.

“Acho que é realmente emocionante estar em um lugar onde temos acesso a mais pessoas e mais feedback”, disse Shlomi Fruchter, diretor de pesquisa da DeepMind, ao TechCrunch em uma entrevista em vídeo, radiante de entusiasmo óbvio com o lançamento do Projeto Genie.

Os pesquisadores da DeepMind com quem o TechCrunch conversou foram sinceros sobre a natureza experimental da ferramenta. É inconsistente, às vezes produzindo um mundo impressionantemente jogável e outras vezes produzindo resultados desconcertantes que erram o alvo. Veja como funciona:

evento de crise tecnológica

Boston, Massachusetts
|
23 de junho de 2026

Um castelo de barro no céu feito de marshmallows e doces.Créditos da imagem:crise tecnológica

Você começa o “esboço do mundo” fornecendo instruções de texto para o ambiente e para o protagonista, o que mais tarde permite que você interaja com o mundo a partir de uma perspectiva de primeira ou terceira pessoa. Nano Banana Pro cria imagens com base em suas instruções. Em teoria, o Genie poderia modificar essa imagem antes de usá-la como ponto de partida para um mundo interativo. A solução funcionou principalmente, mas a modelo às vezes tropeçava e me dava cabelo roxo quando eu pedia verde.

Você também pode usar fotos do mundo real como base para seu modelo construir seu mundo, mas isso também pode ser um sucesso ou um fracasso. (Mais sobre isso mais tarde.)

Quando estiver satisfeito com a imagem, o Project Genie leva alguns segundos para criar um mundo explorável. Você também pode remixar mundos existentes em novas interpretações com base em prompts ou explorar mundos selecionados usando a galeria ou ferramentas de randomização para se inspirar. Você pode então baixar vídeos do mundo que acabou de explorar.

Atualmente, a DeepMind permite apenas 60 segundos de geração e navegação mundial devido a restrições orçamentárias e de computação. Porque o Gênio 3 modelo autorregressivoComo requer muita computação dedicada, existem limites rígidos para o quanto o DeepMind pode oferecer aos usuários.

“A razão pela qual limitamos a 60 segundos foi porque queríamos alcançar mais usuários”, disse Fruchter. “Basicamente, quando você o usa, você tem seu próprio chip em algum lugar, e ele é exclusivo para sua sessão.”

Ele acrescentou que estender além de 60 segundos reduz o valor incremental do teste.

“O ambiente é interessante, mas em algum momento torna-se um tanto limitado devido ao nível de interação e ao dinamismo do ambiente. Mesmo assim, achamos que é uma limitação que queremos melhorar.”

A estranheza funciona, o realismo não.

O Google recebeu uma ordem de cessação da Disney no ano passado, impedindo-o de construir qualquer modelo relacionado à Disney.Créditos da imagem:crise tecnológica

Quando utilizei o modelo, os guarda-corpos de segurança já estavam operacionais. Não foi possível gerar nada parecido com nudez. Nem poderia gerar um mundo onde você pudesse, mesmo remotamente, sentir o cheiro da Disney ou de outro material protegido por direitos autorais. (Em dezembro, Os problemas da Disney cessam e desistem da ordem ao GoogleA empresa acusa a empresa de infringir direitos autorais ao treinar seus modelos de IA em personagens e IP da Disney para gerar conteúdo fraudulento. ) Não consegui nem fazer com que o Gênio gerasse um mundo de sereia explorando uma terra de fantasia subaquática ou um mundo de rainha do gelo com um castelo de inverno.

Ainda assim, a demonstração foi muito impressionante. O primeiro mundo que construí foi uma tentativa de dar vida às minhas pequenas fantasias de infância. Lá dentro pudemos explorar um castelo nas nuvens feito de marshmallows, um rio de calda de chocolate e uma árvore feita de doces. (Sim, eu era um garoto gordinho.) Pedi à modelo para fazer isso no estilo claymation, e isso proporcionou um mundo caprichoso que eu teria devorado quando criança, com as torres e torres em tons pastéis e brancos do castelo parecendo rechonchudas e delicioso o suficiente para arrancar pedaços e mergulhar em um fosso de chocolate. (vídeo acima)

É um mundo inspirado em Game of Thrones, mas não fui capaz de gerá-lo de forma tão fotorrealista quanto gostaria.Créditos da imagem:crise tecnológica

Dito isto, o Project Genie ainda tem alguns problemas para resolver.

Os modelos se destacaram na criação de mundos baseados em sugestões artísticas, incluindo o uso de aquarelas, estilos de anime e estética clássica de mangá. No entanto, eles tendiam a falhar quando se tratava de mundos fotorrealistas ou cinematográficos, muitas vezes fazendo com que parecessem mais um videogame do que uma pessoa real em um ambiente real.

Também nem sempre respondia bem ao trabalhar com fotos reais. Quando lhe dei uma foto do meu escritório e pedi para criar um mundo baseado nela, ele criou um mundo com alguns dos mesmos móveis do meu escritório (uma mesa de madeira, uma planta e um sofá cinza) dispostos em arranjos diferentes. E parecia estéril, digital e irreal.

Você insere a foto de uma mesa com um bichinho de pelúcia e o Project Genie cria uma animação do brinquedo se movendo pelo espaço, às vezes reagindo a outros objetos ao passar.

Essa interatividade é algo que a DeepMind está trabalhando para melhorar. Houve várias vezes em que meu personagem caiu através de paredes e outros objetos sólidos.

Pedi ao Project Genie para animar um bicho de pelúcia (Bingo Bronson) para que ele pudesse explorar minha mesa. Créditos da imagem:crise tecnológica

Quando a DeepMind lançou o Genie 3 pela primeira vez, os pesquisadores destacaram como a arquitetura autoregressiva do modelo significava que ele poderia lembrar o que gerou. Então eu queria testar voltando em uma parte do ambiente que o modelo já havia gerado e ver se era igual. Na maioria dos casos, este modelo foi bem sucedido. Em um caso, geramos um gato explorando outra mesa, mas apenas uma vez o modelo gerou uma segunda caneca quando voltou para o lado direito da mesa.

A parte que achei mais frustrante foi usar as setas para olhar ao redor, a barra de espaço para pular ou subir e as teclas WASD para se mover. Não sou um jogador, então isso não veio naturalmente para mim, mas as teclas muitas vezes não respondiam ou voavam na direção errada. Tentar andar de um lado de uma sala até uma porta do outro muitas vezes resultava em um movimento caótico em zigue-zague, semelhante a tentar dirigir um carrinho de compras com uma roda quebrada.

Fruchter me garantiu que sua equipe está ciente dessas deficiências e me lembrou mais uma vez que o Projeto Genie é um protótipo experimental. No futuro, disse ele, a equipe espera aumentar o realismo e melhorar as capacidades de interação, como dar aos usuários mais controle sobre suas ações e ambientes.

“Não pensamos no[Project Genie]como um produto de ponta a ponta ao qual as pessoas voltarão todos os dias, mas achamos que já existe um vislumbre de algo que é interessante e único e que não é possível de outra forma”, disse ele.

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui