O negócio é Gere mais vídeos do que nunca. De anos de arquivos de transmissão a milhares de câmeras de lojas e incontáveis ​​peças de filmagens de produção, grande parte delas permanece sem uso em nossos servidores. Não monitorado ou analisado. isso é dados escuros: um recurso grande e inexplorado que as empresas coletam automaticamente, mas raramente usam de forma significativa.

Para resolver esse problema, Aza Kai (CEO) e Hiraku Yanagita (COO), dois ex-Googlers que trabalharam juntos no Google Japão por quase uma década, decidiram criar sua própria solução. co-fundado por duas pessoas mente infinitaé uma startup com sede em Tóquio que desenvolve infraestrutura que transforma petabytes de vídeo e áudio não assistidos em dados de negócios estruturados e consultáveis.

“Meu cofundador lidera soluções de marca e dados no Google Japão há 10 anos e previ esse ponto de inflexão chegando mesmo quando ainda estava no Google”, disse Kai. Em 2024, a tecnologia tinha amadurecido e a procura do mercado era suficientemente clara para que os cofundadores sentissem que precisavam de iniciar a sua própria empresa, acrescentou.

Kai, que anteriormente trabalhou em nuvem, aprendizado de máquina, sistemas de anúncios e modelos de recomendação de vídeo no Google Japão e depois liderou a equipe de ciência de dados, explicou que as soluções atuais exigem compensações. As abordagens anteriores podiam rotular objetos dentro de quadros individuais, mas não conseguiam rastrear narrativas, compreender relações de causa e efeito ou responder a perguntas complexas sobre o conteúdo do vídeo. Para clientes com décadas de arquivos de transmissão e petabytes de filmagens, até mesmo questões básicas sobre conteúdo eram muitas vezes irrespondíveis.

O que realmente mudou foi o avanço dos modelos de linguagem visual de 2021 a 2023. Kai observou que foi quando a IA de vídeo começou a ir além da simples marcação de objetos. Ele disse ao TechCrunch que os custos da GPU caíram na última década, aumentando o desempenho anual em cerca de 15 a 20 por cento, mas a grande história é a funcionalidade e, até recentemente, os modelos não estavam à altura da tarefa.

A InfiniMind garantiu recentemente US$ 5,8 milhões em financiamento inicial liderado pela UTEC com a participação de pesquisadores de IA da CX2, Headline Asia, Chiba Dojo e a16z Scout.. Embora a empresa tenha mudado sua sede para os Estados Unidos, ela continua operando escritórios no Japão. O Japão forneceu o ambiente de teste perfeito com hardware poderoso, engenheiros talentosos e um ecossistema de startups de apoio, Isso permite que a equipe ajuste a tecnologia para clientes exigentes antes de implementá-la globalmente.

O primeiro produto, TV Pulse, foi lançado no Japão em abril de 2025. A plataforma alimentada por IA analisa o conteúdo de TV em tempo real, ajudando empresas de mídia e varejo a “rastrear a exposição do produto, a presença da marca, o sentimento do cliente e a eficácia das relações públicas”, diz a startup. Após programas piloto com grandes emissoras e agências, a empresa já conquistou clientes pagantes, incluindo atacadistas e empresas de mídia.

evento de crise tecnológica

Boston, Massachusetts
|
23 de junho de 2026

A InfiniMind agora está pronta para os mercados internacionais. O principal produto da empresa, DeepFrame, é uma plataforma de inteligência de vídeo de formato longo que pode processar 200 horas de filmagem para identificar cenas, palestrantes e eventos específicos, e será lançada em versão beta em março, seguida por um lançamento completo em abril de 2026, disse Cai.

Crédito da imagem: infinimind

O espaço de análise de vídeo é altamente fragmentado. Embora empresas como a TwelveLabs ofereçam APIs de compreensão de vídeo de uso geral para uma ampla gama de usuários, incluindo consumidores, prosumers e empresas, Kai disse que a InfiniMind está especificamente focada em casos de uso corporativo, como monitoramento, segurança, proteção e análise de conteúdo de vídeo para obter insights mais profundos.

“Nossa solução não requer código; os clientes trazem dados e nossos sistemas os processam para fornecer insights acionáveis”, disse Kai. “Integramos não apenas recursos visuais, mas também áudio, som e compreensão de fala. Nosso sistema pode lidar com durações de vídeo ilimitadas, e a eficiência de custos é um grande diferencial. A maioria das soluções existentes prioriza a precisão ou casos de uso específicos, mas não resolve o desafio de custos.”

O financiamento inicial ajudará a equipe a continuar desenvolvendo modelos DeepFrame, expandir sua infraestrutura de engenharia, contratar mais engenheiros e alcançar clientes adicionais no Japão e nos Estados Unidos.

“Este é um espaço emocionante e um dos caminhos para AGI”, disse Kai. “Compreender a inteligência geral de vídeo significa compreender a realidade. As aplicações industriais são importantes, mas nosso objetivo final é ampliar os limites da tecnologia para compreender melhor a realidade e ajudar os humanos a tomar melhores decisões.”

Source link