Mati Staniszewski, cofundador e CEO da Eleven Labs, diz que a voz está se tornando a próxima grande interface para IA, o que significa que os modelos estão indo além do texto e das telas e cada vez mais da forma como as pessoas interagem com as máquinas.
falar em Web Summit em DohaStaniszewski disse ao TechCrunch que modelos de fala como o desenvolvido pela Eleven Labs recentemente foram além da simples imitação da fala humana (incluindo emoção e entonação) para trabalhar em conjunto com as capacidades de raciocínio de modelos de linguagem maiores. Como resultado, argumentou ele, a forma como as pessoas interagem com a tecnologia mudará.
Nos próximos anos, disse ele, “esperamos que todos os telemóveis estejam de volta aos nossos bolsos e possamos mergulhar no mundo real que nos rodeia, usando a nossa voz como mecanismo para controlar a tecnologia”.
Essa visão se tornou a força motriz por trás do Eleven Lab. US$ 500 milhões arrecadados Foi avaliado em US$ 11 bilhões esta semana e está sendo cada vez mais compartilhado pela indústria de IA. OpenAI e Google Ambas as empresas estão colocando a voz no centro de seus modelos de próxima geração, mas a Apple parece estar construindo silenciosamente uma tecnologia sempre ativa adjacente à voz. Aquisições como Q.ai. À medida que a IA se torna mais difundida em wearables, carros e outros novos hardwares, o controle passa a ser menos uma questão de tocar na tela e mais uma questão de falar, tornando a voz um campo de batalha fundamental para o próximo estágio do desenvolvimento da IA.
Seth Pierrepont, sócio geral da Iconiq Capital, repetiu essa visão no palco do Web Summit, argumentando que, embora as telas continuem a ser importantes para jogos e entretenimento, os métodos de entrada tradicionais, como teclados, estão começando a parecer “desatualizados”.
E à medida que os sistemas de IA se tornam mais agentes, as próprias interações mudarão, disse Pierrepont, à medida que os modelos ganham proteções, integrações e o contexto de que precisam para responder a solicitações menos explícitas dos usuários.
Staniszewski apontou a mudança de agentes como uma das maiores mudanças em curso. Ele disse que os futuros sistemas de voz dependerão cada vez mais de memória persistente e contexto construído ao longo do tempo, em vez de explicar cada instrução, tornando as interações mais naturais e exigindo menos esforço do usuário.
evento de crise tecnológica
Boston, Massachusetts
|
23 de junho de 2026
Essa evolução terá impacto na forma como os modelos de voz são implantados, acrescentou. Embora os modelos de áudio de alta qualidade existissem principalmente na nuvem, Staniszewski disse que a Eleven Labs está trabalhando em uma abordagem híbrida que combina processamento em nuvem e no dispositivo. Esta é uma mudança que visa oferecer suporte a novos hardwares, incluindo fones de ouvido e outros wearables, onde o áudio sempre será um acessório, e não um recurso que determina quando você o usa.
A Eleven Labs já fez parceria com a Meta para levar a tecnologia de voz da empresa para produtos como Instagram e Horizon World, plataforma de realidade virtual da empresa. Staniszewski disse que está aberto a colaborar nos óculos inteligentes Ray-Ban da Meta, à medida que as interfaces acionadas por voz são expandidas para novos formatos.
Mas à medida que a voz se torna mais persistente e integrada no hardware quotidiano, abre a porta a sérias preocupações sobre privacidade, vigilância e a quantidade de dados pessoais armazenados à medida que os sistemas baseados em voz se aproximam da vida quotidiana dos utilizadores. empresas como o Google Ele já foi acusado de abuso.


















