À medida que o impulso para a infraestrutura de IA atinge uma escala incrível, a pressão para extrair o máximo possível de inferências das GPUs é maior do que nunca. E para investigadores com experiência numa tecnologia específica, agora é um excelente momento para angariar financiamento.

isso faz parte da força motriz malha tensoraestá sendo lançado esta semana com US$ 4,5 milhões em financiamento inicial. O investimento foi liderado pela Laude Ventures, com financiamento anjo adicional. Pioneiro do banco de dados Michael Franklin.

Tensormesh está usando seu financiamento para construir uma versão comercial de código aberto Cache LMC Um utilitário iniciado e mantido pelo cofundador da Tensormesh, Yihua Cheng. Quando usado com sucesso, o LMCache pode reduzir os custos de inferência em até 10x. Essa capacidade tornou o LMCache um elemento básico em implantações de código aberto, extraindo integração de ferramentas poderosas como: Google e Nvidia. Agora, a Tensormesh planeja transformar sua reputação acadêmica em um negócio viável.

O núcleo deste produto é o cache de valor-chave (ou cache KV). Este é um sistema de memória usado para processar entradas complexas com mais eficiência, condensando-as em valores-chave. em arquitetura tradicionalo cache KV é descartado no final de cada consulta, o que Junchen Jiang, cofundador e CEO da Tensormesh, afirma ser uma importante fonte de ineficiência.

“É como ter um analista realmente inteligente lendo todos os dados, mas toda vez que você faz uma pergunta, ele esquece o que aprendeu”, diz Jiang.

Em vez de descartar esse cache, o sistema do Tensormesh o preserva e permite reimplantá-lo quando seu modelo executa um processo semelhante com outra consulta. Como a memória da GPU é premium, isso significa distribuir os dados em várias camadas de armazenamento diferentes, mas o benefício é um poder de inferência significativamente maior para a mesma carga do servidor.

Essa mudança é especialmente poderosa para interfaces de chat, pois o modelo deve referenciar continuamente um log de chat que cresce à medida que a conversa avança. O sistema de agentes tem um problema semelhante, com um registro crescente de ações e objetivos.

Em teoria, estas mudanças poderiam ser feitas pelas próprias empresas de IA, mas a complexidade técnica torna esta tarefa difícil. À medida que a equipe da Tensormesh estuda o processo e considera a complexidade dos detalhes em si, a empresa acredita que haverá muita demanda por um produto pronto para uso.

“Manter o cache KV em um sistema de armazenamento secundário e reutilizá-lo de forma eficiente sem desacelerar o sistema geral é um problema muito desafiador”, diz Jiang. “Vimos pessoas contratarem 20 engenheiros e gastarem de três a quatro meses construindo um sistema como esse. Ou podem usar nosso produto para construí-lo com muita eficiência.”

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui