desenvolvedor francês IA Mistral está lançando um novo conjunto de modelos de linguagem projetados para levar recursos de IA de ponta a mais pessoas, independentemente de onde estejam, da confiabilidade de seu acesso à Internet ou dos idiomas que falam.

A empresa anunciou na terça-feira um novo modelo de linguagem em grande escala, chamado Mistral Large 3, destinado ao amplo uso geral. pensar Bate-papo GPT ou Gêmeos. Outros modelos vêm em uma variedade de tamanhos e recursos e são construídos especificamente. no dispositivo eles mesmos. Esses pequenos modelos podem funcionar em laptops, smartphones, carros e robôs e podem ser adaptados para executar tarefas específicas.

Atlas de IA

Todos os modelos são código aberto Isso significa que os desenvolvedores que os utilizam podem ver como funcionam e ajustá-los para atender às suas necessidades. “Acreditamos profundamente que isso tornará a IA disponível para todos e basicamente acessível”, disse Guillaume Lampre, cofundador e cientista-chefe da Mistral AI, em entrevista.

Fundada por ex-pesquisadores do Google DeepMind e Meta, a Mistral AI não é tão conhecida nos EUA quanto rivais como OpenAI e Anthropic, mas é bem conhecida na Europa. Além de modelos para pesquisadores e empresas, oferecemos também o chatbot “Le Chat”. Através do navegador ou na loja de aplicativos.

Modelos de IA projetados para serem multilíngues

Lample disse que o novo conjunto de modelos da empresa tem o objetivo de fornecer recursos avançados de IA de ponta que sejam acessíveis por meio de código aberto. Parte disso tem a ver com a linguagem. A maioria dos modelos de IA populares nos EUA são desenvolvidos para serem usados ​​principalmente em inglês, assim como as ferramentas de benchmarking para comparar as capacidades do modelo. E embora esses modelos possam funcionar e ser traduzidos para outros idiomas, Rumple disse que eles podem não ser tão bons quanto os benchmarks sugerem quando usados ​​em outros idiomas além do inglês.

Veja isto: A IA pode causar dependência do jogo? Jason Hiner, da ZDNET, fala sobre as guerras dos navegadores da IA ​​e o futuro do trabalho | A tecnologia de hoje

A Mistral AI queria que o novo modelo funcionasse melhor para falantes de todos os idiomas, por isso aumentou a quantidade de dados de treinamento em idiomas diferentes do inglês proporcionalmente aos dados em inglês. “Acho que as pessoas geralmente não dão muita ênfase aos recursos multilíngues porque, quando você os torna multilíngues, também diminui um pouco o desempenho nos benchmarks comuns que todos veem”, disse Rumple. “Então, se você quiser que seu modelo seja realmente bom em poliglotas, você terá que sacrificar o poliglota (desempenho). Por outro lado, se você quiser que seu modelo seja realmente bom em poliglotas, você basicamente terá que desistir de benchmarks populares.”

Uma ampla gama de tamanhos para atender a vários usos

Além do modelo Mistral Large 3 de uso geral com um total de 675 bilhões de parâmetros, existem três modelos menores chamados Ministral 3 (3 bilhões, 8 bilhões e 14 bilhões de parâmetros), 3 tipos cada, para um total de 9 tipos. (Os parâmetros são pesos ou funções que informam ao modelo como processar os dados de entrada. Modelos maiores são melhores e mais poderosos, mas também requerem mais poder de computação e são mais lentos.)

Os três tipos de modelos de pequena escala são categorizados da seguinte forma: um modelo básico que os usuários podem ajustar e ajustar, um que é ajustado pela Mistral para melhorar o desempenho e um modelo construído para inferência que gasta mais tempo iterando e processando consultas para obter melhores respostas.

leia mais: Fundamentos da IA: 29 maneiras de aproveitar a Gen AI com nossos especialistas

Os modelos de pequena escala são especialmente importantes, disse Lampl, porque muitos usuários de IA desejam algo que execute uma ou duas tarefas de maneira adequada e eficiente, em vez de modelos genéricos grandes, caros. Os desenvolvedores podem personalizar esses modelos para trabalhos específicos, e indivíduos ou empresas podem hospedá-los em seus próprios servidores, economizando o custo de execução dos modelos em um data center em algum lugar.

Modelos menores também podem funcionar em determinados dispositivos. Os menores podem ser executados em um smartphone, e os um pouco maiores podem ser executados em um laptop. Isso traz economia de custos e energia, bem como benefícios de privacidade e segurança, garantindo que seus dados nunca saiam do seu dispositivo.

Modelos menores que rodam no próprio aparelho nem precisam de acesso à internet para funcionar. Isso é muito importante considerando que a IA é usada em coisas como robôs e carros que não dependem de Wi-Fi confiável para funcionar corretamente.

Source link