Feito pela Nvidia Ativos que fornecem chips para empresas que trabalham em inteligência artificialmas hoje o fabricante de chips deu um passo para se tornar um fabricante de modelos mais sério por direito próprio, ao lançar uma série de modelos abertos de última geração, juntamente com dados e ferramentas para ajudar os engenheiros a usá-los.

A mudança ocorre num momento em que empresas de IA como OpenAI, Google e Anthropic estão se tornando cada vez mais capazes de desenvolver seus próprios chips e pode ser uma salvaguarda contra as empresas que se afastam da tecnologia da Nvidia ao longo do tempo.

Os modelos abertos já são uma parte importante do ecossistema de IA, com muitos pesquisadores e startups os utilizando para experimentar, prototipar e construir. OpenAI e Google oferecem modelos abertos menores, mas não os atualizam com tanta frequência quanto seus rivais chineses. Por estas e outras razões, o modelo aberto das empresas chinesas é hoje muito mais popular, segundo . Dados do Abraço Faceuma plataforma de hospedagem de projetos de código aberto.

O novo modelo Nemotron 3 da Nvidia é um dos melhores que você pode baixar, modificar e executar em seu próprio hardware, de acordo com pontuações de benchmark que a empresa compartilhou antes do lançamento.

“A inovação aberta é a base do progresso da IA”, disse o CEO Jensen Huang em comunicado antes da notícia. “Com o Nemotron, estamos transformando a IA avançada em uma plataforma aberta, dando aos desenvolvedores a transparência e a eficiência necessárias para construir sistemas de agentes em escala.”

A Nvidia está adotando uma abordagem mais transparente do que muitos de seus concorrentes nos EUA, tornando públicos os dados usados ​​para treinar o Nemotron. Este fato deve ajudar os engenheiros a modificar o modelo com mais facilidade. A empresa também lançou ferramentas para ajudar na customização e no ajuste fino. Inclui uma nova arquitetura híbrida de modelo de mistura especialista latente, que a Nvidia afirma ser particularmente adequada para a construção de agentes de IA que podem realizar ações em um computador ou na web. A empresa também está lançando uma biblioteca que permite aos usuários treinar agentes para fazer coisas. aprendizagem por reforçoque envolve dar ao modelo recompensas e punições simuladas.

O modelo Nemotron 3 está disponível em três tamanhos. Nano tem 30 bilhões de parâmetros. O supermercado custa 100 bilhões. E o Ultra é de 500 bilhões. Os parâmetros de um modelo correspondem aproximadamente ao quão bem o modelo funciona e quão difícil é executá-lo. Os modelos maiores são muito pesados ​​e devem ser executados em racks com hardware caro.

Noções básicas do modelo

Kari Ann Briski, vice-presidente de software empresarial generativo de IA da Nvidia, disse que há três razões pelas quais os modelos abertos são importantes para os construtores de IA. Os construtores precisam cada vez mais personalizar modelos para tarefas específicas. Muitas vezes é útil passar consultas para outro modelo. E ao fazer com que esses modelos realizem uma espécie de inferência simulada, fica mais fácil extrair respostas mais inteligentes desses modelos após o treinamento. “Acreditamos que o código aberto é a base da inovação em IA e continuará a acelerar a economia global”, disse Briskey.

A gigante da mídia social Meta lançou seu primeiro modelo aberto avançado chamado ‘Meta’. Lhama para fevereiro de 2023. No entanto, à medida que a concorrência aumenta, Meta sugeriu que os lançamentos futuros podem não ser mais de código aberto.

Este movimento faz parte de uma tendência maior na indústria de IA. Ao longo do último ano, as empresas norte-americanas tornaram-se menos abertas, mais reservadas em relação às suas pesquisas e mais relutantes em informar os rivais sobre as mais recentes técnicas de engenharia.

Source link