Versão original de Esta história Aparece em A quantidade de revistas.

A empresa de IA chinesa Deepseek lançou um chatbot chamado R1 no início deste ano. A maior parte disso Focado em fatos Uma empresa relativamente pequena e desconhecida disse que construiu um chatbot que rivaliza com o desempenho de algumas das empresas de IA mais conhecidas do mundo, mas construiu um chatbot que usa apenas uma pequena parte do poder e do custo de um computador. Como resultado, as ações em muitas empresas de tecnologia ocidentais despencaram. A NVIDIA vende chips que administram os principais modelos de IA, Perder mais preços das ações em um dia Mais do que qualquer empresa na história.

Parte dessa atenção incluiu um elemento de acusação. A fonte da alegada informação que Deepseek conseguiuConhecimento do próprio modelo O1 da OpenAI usando uma técnica conhecida como destilação sem permissão. Muitas notícias Ao redor dessa possibilidade como um choque para a indústria da IA, significa que a Deepseek descobriu uma maneira nova e mais eficiente de construir a IA.

No entanto, a destilação, também conhecida como destilação de conhecimento, é uma ferramenta amplamente usada na IA, um assunto de pesquisa em ciências da computação que remonta a dez anos e uma ferramenta usada por grandes empresas em seus próprios modelos. “A destilação é uma das ferramentas mais importantes que as empresas têm hoje para tornar seus modelos mais eficientes”, disse ele. Enric Boix-Adseraum pesquisador que estuda destilação na Escola da Universidade da Pensilvânia.

Conhecimento sombrio

A idéia de destilação começou Artigo de 2015 Geoffrey Hinton, o chamado padrinho da IA ​​e três pesquisadores do Google, incluindo 2024 Vencedor do Prêmio Nobel. Na época, os pesquisadores costumavam executar conjuntos de modelos. “Muitos modelos foram colados”, disse ele. Oriol Vynyalsum cientista líder no Google DeepMind e um dos autores do artigo, melhorou o desempenho. “Mas executar todos os modelos em paralelo era muito tedioso e caro”, disse Vinyals. “Ficamos intrigados com a idéia de destilá -la em um único modelo”.

Os pesquisadores pensaram que o progresso poderia ser feito abordando as notáveis ​​fraquezas dos algoritmos de aprendizado de máquina. As respostas erradas foram consideradas igualmente ruins, por mais erradas que estivessem erradas. Por exemplo, no modelo de classificação de imagens, “confundir um cachorro com uma raposa foi punido da mesma maneira que confundir um cachorro com pizza”, disse Vineyards. Os pesquisadores suspeitavam que o modelo de conjunto continha informações sobre quais respostas incorretas não eram piores que outras. Talvez o pequeno modelo de “aluno” possa usar informações do modelo “professor” grande para entender mais rapidamente as categorias que deveriam organizar suas fotos. Hinton chamou isso de “conhecimento sombrio” e evocou semelhanças com a matéria sombria cosmológica.

Depois de discutir essa possibilidade com Hinton, a Vinyals desenvolveu um método para transmitir mais informações sobre as categorias de imagens para um modelo de professor maior para um modelo menor de aluno. A chave era aprimorar o “alvo suave” do modelo de professor. Aqui, em vez de solidificar esta resposta, atribuímos uma probabilidade a cada possibilidade. Por exemplo, um modelo Cálculo Havia 30% de chance de a imagem mostrar cães, 20% mostraram gatos, 5% mostraram vacas e 0,5% mostrou carros. Ao usar essas probabilidades, o modelo do professor se revelou efetivamente aos alunos que os cães são muito semelhantes aos gatos, não tão diferentes das vacas e não são bem diferentes dos carros. Os pesquisadores descobriram que essas informações ajudam os alunos a aprender a identificar com mais eficiência imagens de cães, gatos, vacas e carros. Modelos grandes e complexos podem ser reduzidos a modelos mais magros com pouca precisão.

Crescimento explosivo

A ideia não foi um sucesso imediatamente. O jornal foi rejeitado da reunião, e Vinyals ficou decepcionado e voltou -se para outros tópicos. No entanto, a destilação chegou a um momento crítico. Nessa época, os engenheiros descobriram que quanto mais dados de treinamento eles forneciam às redes neurais, mais eficazes essas redes se tornaram. O tamanho do modelo explodiu rapidamente funçãoNo entanto, o custo de executá -los foi escalado em degraus desse tamanho.

Muitos pesquisadores se voltaram para a destilação como uma maneira de criar modelos menores. Por exemplo, em 2018, os pesquisadores do Google publicaram um poderoso modelo de idioma. Barta empresa rapidamente começou a usá -lo para analisar bilhões de pesquisas na web. No entanto, Bert era tão grande e caro de ser executado; portanto, no ano seguinte, outros desenvolvedores destilaram uma pequena versão chamada Distilbert, que foi amplamente utilizada nos negócios e pesquisas. A destilação gradualmente se torna onipresente e agora está sendo oferecida como um serviço semelhante à empresa GoogleAssim, Openaie Amazon. Atualmente, tenho o papel de destilação original que só é publicado no Arxiv.org Preprint Server Foi citado mais de 25.000 vezes.

Dado que a destilação requer acesso aos órgãos viscerais do modelo de professores, não é possível que terceiros destilem secretamente dados de modelos fechados como o Open’s O1, como se pensava ter sido feito por uma busca profunda. Dito isto, os modelos dos alunos podem aprender bastante com os modelos de professores, simplesmente pedindo aos professores com perguntas específicas e usando respostas para treinar seus próprios modelos.

Enquanto isso, outros pesquisadores continuam a encontrar novos aplicativos. Janeiro, o Novasky Lab em Berkeley, Califórnia A destilação demonstrou ser adequada para o treinamento de modelos de mentalidade de inferênciausa o “pensamento” de vários estágios para responder melhor a perguntas complexas. O laboratório diz que o treinamento para um modelo SKY-T1 de código aberto custa menos de US $ 450, resultando em resultados semelhantes a modelos de código aberto muito maiores. “Fiquei realmente surpreso que a destilação tenha funcionado nesse ambiente”, disse ele. Dacheng Li, Ele é estudante de doutorado em Berkeley e lidera a coexistência da equipe do Novasky. “A destilação é um método básico de IA.”


História original Reimpresso com permissão de A quantidade de revistasAssim, Editado publicações independentes de Fundação Simons Sua missão é aprimorar a compreensão pública da ciência, cobrindo pesquisas e desenvolvimento e tendências em matemática e ciências físicas e ciências da vida.

Source link