Na quarta -feira, a Wikimedia Deutschland apresentou um novo banco de dados que tornará o rico conhecimento da Wikipedia mais acessível aos modelos de IA.
Chamado de projeto de incorporação do Wikidata, o sistema aplica uma técnica composta por quase 120 milhões de entradas nos dados existentes na Wikipedia e em suas plataformas irmãs, uma técnica que ajuda os computadores a entender o significado e os relacionamentos entre as palavras.
Combinado com o novo suporte ao Model Context Protocol (MCP), um padrão que ajuda os sistemas de IA a se comunicarem com as fontes de dados, este projeto torna os dados mais acessíveis às consultas de linguagem natural do LLMS.
O projeto foi realizado pelo ramo alemão da Wikimedia em colaboração com a empresa de pesquisa neural Jina.ai e DataStax, uma empresa de dados de treinamento em tempo real de propriedade da IBM.
O Wikidata fornece dados legíveis por máquina da propriedade da Wikimedia há muitos anos, mas as ferramentas existentes agora permitem pesquisas de palavras-chave, consultas SPARQL e idiomas de consulta especiais. O novo sistema funciona bem, oferecendo aos desenvolvedores a oportunidade de fundamentar o modelo com conhecimento verificado pelos editores da Wikipedia, graças a um sistema de geração pesquisada (RAG) que permite que os modelos de IA desenhem informações externas.
Os dados são configurados para fornecer contextos semânticos importantes. Consulta de banco de dados para A palavra “cientista” Por exemplo, crie uma lista de cientistas e cientistas nucleares proeminentes que trabalharam na Bell Labs. Há também a tradução da palavra “cientista” em um idioma diferente, a imagem dos cientistas no local de trabalho que limpou a Wikimedia e a extrapolação para conceitos relacionados, como “pesquisador” e “estudioso”.
O banco de dados é Publicado no ToolForge. Wikidata também está hospedado Webinar para desenvolvedores interessados 9 de outubro.
Eventos TechCrunch
São Francisco
|
27 a 29 de outubro de 2025
Este novo projeto é porque os desenvolvedores de IA estão correndo para uma fonte de dados de alta qualidade que eles podem usar para ajustar seus modelos. O próprio sistema de treinamento é mais refinado – geralmente montado Como um ambiente de treinamento complexo Requer dados fechados para funcionar corretamente, não um conjunto de dados simples. A necessidade de dados confiáveis é particularmente urgente para implantações que requerem alta precisão e alguns negligenciam a Wikipedia, mas esses dados são muito mais orientados para fatos do que os conjuntos de dados de captura Rastreamento geralEsta é uma enorme coleção de páginas da web que foram raspadas da Internet.
Em alguns casos, dirigir dados de alta qualidade pode ter consequências caras para os laboratórios de IA. Em agosto, a humanidade se ofereceu para resolver um processo com o grupo de autores, onde os trabalhos estavam sendo usados como materiais de treinamento. Vou pagar US $ 1,5 bilhão Alegações finais de fraude.
Em comunicado à mídia, o gerente de projeto da Wikidata AI, Philip Saade, destacou a independência de seu projeto dos principais laboratórios de IA ou de grandes empresas de alta tecnologia. “O lançamento deste projeto incorporado mostra que a IA forte não precisa ser controlada por um pequeno número de empresas”, disse Saadé a repórteres. “Pode ser aberto, apoiado e construído para servir a todos”.