versão original de esta história apareceu em Revista Quanta.

Este é um teste para crianças pequenas. Por favor, mostre-me o copo de água que está sobre a mesa. Esconda-o atrás da prancha de madeira. Em seguida, mova o tabuleiro em direção ao vidro. Ficariam surpresos se a tábua atravessasse o vidro como se não estivesse lá? Aos 6 meses de idade, muitas crianças têm um conceito intuitivo da permanência dos objetos que aprenderam através da observação e, aos 1 ano de idade, quase todas as crianças têm um conceito intuitivo da permanência dos objetos que aprenderam através da observação. Agora, alguns modelos de inteligência artificial estão fazendo o mesmo.

Os pesquisadores desenvolveram um sistema de IA que aprende sobre o mundo por meio de vídeos e exibe o conceito de “surpresa” quando apresentado a informações que contradizem o conhecimento que reuniu.

O modelo, criado pela Meta e denominado Video Joint Embedding Predictive Architecture (V-JEPA), não faz suposições sobre a física do mundo contida no vídeo. Mesmo assim, você será capaz de entender como o mundo funciona.

“O argumento deles é dedutivamente muito plausível e os resultados são muito interessantes”, diz ele. Mika HeilbronEle é um cientista cognitivo da Universidade de Amsterdã que estuda como o cérebro e os sistemas artificiais entendem o mundo.

abstração de nível superior

Como sabem os engenheiros que constroem carros autônomos, pode ser difícil garantir que os sistemas de IA entendam o que veem. A maioria dos sistemas projetados para “entender” vídeos e classificar conteúdo (por exemplo, “pessoas jogando tênis”) ou identificar os contornos de objetos (por exemplo, um carro à sua frente) operam no chamado “espaço de pixels”. Este modelo basicamente trata cada pixel do vídeo como sendo de igual importância.

No entanto, estes modelos de espaço de pixels têm limitações. Imagine tentar entender uma rua suburbana. Se a sua cena tiver carros, semáforos e árvores, o modelo pode se concentrar demais em detalhes irrelevantes, como o movimento das folhas. Você pode perder a cor dos semáforos ou a localização dos carros próximos. “Quando você trabalha com imagens e vídeos, você não quer trabalhar no espaço (pixel) porque há muitos detalhes que você não quer modelar”, disse ele. Randall Balestriellocientista da computação da Brown University.

A imagem pode conter, Yann LeCun, rosto, cabeça feliz, pessoa, sorriso, fotografia, retrato, covinhas, adulto e acessório

Yann LeCun, cientista da computação da Universidade de Nova York e diretor de pesquisa de IA da Meta, criou o JEPA, o antecessor do V-JEPA para imagens estáticas, em 2022.

Foto: École Instituto de Tecnologia Paris-Saclay

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui