A Meta também está lançando três novos benchmarks para avaliar como os modelos podem usar o vídeo para raciocinar sobre o mundo físico. Isso inclui o Intphys 2, que mede a capacidade dos modelos de distinguir entre cenários fisicamente plausíveis e implausíveis de “quebra de física”, pares de vídeos mínimos (MVPBench), que testam as habilidades de compreensão física dos modelos por meio de perguntas de múltipla escolha e causalvqa, que mede a capacidade dos modelos de responder às perguntas relacionadas à causa e efeito físico.
Casos de uso potencial na empresa
Chopra, do Neo4J, apontou que os modelos atuais dependem de dados rotulados e “recursos visuais explícitos”. O V-Jepa 2, por outro lado, concentra-se em inferir informações ausentes no espaço latente, “em essência capturando relações abstratas e aprender com o contexto, em vez de detalhes perfeitos para pixels”.
Isso significa que ele pode funcionar de maneira confiável em ambientes imprevisíveis, onde os dados são escassos, tornando-os particularmente adequados para casos de uso, incluindo automação de fabricação, análise de vigilância, logística de construção ou robótica, disse Chopra. Outros casos de uso podem incluir monitoramento de equipamentos autônomos, manutenção preditiva e inspeções com pouca luz. As operações do Data Center do Meta podem servir como um campo de teste inicial. E, com o tempo, poderia impulsionar cenários mais avançados, como veículos autônomos, realizando auto-diagnóstico e iniciando reparos robóticos.
Fonte: Computer World













