Nvidia aposta em infraestrutura aberta para a era da IA ​​agente com Nemotron 3 – Computerworld

O diferencial é a abertura

Para enfatizar seu compromisso com o código aberto, a Nvidia está revelando alguns dos trabalhos internos do Nemotron 3, lançando um conjunto de dados com telemetria do mundo real para avaliações de segurança e 3 trilhões de tokens de conjuntos de dados de pré-treinamento, pós-treinamento e RL do Nemotron 3.

Além disso, a Nvidia está abrindo o código-fonte de suas bibliotecas NeMo Gym e NeMo RL, que fornecem ambientes de treinamento e base pós-treinamento do Nemotron 3, e NeMo Evaluator, para ajudar os construtores a validar a segurança e o desempenho do modelo. Todos já estão disponíveis no GitHub e no Hugging Face. Destes, observou Mayham, o NeMo Gym pode ser a peça mais “estrategicamente significativa” deste lançamento.

O pré-treinamento ensina modelos a prever tokens, não a concluir tarefas específicas de domínio, e o RL tradicional de feedback humano (RLHF) não é escalonável para comportamentos de agente complexos, explicou Mayham. NeMo Gym permite RL com recompensas verificáveis ​​– essencialmente verificação computacional da conclusão da tarefa, em vez de classificações humanas subjetivas. Ou seja, o código passou nos testes? A matemática está correta? As ferramentas foram chamadas corretamente?

Fonte: Computer World

Compartilhe este artigo