A organização de pesquisa da IA, a Eleuther AI, lançou um banco de dados de texto em massa, Common Pile V0.1, que pode ser usado para treinar sistemas de IA, de acordo com o TechCrunch. O banco de dados de 8 TB consiste exclusivamente de textos licenciados publicamente ou textos classificados como domínio público.
A pilha comum V0.1 foi desenvolvida ao longo de dois anos em colaboração com a piscina, abraçando o rosto, a Biblioteca do Congresso dos EUA e a Universidade de Toronto, entre outros.
A coleta de dados foi divulgada depois que surgiram preocupações sobre várias empresas generativas de IA (GENAI) usando material protegido por direitos autorais para treinar seus modelos sem a permissão dos proprietários de direitos autorais. Eleuther Ai também estava por trás da coleção, a pilha, que se tornou um ponto central no debate; Agora, ele quer mostrar com pilha comum v0.1 que o treinamento é possível sem material protegido por direitos autorais.
Fonte: Computer World













