Resumo criado por Smart Answers AI
Resumindo:
- PCWorld relata que um gerente da Microsoft promoveu o treinamento do Azure AI em livros piratas de Harry Potter por meio de uma postagem no blog do desenvolvedor que já foi removida.
- O incidente destaca preocupações legais crescentes à medida que os autores processam cada vez mais empresas de tecnologia por usarem obras protegidas por direitos autorais sem permissão para treinar sistemas de IA.
- Este caso destaca desafios éticos significativos no desenvolvimento de IA quando material protegido por direitos autorais é usado indevidamente para fins de treinamento de aprendizado de máquina.
Oh meu Deus. Com os sistemas de “IA” causando muitos problemas em quase todos os lugares, é péssimo que uma das empresas de tecnologia mais importantes do mundo promova ativamente a pirataria. Mas parece que foi exatamente isso que aconteceu, com uma postagem hospedada no blog de desenvolvedores da Microsoft, usando ativamente um conjunto aparentemente pirateado de Harry Potter romances para treinar um sistema de “IA” baseado no Azure.
“A série Harry Potter, escrita por JK Rowling, é uma coleção mundialmente amada de sete livros que seguem a jornada de um jovem bruxo, Harry Potter, e seus amigos enquanto eles lutam contra as forças das trevas lideradas pelo malvado Voldemort”, escreveu Pooja Kamath, gerente sênior de produtos da Microsoft. A postagem do blog apontou para um link do conjunto de dados Kaggle que continha sete arquivos TXT, aparentemente abrangendo o inteiro série de romances publicados.
A postagem do blog era um guia sobre como adicionar “IA” generativa a aplicativos via Azure. O gerente disse que poderia ser usado para criar um sistema de perguntas e respostas ou gerar automaticamente Harry Potter ficção de fãs. “Esse recurso certamente encantará os Potterheads, permitindo-lhes explorar novas aventuras e criar suas próprias histórias mágicas.” Ele termina com uma imagem gerada pelo LLM de duas crianças em um trem, obviamente caricaturas de Harry Potter e Ron Weasley, com um logotipo da Microsoft entre eles.
Isto é, em termos técnico-jurídicos, um grande maldito, não, não. Todos os Harry Potter os romances são, obviamente, protegidos por direitos autorais por várias entidades ao redor do mundo, incluindo o autor. Uma rápida navegação na Amazon mostra que uma coleção completa custava US$ 70 em formato de e-book no momento em que este artigo foi escrito. Hospedar ou baixar os arquivos gratuitamente sem pagar qualquer tipo de royalty é crime basicamente em todos os lugares. Sim, isso inclui baixá-lo, mesmo que tudo o que você pretenda fazer seja conectá-lo a um modelo de linguagem grande.
A postagem original de instruções da Microsoft foi publicada no final de 2024 e foi removida do site (embora ainda esteja acessível através do Internet Archive). O mesmo vale para o conjunto de dados Kaggle, que foi erroneamente marcado como “domínio público” e baixado apenas cerca de 10.000 vezes, de acordo com um relatório da Ars Technica. Tanto a postagem do blog quanto o conjunto de dados piratas parecem ter passado despercebidos por um ano e meio, até que um tópico do Hacker News ontem trouxe nova atenção para eles.
É chocante que um gerente da Microsoft seja tão casual sobre a pirataria de e-books em uma postagem pública em um blog da Microsoft (embora Kamath possa não entender como funciona o sistema de domínio público e presumir que os arquivos foram marcados corretamente). Mas os grandes modelos de linguagem mais populares foram treinados em milhões de e-books, muitos (possivelmente até a maioria) dos quais foram baixados por meio de pirataria ilegal.
Os autores entraram com ações judiciais contra Meta/Facebook, OpenAI, Nvidia, Alphabet/Google, Anthropic, Microsoft e outros, com o objetivo de interromper o treinamento em obras protegidas por direitos autorais e/ou buscar remuneração por livros já incorporados ao treinamento LLM sem permissão. Os resultados iniciais nos tribunais foram mistos, por vezes considerando os resultados dos modelos de formação “transformadores” e, portanto, substancialmente diferentes dos dados principais, ou seja, utilização justa, e alguns concluindo que os actos iniciais de pirataria ainda devem ser processados.
Fonte: PC World












