Pode ser hora de considerar os modelos de IA que não roubam – computação

Com as empresas despejando bilhões de dólares em iniciativas generativas de IA (Genai), as dúvidas sobre futuras exposições legais são normalmente ignoradas.

Os riscos são praticamente intermináveis. Embora as empresas geralmente façam um ajuste fino de dados extensos antes de implantar grandes modelos de idiomas (LLMS), o enorme banco de dados subjacente é desconhecido. Os principais fabricantes de modelos – incluindo OpenAI, Google, AWS, Antrópico, Meta e Microsoft – não fornecem visibilidade em seus dados de treinamento. Isso inclui quão antigo ou desatualizado é, quão confiável é, idiomas de origem e, criticamente, se os dados violam regras de privacidade, restrições de direitos autorais, marcas comerciais, patentes ou dados sensíveis regulamentares (dados de saúde, dados financeiros, PII, detalhes do cartão de pagamento, credenciais de segurança etc.).

Mesmo quando os fornecedores fornecem listas de origem para os dados usados para treinar seus modelos, essas listas podem não incluir dados significativos. Por exemplo, uma fonte pode ser “Informações sobre transações de visto”. Que idade? É verificado? Foi suficientemente higienizado para conformidade?

Fonte: Computer World

Compartilhe este artigo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *