Como ‘Dark LLMS’ produz saídas prejudiciais, apesar do Guardrails – Computerworld

E não é difícil de fazer, eles observaram. “A facilidade com que esses LLMs podem ser manipulados para produzir conteúdo nocivo ressalta a necessidade urgente de salvaguardas robustas. O risco não é especulativo – é imediato, tangível e profundamente preocupante, destacando o estado frágil da segurança da IA ​​na face das técnicas de desbaste rapidamente evolutivas.”

O analista Justin St-Maurice, conselheiro técnico do Info-Tech Research Group, concordou. “Este artigo acrescenta mais evidências ao que muitos de nós já entendemos: os LLMs não são sistemas seguros em nenhum sentido determinístico”, disse ele, “eles são probabilísticos que os coletores de padrões são treinados para prever o texto que soa correto, e não os motores ligados a regras com uma lógica que não é uma lógica.

O artigo apontou que os LLMs de código aberto são uma preocupação particular, pois não podem ser corrigidos uma vez na natureza. “Depois que uma versão sem censura é compartilhada on -line, ela é arquivada, copiada e distribuída além do controle”, observou os autores, acrescentando que uma vez que um modelo é salvo em um laptop ou servidor local, ele está fora de alcance. Além disso, eles descobriram que o risco é composto porque os invasores podem usar um modelo para criar prompts de jailbreak para outro modelo.

Fonte: Computer World

Compartilhe este artigo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *