Os modelos Claude do Anthropic agora podem desligar conversas prejudiciais – Computerworld

A Anthropic introduziu um novo recurso em seus modelos Claude Opus 4 e 4.1 que permite a ferramenta generativa de IA (Genai) para encerrar uma conversa por conta própria, se um usuário tentar repetidamente pressionar conteúdo prejudicial ou ilegal.

O novo comportamento deve ser usado apenas quando todas as tentativas de redirecionar uma conversa falharam ou quando um usuário pede que a conversa seja encerrada. Ele não foi projetado para ser ativado em situações em que as pessoas correm o risco de prejudicar a si mesmas ou a outros. Os usuários ainda podem iniciar novas conversas ou continuar uma anterior editando suas respostas.

O objetivo do recurso não é proteger os usuários; É para o próprio modelo. Embora o antropal enfatize que não considera Claude ser senciente, os testes descobriram que o modelo mostrou forte resistência e “aparente desconforto” a certos tipos de solicitações. Portanto, a empresa agora está testando medidas para melhor “bem -estar da IA” – caso isso se torne relevante no futuro.

Fonte: Computer World

Compartilhe este artigo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *