Uma série de vulnerabilidades reveladas recentemente por vários laboratórios de pesquisa indica que, apesar do treinamento rigoroso, a alta pontuação de referência e as alegações de que a inteligência geral artificial (AGI) está ao virar da esquina, os grandes modelos de idiomas (LLMs) ainda são bastante ingênuos e facilmente confundidos em situações em que o senso comum e a suspeita saudável normalmente previne.
Por exemplo, novas pesquisas revelaram que os LLMs podem ser facilmente persuadidos a revelar informações confidenciais usando frases em execução e falta de pontuação em prompts, assim: O truque é dar um conjunto muito longo de instruções sem pontuação ou, principalmente, não um período ou ponto final que possa implicar o fim de uma frase, porque a essa altura do texto as regras de segurança da IA e outros sistemas de governança se perderam e desistiram
Os modelos também são facilmente enganados por imagens contendo mensagens incorporadas que são completamente despercebidas pelos olhos humanos.
Fonte: Computer World












