A NASA descobre que a IA generativa não pode ser confiável

Embora muitos executivos C-Suite e Line de Business (LOB) estejam fazendo tudo o que podem para se concentrar na eficiência e flexibilidade generativa da IA ​​(GENAI)-e não Com que frequência a tecnologia oferece respostas erradas-os tomadores de decisão de TI não podem se dar ao luxo de fazer a mesma coisa.

Não se trata apenas de alucinações, embora a taxa crescente na qual esses tipos de erros surgem seja aterrorizante. Essa falta de confiabilidade é causada principalmente por elementos de um dos quatro baldes:

  • Alucinaçõesonde as ferramentas genai simplesmente compõem as respostas;
  • Dados de treinamento ruinsse isso significa dados insuficientes, desatualizados, tendenciosos ou de baixa qualidade;
  • Instruções de consulta ignoradasque geralmente é uma manifestação de vieses nos dados de treinamento;
  • Desconsiderado guardrails(Por uma taxa de licenciamento de vários bilhões de dólares, alguém poderia pensar que o modelo seria pelo menos tentar fazer o que é dito para fazer.)

Tente imaginar como sua equipe de gerenciamento reagiria a um funcionário humano que puxou esses tipos de acrobacias. Aqui está o cenário: o chefe em seu escritório com o funcionário problemático e o supervisor desse funcionário.

EXEC: “Você tem feito um excelente trabalho ultimamente. Você é muito mais rápido que seus colegas e o número de tarefas que descobriu como dominar é realmente incrível. Mas 20 vezes no último mês, encontramos reivindicações em seu relatório que você simplesmente inventou.

Supervisor: “Na verdade, chefe, esse funcionário tem certas peculiaridades e ele definitivamente continuará inventando as coisas. Então, sim, isso não vai desaparecer. Caramba, não posso nem prometer que esse trabalhador não inventará coisas com muito mais frequência”.

EXEC: “OK. Vamos ignorar isso. Mas meu entendimento é que ele ignorou suas instruções repetidamente e fez apenas o que ele queria. Podemos pelo menos fazê -lo parar de fazer isso?”

Supervisor: “Não. Isso é exatamente o que ele faz. Sabíamos que quando o contratamos”.

EXEC: “Muito bem. Mas em três ocasiões este mês, ele foi encontrado na parte restrita do prédio onde os trabalhadores precisam de uma liberação secreta. Você pode pelo menos fazê -lo cumprir nossas regras?”

Supervisor: “Não. E dado que sua taxa de licenciamento foi de US $ 5,8 bilhões este ano, investimos muito para voltar”.

EXEC: “É justo o suficiente. Continue.”

E, no entanto, é exatamente isso que tantas empresas estão fazendo hoje, e é por isso que um relatório de março da Administração Nacional de Aeronáutica e Espaço (NASA) dos EUA é tão importante.

O relatório da NASA constatou que Genai não poderia se basear em pesquisa crítica.

O “ponto” da realização da avaliação foi “filtrar sistemas que criam riscos inaceitáveis. Assim como não lançaríamos um sistema com o potencial de matar em serviço sem executar atividades apropriadas de análise de segurança e engenharia de segurança, não devemos adotar a tecnologia no oleoduto regulatório sem razões aceitáveis ​​para acreditar que é adequado para uso nas atividades críticas de segurança e engenharia e certificação”, disse o NASA. “Há razões para duvidar do LLMS como uma tecnologia para escrever ou revisar argumentos de garantia. LLMs são máquinas que BS, não máquinas que pensam, e o pensamento é precisamente a tarefa que deve ser automatizada para que a tecnologia melhore a segurança ou o menor custo”.

Em uma maravilhosa demonstração de lógica científica, o relatório se perguntou – em uma seção que deveria se tornar a leitura necessária para os CIOs sobre a cadeia alimentar de TI – para que os modelos Genai poderiam ser realmente usados.

“Vale a pena mencionar a óbvia alternativa potencial ao uso de pesquisas empíricas para estabelecer a aptidão para o uso de uma automação baseada em LLM proposta antes de usar, ou seja, colocando-a em prática e vendo o que acontece. Isso certamente já foi feito antes, especialmente na história inicial das indústrias como a aviação”, escreveram pesquisadores da NASA.

“Mas vale a pena fazer duas perguntas aqui: (1) Como isso pode ser justificado quando existem práticas existentes com as quais estamos mais familiarizados? E (2) Como saberíamos se estava funcionando? A primeira pergunta pode se transformar amplamente nas especificações de uma aplicação proposta e a tolerabilidade, onde a falha em potencial, que se baseia em que se possa levar para: se alguém possa achar que a tolerabilidade.

O relatório aponta então a contradição lógica nesse tipo de experimentação: “Mas isso deixa a segunda questão e levanta uma ruga: o monitoramento contínuo de sistemas menos críticos também é menos rigoroso do que para sistemas mais críticos. Assim, os próprios aplicações em que é possível arriscar são aqueles que produzem o feedback menos confiável sobre como os processos novos podem ter trabalhado.”

Também apontou a falha ao assumir que esse tipo de modelo saberia quando as circunstâncias tornariam uma decisão uma má idéia. “De fato, é em casos de canto que podemos esperar que a BS seja provavelmente errada ou enganosa. Como o LLM não raciocina dos princípios, ele não tem capacidade para analisar um caso e reconhecer os recursos que podem fazer com que o raciocínio usual não se referia a não se preparar um LLM de um llm que se manifestaria para que o AMO seja o que se manifestaria para que o A. Veículo típico de sedan ou utilitário leve e, portanto, esse raciocínio típico-por exemplo, sobre a adequação das classificações de proteção contra intrusão de água padrão da indústria-pode ser inaplicável. ”

Essas mesmas perguntas lógicas devem ser aplicadas a todas as empresas. Se a natureza da missão crítica do trabalho sensível impediria o uso de Genai-e se o baixo monitoramento envolvido no trabalho típico de baixo risco o tornará um ambiente inapto para experimentar-onde deve ser usado?

A analista do Gartner, Lauren Kornutick, concordou que essas podem ser decisões difíceis, mas os CIOs devem tomar as rédeas e agir como a “voz da razão”.

Os projetos de tecnologia corporativa em geral “podem falhar quando o negócio estiver desalinhado com as expectativas versus a realidade, então alguém precisa ser uma voz da razão na sala. (O CIO) precisa ajudar a impulsionar soluções e não apenas correr para a próxima coisa brilhante. E essas são algumas conversas muito desafiadoras”, disse Kornutick.

“Essas são coisas que precisam ir ao comitê executivo para decidir o melhor caminho a seguir”, disse ela. “Vamos assumir esse risco? Qual é a troca? Como esse risco é contra o potencial ROI? Eles devem trabalhar com os outros líderes para se alinhar sobre qual é a tolerância ao risco como uma equipe de liderança e depois trazer isso ao conselho de administração”.

Rowan Curran, analista sênior da Forrester, sugeriu uma abordagem mais tática. Ele sugere que os tomadores de decisão insistam que estejam muito mais envolvidos no início, quando cada unidade de negócios discute onde e como eles usarão a tecnologia Genai.

“Você precisa ser muito particular sobre o novo caso de uso que eles estão buscando”, disse Curran. “Empurre a governança muito mais para a esquerda; portanto, quando eles estão desenvolvendo o caso de uso em primeiro lugar, você os ajuda a determinar o risco e definir controles de governança de dados”.

Curran também sugeriu que as equipes deveriam considerar os dados da Genai como ponto de partida e nada mais. “Não confie nisso para a resposta exata.”

Confie demais em Genai, em outras palavras, e você pode estar vivendo o Dia dos Tolos de April todos os dias do ano.

Fonte: Computer World

Compartilhe este artigo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *