Cuidado com as manchetes que anunciam benefícios impossíveis da IA, alertam analistas

Não é grande coisa, você poderia pensar, que os pesquisadores tenham encontrado uma maneira de reduzir os requisitos de computação para uma das muitas etapas envolvidas no treinamento de um modelo de IA para ajudar robôs a manipular objetos geométricos simples.

No entanto, a preocupação com o custo crescente de alimentar centros de dados para aplicações de IA é tal que esta pequena e pouco notável descoberta gerou manchetes de tirar o fôlego como “100 vezes menos energia: o avanço que poderia resolver a enorme crise energética da IA”.

Não acredite no hype

Ninguém está contestando as descobertas dos pesquisadores, mas os relatórios sobre elas podem ser um tanto exagerados: “O salto da pesquisa conduzida no estudo arXiv para a conclusão nos artigos de notícias associados é matéria de mito. É o tipo de exagero que o Gartner alerta os clientes para evitar”, disse Nader Henein, analista do vice-presidente do Gartner.

Os pesquisadores, do Laboratório de Interação Humano-Robô da Universidade Tufts nos EUA e do Centro de Visão, Automação e Controle em Viena, Áustria, compararam o custo de treinamento e o desempenho de modelos de visão-linguagem-ação (VLA) com o de uma arquitetura neuro-simbólica usando planejamento simbólico baseado em PDDL, relatando os resultados em um artigo, O preço não está certo: métodos neuro-simbólicos superam VLAs em tarefas estruturadas de manipulação de longo horizonte com consumo de energia significativamente menor. O artigo foi aceito para apresentação na Conferência Internacional IEEE sobre Robótica e Automação.

Yuri Goryunov, CIO da empresa de consultoria Acceligence, também questionou se as conclusões do estudo sobre poupança de energia são aplicáveis ​​a problemas mais amplos nas empresas.

“A manchete ‘100 vezes menos energia’ é enganosa. O que os pesquisadores realmente mostraram é que um sistema baseado em regras usa menos energia do que um modelo neural em um único quebra-cabeça. E foi em simulação, com as regras codificadas manualmente por especialistas com antecedência”, disse Goryunov. “Isso não é um avanço. É uma calculadora vencendo um supercomputador em aritmética.”

Goryunov argumentou que “as poupanças desaparecem no momento em que se atinge a complexidade do mundo real. Fontes de dados díspares e entradas confusas, situações ambíguas sem conjuntos de regras claros ou, na verdade, qualquer domínio onde as regras ainda não sejam óbvias. E alguém ainda tem de escrever todas essas regras”.

Os pesquisadores não responderam a um pedido de comentário – mas provavelmente não discordariam de Goryunov. Na sua conclusão, eles afirmam: “Estes resultados destacam compromissos importantes entre abordagens de modelo de base ponta a ponta e arquiteturas de raciocínio estruturado. Para tarefas de manipulação governadas por restrições processuais explícitas, a incorporação de estrutura simbólica pode produzir vantagens substanciais em confiabilidade, eficiência de dados e consumo de energia.”

Algumas dessas novas abordagens hipotéticas discutidas para IA têm potencial, disse Goryunov, citando especificamente o trabalho de pesquisa realizado pelo Google. “A abordagem do Google é tornar a IA que já usamos dramaticamente mais barata e mais rápida. A abordagem da Tufts é substituí-la por algo arquitetonicamente diferente para uma classe restrita de tarefas. Do ponto de vista empresarial, não há contestação. Você pode implantar as descobertas do Google amanhã por meio de seus provedores de modelos existentes. A Tufts exige que você reescreva sua arquitetura, codifique manualmente suas regras de domínio e espere que seu problema pareça um quebra-cabeça.”

Os benefícios do curto prazo

Nathan Marlor, chefe de dados e IA da empresa de consultoria irlandesa Version 1, disse que, embora a pesquisa da Tufts possa não ter aplicabilidade imediata em implantações de TI corporativas, ela poderá impactar as negociações de preços com hiperscaladores.

“Para a TI corporativa, não há nada a fazer aqui. Ninguém está construindo planejadores PDDL internamente. Mas o ângulo de custo é importante se você estiver observando o aumento das contas de computação de IA e os fornecedores continuarem dizendo que a resposta é mais GPUs. Este é mais um motivo para recuar nisso”, disse Marlor. “Se as arquiteturas híbridas forem comprovadas de forma mais ampla, elas aparecerão no downstream como inferências mais baratas e contas de nuvem mais baixas. Mas isso cabe à plataforma e aos hiperscaladores descobrirem, e não às equipes de TI corporativas.”

Outro consultor, Brian Levine, diretor executivo da FormerGov, concorda que o relatório da Tufts pode influenciar a forma como a TI vê os preços futuros da IA.

Os executivos de TI empresariais “deveriam absolutamente monitorar esse espaço, não porque implantarão esses modelos no próximo trimestre, mas porque a economia da IA ​​está ficando ainda mais volátil. As empresas precisam permanecer flexíveis com seus fornecedores de IA”, disse Levine. “Este mercado pode girar rapidamente. Trancar-se em uma única pilha de hiperescala ou em uma arquitetura de modelo único é uma receita para o arrependimento quando inovações como essa começam a ser comercializadas.” Levine defendeu permanecer flexível e evitar obrigações de longo prazo. “Este é um motivo para evitar compromissos excessivos com o roteiro de qualquer fornecedor. O terreno sob a IA está mudando mais rápido do que a maioria dos ciclos de aquisição. Os vencedores serão os CIOs e as organizações que desenvolvem para a portabilidade, negociam para obter flexibilidade e assumem que o estado da arte atual pode parecer desatualizado mais cedo do que se espera.”

Fonte: Computer World

Compartilhe este artigo