A IA está pronta para assumir a programação Python, mas não muito mais

Eles disseram que o benchmark contém 310 ambientes de trabalho em 52 domínios profissionais, incluindo codificação, cristalografia, genealogia e notação de partituras musicais. Cada ambiente consiste em documentos reais totalizando cerca de 15 mil tokens e de cinco a 10 tarefas de edição complexas que um usuário pode solicitar que um LLM execute.

E declararam no resumo do artigo: “Nossa análise mostra que os LLMs atuais não são delegados confiáveis: eles introduzem erros esparsos, mas graves, que corrompem silenciosamente os documentos, agravando-se ao longo da interação”.

Esses erros são significativos, disseram eles. “As descobertas mostram que os LLMs atuais introduzem erros substanciais ao editar documentos de trabalho, com modelos de fronteira (Gemini 3.1 Pro, Claude 4.6 Opus e GPT 5.4) perdendo em média 25% do conteúdo do documento em 20 interações delegadas e uma degradação média em todos os modelos de 50%.”

Exercício de referência recebe aprovação

Brian Jackson, principal diretor de pesquisa do Info-Tech Research Group, achou as descobertas muito interessantes. “Colocar uma lista de LLMs à prova em diferentes domínios de trabalho produz muitos insights úteis”, disse ele. “Acho que esse tipo de exercício de benchmark pode ser útil para desenvolvedores corporativos que buscam aproveitar a IA de agência para automatizar fluxos de trabalho específicos e compreender os limites do que pode ser alcançado.”

Fonte: Computer World

Compartilhe este artigo