Tecnologia

A IA está pronta para assumir a programação Python, mas não muito mais

Redação

maio 13, 2026

Eles disseram que o benchmark contém 310 ambientes de trabalho em 52 domínios profissionais, incluindo codificação, cristalografia, genealogia e notação de partituras musicais. Cada ambiente consiste em documentos reais totalizando cerca de 15 mil tokens e de cinco a 10 tarefas de edição complexas que um usuário pode solicitar que um LLM execute.

E declararam no resumo do artigo: “Nossa análise mostra que os LLMs atuais não são delegados confiáveis: eles introduzem erros esparsos, mas graves, que corrompem silenciosamente os documentos, agravando-se ao longo da interação”.

Esses erros são significativos, disseram eles. “As descobertas mostram que os LLMs atuais introduzem erros substanciais ao editar documentos de trabalho, com modelos de fronteira (Gemini 3.1 Pro, Claude 4.6 Opus e GPT 5.4) perdendo em média 25% do conteúdo do documento em 20 interações delegadas e uma degradação média em todos os modelos de 50%.”

Exercício de referência recebe aprovação

Brian Jackson, principal diretor de pesquisa do Info-Tech Research Group, achou as descobertas muito interessantes. “Colocar uma lista de LLMs à prova em diferentes domínios de trabalho produz muitos insights úteis”, disse ele. “Acho que esse tipo de exercício de benchmark pode ser útil para desenvolvedores corporativos que buscam aproveitar a IA de agência para automatizar fluxos de trabalho específicos e compreender os limites do que pode ser alcançado.”

Fonte: Computer World

Compartilhe este artigo

Ao clicar no botão Inscrever-se, você confirma que leu nossa Política de Privacidade.

SAIBA MAIS

A IA está pronta para assumir a programação Python, mas não muito mais

Exercício de referência recebe aprovação

Compartilhe este artigo

Inscrever-se

Últimas Notícias

Brasil é excluído da lista da União Europeia para venda de carnes para o bloco

Apesar do fim da ‘taxa das blusinhas’, ICMS sobre compras internacionais ainda vale

Mães e pais na pós-graduação vão ter prorrogação de período de bolsas

Maersk diz que ainda evita trânsito por Ormuz e cita volatilidade no Oriente Médio

Oposição chama de eleitoreiro o fim da taxa das blusinhas

Setor hoteleiro critica proposta que cria três opções de diárias em hotéis – Notícias

Categorias em destaque