Z.ai revela o GLM-5.1, permitindo que agentes de codificação de IA funcionem de forma autônoma por horas

A empresa chinesa de IA Z.ai lançou o GLM-5.1, um modelo de codificação de código aberto que afirma ter sido desenvolvido para engenharia de software de agente. O lançamento ocorre no momento em que os fornecedores de IA vão além das ferramentas de codificação do estilo preenchimento automático em direção a sistemas que podem lidar com tarefas de software por períodos mais longos com menos intervenção humana.

Z.ai disse que o GLM-5.1 pode sustentar o desempenho ao longo de centenas de iterações, uma capacidade que ele argumenta que o diferencia dos modelos que perdem eficácia em sessões mais longas.

Como exemplo, a empresa disse que o GLM-5.1 melhorou uma tarefa de otimização de banco de dados vetorial em mais de 600 iterações e 6.000 chamadas de ferramenta, atingindo 21.500 consultas por segundo, cerca de seis vezes o melhor resultado alcançado em uma única sessão de 50 turnos.

Em uma nota de pesquisa, Z.ai disse que o GLM-5.1 superou seu antecessor, GLM-5, em vários benchmarks de engenharia de software e mostrou força particular na geração de repositórios, resolução de problemas baseada em terminal e otimização repetida de código. A empresa disse que o modelo obteve pontuação de 58,4 no SWE-Bench Pro, em comparação com 55,1 no GLM-5, e acima das pontuações listadas para GPT-5.4 da OpenAI, Opus 4.6 da Anthropic e Gemini 3.1 Pro do Google nesse benchmark.

O GLM-5.1 foi lançado sob a licença MIT e está disponível através de suas plataformas de desenvolvedores, com pesos de modelo também publicados para implantação local, disse a empresa. Isso pode agradar às empresas que procuram mais controlo sobre a forma como essas ferramentas são implementadas.

Agentes de codificação de longa duração

Z.ai afirma que o desempenho de longa duração é um diferencial importante para a empresa quando comparado a modelos que perdem eficácia em sessões prolongadas.

Os analistas dizem que isso ocorre porque muitos modelos atuais ainda estagnam ou flutuam após um número relativamente pequeno de voltas, limitando sua utilidade em tarefas de software estendidas e de várias etapas.

Pareekh Jain, CEO da Pareekh Consulting, disse que a indústria está agora indo além das ferramentas que podem responder a solicitações em direção a sistemas que podem realizar tarefas mais longas com menos supervisão.

A questão, disse Jain, não é mais: “O que posso perguntar a esta IA?” mas, “O que posso atribuir a ele nas próximas oito horas?”

Para as empresas, isso aumenta a perspectiva de atribuir um ticket a um agente pela manhã e receber uma solução otimizada no final do dia, depois de executar centenas de experimentos e traçar o perfil do código.

“Esse recurso se alinha às necessidades reais, como grandes refatoradores, programas de migração e resolução contínua de incidentes”, disse Charlie Dai, vice-presidente e analista principal da Forrester. “Isto sugere que os agentes autónomos de longa duração estão a tornar-se mais práticos, desde que as empresas incluam mecanismos de governação, monitorização e escalonamento para gerir o risco.”

O apelo do código aberto cresce

O lançamento do GLM-5.1 sob a licença do MIT pode ser significativo, especialmente para empresas em setores regulamentados ou sensíveis à segurança.

“Isso é importante de quatro maneiras principais”, disse Jain. “Primeiro, o custo. O preço é muito mais baixo do que os modelos premium, e a auto-hospedagem permite que as empresas controlem as despesas em vez de pagar por uso. Em segundo lugar, a governança de dados. Código e dados confidenciais não precisam ser enviados para APIs externas, o que é crítico em setores como finanças, saúde e defesa. Terceiro, personalização. As empresas podem adaptar o modelo às suas próprias bases de código e ferramentas internas sem restrições.”

O quarto fator, segundo Jain, é o risco geopolítico. Embora o modelo seja de código aberto, as suas ligações a infraestruturas e entidades chinesas ainda podem suscitar preocupações de conformidade para algumas empresas dos EUA.

Dai disse que a licença do MIT torna mais fácil para as empresas executarem o modelo em seus próprios sistemas, ao mesmo tempo que o adaptam aos requisitos internos e às políticas de governança. “Para muitos compradores, isso torna o GLM-5.1 uma opção estratégica viável junto com modelos comerciais, especialmente onde as restrições regulatórias, a sensibilidade de IP ou o controle de plataforma de longo prazo são mais importantes”, disse Dai.

Credibilidade de referência

Z.ai citou três benchmarks: SWE-Bench Pro, que testa tarefas complexas de engenharia de software; NL2Repo, que mede a geração de repositórios; e Terminal-Bench 2.0, que avalia a resolução de problemas do mundo real baseada em terminais.

“Esses benchmarks são projetados para testar as capacidades avançadas de codificação dos agentes de codificação, portanto, superar esses benchmarks reflete um forte desempenho de codificação, como confiabilidade no planejamento até a execução, retrabalho menos imediato e entrega mais rápida”, disse Lian Jye Su, analista-chefe da Omdia. “No entanto, eles ainda estão distantes das realidades empresariais típicas.”

Su disse que os benchmarks públicos ainda não capturam a confusão das bases de código proprietárias, sistemas legados e fluxos de trabalho de revisão de código. Ele acrescentou que os resultados de benchmark vêm de configurações controladas que diferem da produção, embora a lacuna esteja diminuindo à medida que mais equipes adotam configurações de agentes.

Fonte: Computer World

Compartilhe este artigo