Resumo criado por Smart Answers AI
Resumindo:
- PCWorld relata que Claude Opus 4.8 da Anthropic se concentra em melhorar a honestidade da IA, ensinando o modelo a admitir quando falta informação.
- O modelo alcançou pontuações quase perfeitas em benchmarks de honestidade para questões de codificação e exibiu consciência de avaliação durante os testes.
- O Opus 4.8 representa um passo significativo para tornar os sistemas de IA mais transparentes sobre as suas limitações e incertezas de conhecimento.
A honestidade é um ponto-chave até mesmo nos LLMs mais poderosos. Não é que eles estejam mentindo intencionalmente para você; em vez disso, eles lhe dirão coisas sobre as quais não têm 100% (ou mesmo 50%) de certeza.
Com o Opus 4.8, seu mais recente modelo Claude, a Anthropic diz que tornou Claude mais honesto ao dizer o que não sabe ou se tem um baixo nível de confiança no que está lhe dizendo.
Lançado quinta-feira, Claude Opus 4.8 é não Claude Mythos Preview, o novo modelo de “fronteira” da Anthropic que é tão poderoso que apenas um punhado de “parceiros de confiança” foi autorizado a testá-lo por razões de segurança. Ainda não há uma data de lançamento sólida para Claude Mythos.
Chegando cerca de seis semanas após Claude Opus 4.7, o Opus 4.8 assume como o modelo mais poderoso da Anthropic em disponibilidade geral e, na maior parte, marca uma melhoria “modesta” em relação ao seu antecessor, enquanto o Mythos Preview o supera com folga em tarefas de segurança cibernética, diz a Anthropic.
Mas de acordo com os benchmarks da empresa, o Opus 4.8 está no topo em uma categoria chave: honestidade, com o modelo obtendo pontuações “quase perfeitas” quando se trata de admitir que não sabe a resposta para uma questão de codificação.
Mesmo o poderoso Mythos Preview não conseguiu superar o Opus 8.7 neste teste de honestidade em particular, ficando em segundo lugar, enquanto o Opus 4.7 terminou em um distante quarto lugar.
Claro, esses são os benchmarks da Antrópico que estamos vendo; teremos que esperar por testes de terceiros para obter resultados mais objetivos, sem mencionar os relatórios da natureza. Pretendo dar uma volta no Opus 4.8 nos próximos dias.
A Anthropic também compartilhou algumas “sugestões relacionadas à conscientização da avaliação” – o que significa que o Opus 4.8 mostrou sinais de que sabia que estava sendo testado – ao mesmo tempo em que observou uma “tendência do modelo para raciocinar sobre como seus resultados serão avaliados”. Essas preocupações não são exclusivas do Opus 4.8; na verdade, os modelos “de fronteira” mais recentes muitas vezes parecem saber quando estão sendo cutucados e cutucados.
Ainda assim, é bom ver que modelos como o Opus 4.8 estão diminuindo o BS, pelo menos no papel. Esperançosamente, isso manterá esse nível de honestidade na prática.
Fonte: PC World











