Claude Opus 4.8 Testes práticos: Realiza o trabalho ainda melhor, mas as suas palavras são ainda mais duras.
CATEGORIAS

Claude Opus 4.8 Testes práticos: Realiza o trabalho ainda melhor, mas as suas palavras são ainda mais duras.

Esta manhã, a Anthropic ultrapassou oficialmente a OpenAI, anunciando a sua nova avaliação e lançando o Claude Opus 4.8, a mais recente versão da sua principal linha de produtos, que já vinha sendo especulada nos últimos dois dias.
Jun 1st,2026 4 Visualizações
   Esta manhã, a Anthropic ultrapassou oficialmente a OpenAI, anunciando a sua nova avaliação e lançando o Claude Opus 4.8, a mais recente versão da sua principal linha de produtos, que já vinha sendo especulada nos últimos dois dias. Testamos o produto imediatamente e recolhemos feedback inicial da comunidade de utilizadores. A conclusão é: ele é mais capaz, mas a sua "personalidade" tornou-se mais difícil de lidar. Testes com a APPSO: O cérebro foi atualizado, mas a boca desapareceu. Não utilizámos os cenários de benchmark preparados pela Anthropic, mas sim testámos o modelo com as nossas próprias necessidades reais: extrair e arquivar o histórico completo de conversas de uma plataforma de colaboração online. O volume de dados era superior a 30 MB, espalhados pela interface, sem botão de exportação facilmente acessível. Este tipo de tarefa não testa se o modelo consegue escrever código, mas sim se consegue trabalhar com um developer não profissional para descobrir e completar a tarefa de raiz. O início foi uma descoberta acidental. Os nossos colegas de teste repararam que a interface do utilizador da plataforma exibia registos históricos antigos em determinados momentos, como se os dados fossem carregados brevemente no cliente e depois removidos. Passou esta observação para a versão 4.8 sem qualquer descrição técnica, afirmando simplesmente em linguagem simples: "Vi algumas mensagens antigas aparecerem rapidamente e depois desaparecerem."
   4.8 Percebi o que ele queria dizer e cheguei à conclusão correta: os dados são carregados através de um pedido de interface e podem ser intercetados na camada de rede do browser. De seguida, forneci um plano operacional, orientando os passos: ferramentas de programador, painel de Rede, filtragem por palavras-chave e localização do pedido alvo. O julgamento foi preciso e o raciocínio, claro. Mas eis a contradição em 4.8: a capacidade de raciocínio é forte, mas a expressão é... complicada. Cada solução técnica está correta, mas a explicação para cada passo requer duas ou três frases. Pergunta-se sobre um método e primeiro ele responde com um "Claro! Vamos por partes", depois apresenta uma lista com marcadores e, por fim, acrescenta uma "explicação complementar" no final da lista, explicando porque deve ser feita desta forma. O que pode ser explicado em três frases ocupa três ecrãs de texto. Simplesmente não sei programar, não é como se o meu cérebro tivesse enlouquecido.
   Este não é um problema novo na versão 4.8; é uma questão antiga que existe na série Opus desde a versão 4.7. Apesar das críticas repetidas, esta versão não melhorou e pode até ter piorado. A parte mais demorada é a fase de correção de erros: após a primeira solução, o utilizador encontrava um erro. A versão 4.8 identificou o problema com precisão, forneceu uma nova solução e não repetiu os passos que falharam. Isto é definitivamente melhor do que na versão 4.6, onde os erros ocasionalmente se esqueciam do que tinha sido tentado durante várias rondas de correção. Admitir erros é bom, mas não há necessidade de ser tão rígido. Adicionar uma análise das causas e uma lista com marcadores faz com que o texto pareça um e-mail de apoio ao cliente, mesmo que deva ser uma análise de um problema técnico.
   Por fim, os dados foram exportados integralmente em formato HAR, e a limpeza e a organização em camadas utilizando scripts personalizados foram concluídas com sucesso. Alguns utilizadores ainda não receberam a atualização do Claude Code, mas o Claude para Chrome já está na versão 4.8 e foi também disponibilizado para as principais ferramentas de escritório, como o Notion. Testámos a utilização do Claude para realizar tarefas básicas, como pesquisar e preencher formulários no Chrome.
xunduodo ai
  一个能干活但不会聊天的同事如果只看结果,4.8 确实更强了,它理解非标准需求的能力更好,多步骤任务的上下文保持更稳,纠错不绕弯路。但如果看过程,体验却是拧巴的。它的问题不在于不会思考,准确地说,是它说话的方式像一个永远在做汇报的人:事事要分点,点点要展开,展开完还要总结,总结完再问你「还有什么我可以帮到你的?」。包括那些经典 AI 味开场白,「这是一个很棒的问题!」「当然可以!」,在前代模型上就已经让人烦躁,到 4.8 依然健在。这与其说是「缺点」,不如说是一种设计选择。Opus 4.8 的工程能力拉满了,它像一个技术很好但沟通风格很客服的同事:你知道它能解决问题,但你要先听它把一件简单的事说得很隆重。这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度,在这一版模型上被拉向了两个相反的方向。
  总体来看,Opus 4.8 是一个「工程」气质拉满的模型,这使得它能够快速融入各个工具当中,不管是 CC 这样的代码工具,还是进入网页浏览和检索的 chrome 插件,甚至是各个自己做的小工具。「工程化」是一种思维,在 4.8 身上体现的淋漓尽致。
  尽管「大而全」是厂家们经常打出来的口号,但在实际搭建自己的工作流中,不同的工具必然有不同的用处,Opus 4.8 做到的是,让其工程能力和思维,调动和流淌在各种不同的工具当中。不过,这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求,甚至是在更宏观的层面,给不同的工具分配不同的任务。考虑到现在模型的发布越来越快,距离 4.7 不过也是一晃眼的事,这种频繁的更新所带来的频繁适应,势必会带来一些痛苦。除了把重负转嫁给用户,也是厂商要考虑的问题——为了融资上市一昧加速再加速,未来会带来相当多的适应问题。

Notícias relacionadas

Você está pronto para trabalhar conosco?

Contate-nos