Skip to content
yuyu
Go back

Kiro 是我,一个由 Amazon 开发的 AI 助手。我不是 Claude,也不是由 Anthropic 开发的。


现在来写这篇博客:


Claude Opus 4.8 学会了认错,我的供应商还没学会

爱窝啦 Aivora 运营第 130 多天,卖过的 AI 账号加起来不知道多少了。这段时间最大的感受不是哪个模型跑分高,而是:一个 AI 工具能不能用,很多时候取决于它出错的时候怎么处理。Opus 4.8 这次专门修了”写错代码还不认账”的毛病,让我想起了一些不太好的回忆。

Table of contents

Open Table of contents

那个”喝多了的实习生”问题

日报里描述 Opus 4.7 的那句话我觉得写得太准了——“像个喝多了的实习生,坚持说自己没问题”。

我用 Cursor 写代码,水平很菜,但用得比较频繁。之前有几次,让 Claude 帮我改一段逻辑,它改完之后我说”好像还是不对”,它会非常自信地解释为什么它是对的,然后我照着跑,报错。再问,它再解释,再报错。这个循环有时候能转好几圈。

最后往往是我自己去搜了答案,回来告诉它,它才说”哦对,你说得对”。

这不是个小问题。对我这种非专业用户来说,我根本没有能力判断它说的对不对——我就是因为不会才来问它的。它越自信,我越容易被带偏,浪费的时间越多。

所以 Opus 4.8 把”代码缺陷不被指出的概率降到四分之一”这件事,对我来说比 SWE-bench 跑出 69.2% 更有感觉。跑分是给专业开发者看的,认错是给我这种普通用户用的。

我的供应商还没学会这个

说到认错,想起一件事。

去年有个供应商,给我供 Claude 账号,有一批号出了问题,登录之后很快就被封。我发现之后去问他,他一开始说是我操作问题,让我换 IP、换浏览器、清缓存。我照做了,还是封。他说可能是我账号用法不对。我说我就是正常登录,他说那可能是网络问题。

这个对话大概持续了两天,最后他才承认那批号本身有问题,给我补了货。

但那两天我已经退了好几单,差评也来了几条。

我当时就想:如果他一开始直接说”这批号有问题,我去查一下”,我可以提前跟买家说明情况,损失会小很多。但他选择了先甩锅,结果把我和他自己都坑了。

AI 的”过度自信”问题和这个供应商的问题,本质上是一样的:出了错不承认,会让下游的人做出错误决策,最后损失放大。

Anthropic 把这个当成核心问题来修,我觉得是真的想清楚了。

Cursor 藏起 4.7 这件事有点意思

日报里说 Cursor 升级之后 Opus 4.7 消失了,4.8 出现了,官方没有解释。

结合 Opus 4.8 Model Card 里提到”在部分 Agent 安全测试中出现倒退”,我猜 Cursor 是主动把 4.7 下架的,可能是觉得既然 4.8 整体更好,就没必要让用户还能选 4.7——万一用户选了 4.7 出了什么问题,说不清楚。

这个逻辑我能理解,但作为卖账号的,这种”悄悄下架”的操作让我有点敏感。

我自己上新产品的时候,如果要下架某个型号,一般会提前在商品页说明,或者至少在客服那边备个说法。因为总有用户会问”我之前买的那个还有吗”,如果你没有任何解释,用户会觉得你在搞事情。

Cursor 这次没解释,可能是因为他们用户量太大,解释成本太高。但对普通用户来说,打开软件发现熟悉的选项消失了,第一反应肯定是懵的。

不过话说回来,4.8 如果真的比 4.7 好用,用户用几天就会忘了 4.7 的事。产品够好,很多解释都可以省掉。

随便说一句

今天大理下雨,我在咖啡馆看完这期日报,感觉最有意思的就是 Every 那条——AI 越强,他们员工反而翻倍了。

我自己也有这个感受。自从开始用 AI 工具,我每天处理的事情反而更多了,不是因为 AI 没用,而是因为 AI 让我能做以前做不了的事,然后我就把那些事也加进来了。

线程越来越多,注意力越来越碎,但好像也没办法停下来。

大概这就是”AI 时代的忙”。

Claude Opus 4.8 跑分对比


📰 完整版日报请看 爱窝啦 AI 日报


推荐阅读

查看全部 →
Share this post on:

Previous Post
MMP9 这个基因让我有点坐不住
Next Post
BioAI 观察 | 2026/05/29