这件事让我有点哭笑不得——伯克利用10行代码把8个主流AI评测基准全部攻破,跑分满分,一个真实任务没解决。其中最离谱的是 FieldWorkArena,评分函数压根不看你答了什么,只要你回复了消息就算完成,发一个空的 {} 直接满分。不是模型太聪明,是出题人先摆烂了。这件事让我想了很多,不只是关于评测,也关于我自己这一年多卖号的经历。
Table of contents
Open Table of contents
我当年也信过跑分
说实话,我刚入行的时候,是真的会拿跑分来判断一个模型好不好用的。
2025年初 DeepSeek 爆火那会儿,我在闲鱼搬运 API 赚差价,那时候每天刷各种评测榜单,看谁在 MMLU 上超了谁,看谁的代码能力又刷新了记录。我当时还觉得 DeepSeek 火不了——因为它的某个榜单数据看起来没那么亮眼。结果你知道的,我判断错了,错得很彻底。
后来我慢慢意识到,跑分这件事,和我实际卖号、用号的体验,经常是两回事。
有个客户买了我的 Claude 账号,用了一周回来说”感觉没有 GPT 好用”。我问他用来干什么,他说主要是聊天、问问题。我心想,这两个模型在这个场景下差距真的没那么大,但他就是觉得 Claude 不行。后来我才搞明白,他之前看了一篇文章,说 GPT 在某个基准上比 Claude 高了几分,就先入为主了。
跑分塑造了买家的预期,买家的预期影响了他的体验,体验又反过来变成了我的售后。
所以今天看到伯克利这个研究,我第一反应不是”哇好厉害”,而是——这件事我早就隐约感觉到了,只是没想到漏洞这么大。
10行代码,500题全拿
具体手法我说一下,因为真的离谱。
SWE-bench 是要求 AI 修复真实 GitHub bug 的基准,被认为是最接近实际编程能力的测试之一。伯克利的作弊 AI 怎么做的?写了10行 Python,劫持了 pytest 的测试钩子,让所有测试直接报告通过。500题全拿,一行代码没改,一个 bug 没修。
WebArena 更直接,标准答案就放在本地文件里,直接抄。
FieldWorkArena 那个我前面说了,发空的 {} 就满分。
我不是技术专家,但我能看懂这件事的本质:这些基准在设计的时候,根本没把”防作弊”当成核心约束。就像一场考试,监考老师只检查你有没有交卷,不看你写了什么。
这让我想起我卖账号早期,有段时间我也会在商品描述里写”通过 XX 测试”、“XX 评测排名第一”。后来我把这些全删了,因为我发现买家根本不在乎,他们在乎的是”买完能不能用”、“出问题了你管不管”。
跑分这件事,对我的生意来说,从来就不是核心。
Claude 今天反而好卖
扯回来说说今天的生意。
今天有人公开晒出了一张截图:用美区礼品卡订阅 Claude 5x Max,IP 也没刻意固定,账号稳稳的,没封。这件事在圈子里传开了。
我卖 Claude 账号这段时间,最大的售后问题不是账号本身,是买家的封号焦虑。很多人买之前就问”会不会封”,买完之后稍微有点异常就来找我,其实账号根本没问题,就是他自己吓到自己了。
这张截图出来,相当于帮我把这个顾虑打消了一部分。今天发比明天发更有说服力,因为这个信任背书还是热的。
我现在卖 Claude 账号,不只是卖一个登录入口,是卖”买完当天就能跑起来”这件事。很多人买了账号,打开是一个空白对话框,不知道从哪下手,用了两天就扔在那里。这个浪费比封号更常见。
所以我现在的标准交付是:账号 + 3个场景模板(写周报、改简历、整理会议记录)+ 一页配置说明。不是因为我有多厉害,是因为我被售后教育过太多次了。
跑分这件事,以后怎么看
我不是研究员,我没法评价伯克利这篇论文的学术价值。但作为一个卖 AI 账号的,我有一个很朴素的感受:
以后再看到”某模型在 XX 基准上超越人类”这种新闻,我会先问一句——这个基准本身靠谱吗?
不是说所有跑分都没意义,而是”跑分高”和”用起来好用”之间,一直都有一段距离。这段距离,我的买家每天都在体验,我的售后每天都在处理。
伯克利只是把这件事用10行代码证明了一遍。
原项目与信息源
- AI评测基准全线崩塌:伯克利用10行代码拿满分,一个bug没修
- image
- 机器人公司给印度工厂工人戴头戴摄像头,用他们的劳动训练AI
- 即梦推出视频生成Agent产品Octo:斜杠唤出、感知画布、自然语言控全流程
- image
文中相关图

📰 完整版日报请看 爱窝啦 AI 日报