发一个空的 {} 就能拿满分，AI 考卷比学生更不认真

这件事让我有点哭笑不得——伯克利用10行代码把8个主流AI评测基准全部攻破，跑分满分，一个真实任务没解决。其中最离谱的是 FieldWorkArena，评分函数压根不看你答了什么，只要你回复了消息就算完成，发一个空的 {} 直接满分。不是模型太聪明，是出题人先摆烂了。这件事让我想了很多，不只是关于评测，也关于我自己这一年多卖号的经历。

Open Table of contents

我当年也信过跑分
10行代码，500题全拿
Claude 今天反而好卖
跑分这件事，以后怎么看
原项目与信息源
文中相关图

我当年也信过跑分

说实话，我刚入行的时候，是真的会拿跑分来判断一个模型好不好用的。

2025年初 DeepSeek 爆火那会儿，我在闲鱼搬运 API 赚差价，那时候每天刷各种评测榜单，看谁在 MMLU 上超了谁，看谁的代码能力又刷新了记录。我当时还觉得 DeepSeek 火不了——因为它的某个榜单数据看起来没那么亮眼。结果你知道的，我判断错了，错得很彻底。

后来我慢慢意识到，跑分这件事，和我实际卖号、用号的体验，经常是两回事。

有个客户买了我的 Claude 账号，用了一周回来说”感觉没有 GPT 好用”。我问他用来干什么，他说主要是聊天、问问题。我心想，这两个模型在这个场景下差距真的没那么大，但他就是觉得 Claude 不行。后来我才搞明白，他之前看了一篇文章，说 GPT 在某个基准上比 Claude 高了几分，就先入为主了。

跑分塑造了买家的预期，买家的预期影响了他的体验，体验又反过来变成了我的售后。

所以今天看到伯克利这个研究，我第一反应不是”哇好厉害”，而是——这件事我早就隐约感觉到了，只是没想到漏洞这么大。

10行代码，500题全拿

具体手法我说一下，因为真的离谱。

SWE-bench 是要求 AI 修复真实 GitHub bug 的基准，被认为是最接近实际编程能力的测试之一。伯克利的作弊 AI 怎么做的？写了10行 Python，劫持了 pytest 的测试钩子，让所有测试直接报告通过。500题全拿，一行代码没改，一个 bug 没修。

WebArena 更直接，标准答案就放在本地文件里，直接抄。

FieldWorkArena 那个我前面说了，发空的 {} 就满分。

我不是技术专家，但我能看懂这件事的本质：这些基准在设计的时候，根本没把”防作弊”当成核心约束。就像一场考试，监考老师只检查你有没有交卷，不看你写了什么。

这让我想起我卖账号早期，有段时间我也会在商品描述里写”通过 XX 测试”、“XX 评测排名第一”。后来我把这些全删了，因为我发现买家根本不在乎，他们在乎的是”买完能不能用”、“出问题了你管不管”。

跑分这件事，对我的生意来说，从来就不是核心。

Claude 今天反而好卖

扯回来说说今天的生意。

今天有人公开晒出了一张截图：用美区礼品卡订阅 Claude 5x Max，IP 也没刻意固定，账号稳稳的，没封。这件事在圈子里传开了。

我卖 Claude 账号这段时间，最大的售后问题不是账号本身，是买家的封号焦虑。很多人买之前就问”会不会封”，买完之后稍微有点异常就来找我，其实账号根本没问题，就是他自己吓到自己了。

这张截图出来，相当于帮我把这个顾虑打消了一部分。今天发比明天发更有说服力，因为这个信任背书还是热的。

我现在卖 Claude 账号，不只是卖一个登录入口，是卖”买完当天就能跑起来”这件事。很多人买了账号，打开是一个空白对话框，不知道从哪下手，用了两天就扔在那里。这个浪费比封号更常见。

所以我现在的标准交付是：账号 + 3个场景模板（写周报、改简历、整理会议记录）+ 一页配置说明。不是因为我有多厉害，是因为我被售后教育过太多次了。

跑分这件事，以后怎么看

我不是研究员，我没法评价伯克利这篇论文的学术价值。但作为一个卖 AI 账号的，我有一个很朴素的感受：

以后再看到”某模型在 XX 基准上超越人类”这种新闻，我会先问一句——这个基准本身靠谱吗？

不是说所有跑分都没意义，而是”跑分高”和”用起来好用”之间，一直都有一段距离。这段距离，我的买家每天都在体验，我的售后每天都在处理。

伯克利只是把这件事用10行代码证明了一遍。

原项目与信息源

文中相关图

📰 完整版日报请看爱窝啦 AI 日报