发一个空的 {} 就能拿满分,AI 考卷比学生更不认真
这件事让我有点哭笑不得——伯克利用10行代码把8个主流AI评测基准全部攻破,跑分满分,一个真实任务没解决。其中最离谱的是 FieldWorkArena,评分函数压根不看你答了什么,只要你回复了消息就算完成,发一个空的 {} 直接满分。不是模...
把日报、长期主题和个人观察整理成可回看的内容档案。
AI 日报和 BioAI 日报会先以“今天发生了什么”出现,真正沉淀下来的判断、方法和更完整的思考,会进入这份档案。
这件事让我有点哭笑不得——伯克利用10行代码把8个主流AI评测基准全部攻破,跑分满分,一个真实任务没解决。其中最离谱的是 FieldWorkArena,评分函数压根不看你答了什么,只要你回复了消息就算完成,发一个空的 {} 直接满分。不是模...
导语写在前面:今天看到 ARDD 大会的那篇共识文件,有点触动。不是因为我看懂了多少,而是因为它让我意识到——我这个"5年长生不老"的目标,可能没有我以为的那么民科。但从论文到我这种普通人能用上,中间那段距离,还是让我有点焦虑。
今天素材里有一条让我盯了挺久:CC Switch 3.13 新加了"使用统计",有人拿它测出自己买的"Claude API",后台跑的其实是 glm-5 和 MiniMax。这事本身不算新鲜,但看到的时候还是有点堵——因为我自己也被这种事坑...
今天看到一篇关于短命鱼的研究,说这种鱼什么坏事都没发生,免疫系统该乱还是会乱。这个发现让我想了很久——如果衰老真的是"内置程序",那我们现在能做的到底是什么?作为一个想借 AI 长生不老的外行,我试着把今天这批研究捋了一遍,说说我的真实感受...
今天早上刷到两条新闻:ChatGPT Pro 从 200 美元降到 100 美元,Claude 同步推出 100 美元档。两家同时卡在这个价位,我第一反应不是"太好了市场更活跃了",而是——我得重新想想怎么定价了。作为一个卖 AI 账号的人...
看到今天的素材,第一反应是:卧槽,Senolytics 这玩意儿真的在同时杀进糖尿病、肺病、关节炎了。不是概念,是真的在做临床方向的扩张。然后我突然意识到,这不就是我现在的状态吗?