LLM 应试

20 Feb, 2026

Simon Willison 拿「SVG 画一只鹈鹕骑自行车」当了好几年的 LLM 非正式测试，理由很朴素：这件事够难、够冷门、不太可能被刻意训练。他的防线也简单——如果哪天某个模型突然画得很好，就换成青蛙骑车、长颈鹿开车，看它是不是只在鹈鹕上过拟合。结果今天谷歌发布 Gemini 3.1 Pro 的时候，宣传视频里不光有鹈鹕骑车，还有青蛙骑高轮车、长颈鹿开小车、鸵鸟穿轮滑——连他预备的验证项都一并覆盖了。

这几乎是 Goodhart's Law 的教科书演示：当一项指标成为目标时，它就不再是一项好的指标了。Simon 的测试有效，恰恰因为它非正式、不起眼；当谷歌 Gemini 项目负责人 Jeff Dean 亲自下场回应，它作为考题的价值就已经塌缩了。而所有公开的 benchmark 都面临同样的命运——Arena（曾经的 LMArena）Leaderboard 高分模型就真的高能吗？或许越来越多的人已经不再相信这一点。

❧