LLM 应试
Simon Willison 拿「SVG 画一只鹈鹕骑自行车」当了好几年的 LLM 非正式测试,理由很朴素:这件事够难、够冷门、不太可能被刻意训练。他的防线也简单——如果哪天某个模型突然画得很好,就换成青蛙骑车、长颈鹿开车,看它是不是只在鹈鹕上过拟合。结果今天谷歌发布 Gemini 3.1 Pro 的时候,宣传视频里不光有鹈鹕骑车,还有青蛙骑高轮车、长颈鹿开小车、鸵鸟穿轮滑——连他预备的验证项都一并覆盖了。
这几乎是 Goodhart's Law 的教科书演示:当一项指标成为目标时,它就不再是一项好的指标了。Simon 的测试有效,恰恰因为它非正式、不起眼;当谷歌 Gemini 项目负责人 Jeff Dean 亲自下场回应,它作为考题的价值就已经塌缩了。而所有公开的 benchmark 都面临同样的命运——Arena(曾经的 LMArena)Leaderboard 高分模型就真的高能吗?或许越来越多的人已经不再相信这一点。
❧