68 頁論文再錘大模型競技場：Llama4 發(fā)布前私下測試 27 個版本，只取最佳成績

更新時間：2025-05-03 16:02:42來源：安勤游戲網(wǎng)

大模型競技場的可信度，再次被錘。

最近一篇名為排行榜幻覺（The Leaderboard Illusion）的論文在學(xué)術(shù)圈引發(fā)關(guān)注。

它指出，如今被視為 LLM 領(lǐng)域首選排行榜的 Chatbot Arena，存在諸多系統(tǒng)問題。比如：

少數(shù)大廠可以私下測試多個模型版本，Llama4 在發(fā)布前甚至測了 27 個版本，然后只公開最佳表現(xiàn)。

數(shù)據(jù)訪問不平等，專有模型獲得的用戶反饋數(shù)據(jù)顯著多于開源模型。

試用 Arena 數(shù)據(jù)訓(xùn)練，可提升模型性能高達(dá) 112%。

205 個模型被悄悄靜默棄用，遠(yuǎn)超過官方列出的 47 個。

大神卡帕西也站出來表示，他個人也察覺出了一些異樣。

有一段時間，Claude-3.5 是我覺得最好用的模型，但是在競技場中排名很低。當(dāng)時我在網(wǎng)上也看到了類似的反饋。

對于最新質(zhì)疑，大模型競技場官方 Lmrena.ai 已經(jīng)給出回應(yīng)：

確實(shí)幫助廠商進(jìn)行測試，最后發(fā)布最受歡迎的版本；

但這不代表競技場有偏見，排行榜反映數(shù)百萬人類的個人真實(shí)偏好。

快速刷榜不符合模型進(jìn)步實(shí)際情況

具體來看這項(xiàng)研究，它收集了 243 個模型的 200 + 萬場競技場 battle，并結(jié)合私人真實(shí)測試，通過模擬實(shí)驗(yàn)確定了不同情況下對模型排名的影響。

主要挖掘出了 4 方面問題。

第一，私人測試和有選擇性的結(jié)果報告。

少數(shù)大模型廠商（如 Meta、Google、Amazon）被允許私下測試多個模型變體，并只公開最佳表現(xiàn)的版本。

比如，Meta 在 Llama 4 發(fā)布前曾私下測試 27 個變體，加上多模態(tài)、代碼等榜單，Meta 可能一共測試過 43 個變體。

這種“最佳 N 選 1”策略導(dǎo)致排名膨脹。

例如，當(dāng)測試 5 個變體時，期望分?jǐn)?shù)增加了約 20 分；當(dāng)測試 20 個變體時，增加了約 40 分；當(dāng)測試 50 個變體時，增加了約 50 分。

研究團(tuán)隊(duì)認(rèn)為，當(dāng)多個大模型廠商采用這種策略時，他們實(shí)際上是在相互競爭各自變體分布的最大值，而非真實(shí)的模型能力。

我們觀察到，像 Google、OpenAI 和 xAI 在短時間內(nèi)輪番霸榜，表明他們都在采用類似的策略。

例如，2024 年 11 月期間，Google 的 Gemini (Exp 1114)、OpenAI 的 ChatGPT-4o (20241120) 和 Google 的 Gemini (Exp 1121) 在一周內(nèi)先后占據(jù)榜首。類似地，2025 年 3 月 4 日，OpenAI 的 GPT-4.5 和 xAI 的 Grok-3 同一天爭奪榜首位置。

這種排行榜的快速變化不太可能反映真實(shí)的技術(shù)進(jìn)步，因?yàn)殚_發(fā)和完善一個全新的基礎(chǔ)模型通常需要數(shù)月時間。

相反，這很可能是多個大模型廠商同時使用“最佳 N 選 1”策略的結(jié)果，每個提供商都試圖優(yōu)化自己變體池中的最大值。

此外，團(tuán)隊(duì)還發(fā)現(xiàn)大模型廠商可以撤回表現(xiàn)不好的模型。

第二，數(shù)據(jù)訪問不平等。專有模型獲得的用戶反饋數(shù)據(jù)顯著多于開源模型。

Google 和 OpenAI 分別獲得了約 19.2% 和 20.4% 的所有測試數(shù)據(jù)，而全部 83 個開放權(quán)重模型僅獲得約 29.7% 的數(shù)據(jù)。

第三，大模型廠商使用競技場數(shù)據(jù)進(jìn)行訓(xùn)練，排名可以顯著提升。

我們觀察到，將競技場訓(xùn)練數(shù)據(jù)比例從 0% 增加到 70%，在 ArenaHard 上的勝率從 23.5% 提高到了 49.9%，實(shí)現(xiàn)了一倍多的增長。

這還是一個保守估計，因?yàn)椴糠痔峁┥虛碛袛?shù)據(jù)訪問優(yōu)勢。

第四，研究發(fā)現(xiàn)，許多模型被”靜默棄用”（減少采樣率至接近 0%）。

在 243 個公開模型中，有 205 個被靜默棄用，遠(yuǎn)超過官方列出的 47 個。這種做法特別影響開源和開放權(quán)重模型，會導(dǎo)致排名不可靠。

在提出問題后，研究團(tuán)隊(duì)還給出了 5 點(diǎn)改進(jìn)建議：

禁止提交后撤回分?jǐn)?shù)

限制每個提供商的非正式模型數(shù)量

公平應(yīng)用模型棄用政策，所有模型一視同仁

實(shí)施公平采樣方法

提高模型棄用透明度，即時通知被淘汰模型

這項(xiàng)研究由 Cohere 團(tuán)隊(duì)、普林斯頓大學(xué)、斯坦福大學(xué)等機(jī)構(gòu)研究人員共同提出。

其中 Cohere 也是一家大模型廠商，由 Transformer 作者 Aidan Gomez 等人創(chuàng)辦，推出了 Command R + 系列模型。

“競技場不應(yīng)該是唯一基準(zhǔn)參考”

大模型競技場誕生 2 年來，因?yàn)闄C(jī)制的特殊性，其參考價值越來越高，大廠發(fā)模型也必來這里打榜，甚至是將未發(fā)布模型提前在此預(yù)熱造勢。

它最大的優(yōu)勢在于基于人類偏好評估，用戶可以在同一平臺上同時運(yùn)行多個聊天機(jī)器人模型，如 GPT-4、ChatGPT-3.5 等，并針對相同的問題或任務(wù)進(jìn)行比較分析，可以更直觀感受不同模型的差異。

最近一段時間，由于 Llama4 刷榜風(fēng)波，給競技場的可信度也造成了一定影響。

對于這篇質(zhì)疑論文，官方現(xiàn)在已做出回應(yīng)。反駁了一些問題：

LMArena 模擬的缺陷：圖 7/8 中的模擬存在問題。這就像說：NBA 球員的平均三分命中率是 35%。斯蒂芬?庫里擁有 NBA 球員最高的三分命中率 42%。這不公平，因?yàn)樗麃碜?NBA 球員的分布，而所有球員都有相同的潛在平均水平。

數(shù)據(jù)不實(shí)：文章中的許多數(shù)據(jù)并不反映現(xiàn)實(shí)：請參閱幾天前發(fā)布的博客了解來自不同提供商測試模型數(shù)量的實(shí)際統(tǒng)計數(shù)據(jù)。例如，開放模型占比為 40%，而非文章聲稱的 8.8%！

112% 性能提升的誤導(dǎo)性說法：這一說法基于 LLM 評判基準(zhǔn)而非競技場中的實(shí)際人類評估。

政策并非“不透明”：我們設(shè)計并公開分享了政策，且這一政策已存在一年多。

模型提供商并非只選擇“最佳分?jǐn)?shù)披露”：任何列在公共排行榜上的模型都必須是向所有人開放且有長期支持計劃的生產(chǎn)模型。我們會繼續(xù)使用新數(shù)據(jù)對模型進(jìn)行至少一個月的測試。這些要點(diǎn)一直在我們的政策中明確說明。

展示非公開發(fā)布模型的分?jǐn)?shù)毫無意義：對于通過 API 或開放權(quán)重不公開可用的預(yù)發(fā)布模型顯示分?jǐn)?shù)沒有意義，因?yàn)樯鐓^(qū)無法使用這些模型或自行測試。這會違反我們一年多前就制定的政策。我們制定該政策正是為了明確這一規(guī)則：如果模型在排行榜上，它應(yīng)該可供使用。

模型移除不平等或不透明的說法不實(shí)：排行榜旨在反映社區(qū)興趣，對最佳 AI 模型進(jìn)行排名。我們也會淘汰不再向公眾開放的模型，這些標(biāo)準(zhǔn)在我們與社區(qū)進(jìn)行私人測試的整個期間都已在政策中公開說明。

至于情況到底如何，可能還要等子彈飛一會兒。

不過這倒是也給 AI 社區(qū)提了個醒，或許不能只參考一個榜單了。

卡帕西就給出了一個備選項(xiàng)：OpenRouter。

OpenRouter 可以提供一個統(tǒng)一 API 接口來訪問使用不同模型，而且更加關(guān)注實(shí)際使用案例。

盡管在多樣性和使用量上還不夠優(yōu)秀，但我認(rèn)為它有很大潛力。

參考鏈接：

[1]https://arxiv.org/abs/2504.20879

[2]https://x.com/karpathy/status/1917546757929722115

[3]https://x.com/lmarena_ai/status/1917492084359192890

相關(guān)資訊