包阅导读总结

1. 关键词：LLM、OpenLLM 排行榜、模型评估、基准、Hugging Face

2. 总结：

本文深度访谈了 OpenLLM 排行榜维护者 Clémentine Fourrier，探讨了 LLM 评估基准的相关问题，包括排行榜的优势、模型评估的挑战、LLM 作为评判者的局限性等，还介绍了排行榜的起源、新变化以及基准的演进。

3. 主要内容：

– 排行榜的优势

– 提供更可重复和标准化的评估方法

– 解决基准可重复性问题，强调一致性评估重要性

– 模型评估挑战

– 模型过拟合和数据污染导致基准分数膨胀

– OpenLLM v2 引入新基准和更严格标准应对

– LLM 作为评判者的局限性

– 存在模式坍缩和位置偏见等问题

– 建议使用开源 LLM 确保可重复性，进行排名而非评分

– 从基准到排行榜

– 模型发展快于基准更新，基准存在陈旧和不可重复问题

– OpenLLM 排行榜迅速成为开源 LLM 性能事实标准

– 新版基于 6 个基准，带来明显的排名变化

– 嘉宾经历

– 从地质工程师转向计算机科学，加入 Hugging Face

– 负责 OpenLLM 排行榜的起源和发展

– 基准的诞生与演进

– V1 基于强化学习团队研究选择

– V2 与社区互动，根据需求增加数据集

– 人类评估的问题

– 自动化基准公平可重复但评估范围有限

– 人类评估分直觉、Arena 类型和专家评估

– 直觉评估必要，Arena 是社会学实验但有局限性

– OpenLLM 排行榜 v2 新变化

– 纠正数据科学问题，选择更好基准

– 如 IFEval 只评估指令遵循，GPQA 为博士水平复杂问题

思维导图：

文章地址：https://mp.weixin.qq.com/s/PU3RSPGVvlvQLG5kFA1S_Q

文章来源：mp.weixin.qq.com

作者：Latent??Space

发布时间：2024/7/30 4:08

语言：中文

总字数：15619字

预计阅读时间：63分钟

评分：82分

标签：LLM评估基准,模型评估,OpenLLM排行榜,Hugging Face,人工智能进展

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

Z Highlights:

排行榜的优势：Hugging Face OpenLLM排行榜维护者Clémentine Fourrier 强调，排行榜提供了更可重复和标准化的模型评估方法，相较于 Arena 和 LLM 作为评判者，解决了基准可重复性的问题，并强调了一致性评估方法的重要性。
模型评估挑战：文章讨论了模型过拟合和数据污染的问题，这些问题导致基准分数膨胀。OpenLLM v2 通过引入新的基准，提供更严格的评估标准来应对这些问题。
LLM 作为评判者的局限性：Clémentine 批评使用 LLM 作为评判者，指出其存在模式坍缩和位置偏见等问题。她建议使用开源 LLM 以确保可重复性，并建议进行排名而不是评分以减轻这些偏见。

从基准到排行榜

快进1.5年，模型发展的速度远远超过了基准更新的速度。前沿实验室仍然使用 MMLU 和 HumanEval 进行模型营销，尽管大多数模型的成功率都达到了自然平台的约90%（再高的话，它们可能只是记住或过拟合了数据）。

除了变得陈旧，实验室报告的基准还存在不可重复的问题。通过 API 提供的模型也会随时间变化，因此在不同的时间点可能会返回不同的分数。

今天的嘉宾是 Clémentine Fourrier，她是 HuggingFace 的 OpenLLM 排行榜的主要维护者。她们的目标是通过策划一组高质量的基准，来标准化模型的评估方式，然后使用 EleutherAI 的 Harness 等工具以可重复的方式发布结果。排行榜于 2023 年夏季首次推出，迅速成为开源 LLM 性能的事实标准。为了让你了解其规模：

上周他们宣布了排行榜的第二个版本。为什么？因为模型变得太好了！

新版排行榜基于6个基准：

MMLU-Pro（Massive Multitask Language Understanding – Pro version, paper）
GPQA（Google-Proof Q&A Benchmark, paper）
MuSR（Multistep Soft Reasoning, paper）
MATH（Mathematics Aptitude Test of Heuristics, Level 5 subset, paper）
IFEval（Instruction Following Evaluation, paper）
BBH（Big Bench Hard, paper）

你可以在他们的公告博客文章中阅读每个基准的由来和演进。这些更新带来了一些明显的赢家和输家，有些模型在排行榜上的排名一次性上下跳动了多达50位；最可能的原因是这些模型过度拟合了基准，或者它们的训练数据集中存在一些污染。

但最重要的变化是绝对分数。所有模型在 v2 上的得分比在 v1 上低得多，这为模型展示改进性能创造了更多空间。

LMSys Arena

另一个对 AI 工程师来说信号强烈的平台是 LMSys Arena。该平台要求用户对两个不同模型在相同提示下的输出进行排名，然后根据结果给予它们 ELO 得分。

Clémentine 称Arena为“社会学实验”：它能告诉你很多关于用户偏好的信息，但并不总是能说明模型的能力。她指出 Anthropic 有一篇奉承研究论文是该领域的早期研究：“我们发现，当一个回答与用户的观点一致时，它更有可能被偏爱。此外，人类和偏好模型（PMs）都更喜欢写得有说服力的奉承性回答，而不是正确的回答，这种情况的比例不可忽略。”

另一个问题是Arena排名不可重复，因为你不知道是谁在什么时间点对什么进行了排名。虽然这些工具仍然非常有用，但它们并不是严格排名模型能力的方法。她对Arena和排行榜的建议是将这些工具作为参考范围；找到3-4个符合你需求的模型（速度、成本、能力等），然后进行直觉检查，找出最适合你特定任务的模型。

LLMs 不是好的评判者

在过去的约6个月中，越来越多的人开始关注使用 LLM 作为评判者：与其让人来评估模型的输出，不如让一个更强大的 LLM 来评分。我们在上个月的 Brightwave 期节目中也提到了一点这个问题。HuggingFace 也有一本关于这个主题的手册，但 Clémentine 实际上并不喜欢这种方法：

模式坍缩：如果你让一个模型选择哪个输出更好，它只会自我强化自己的偏好。它也会更喜欢来自同一系列的模型（例如，GPT 模型会比 Claude 的输出更喜欢其他 GPT 模型）。如果这些输出被用来微调模型，你会进一步导致模型的模式坍缩。例如，Cohere 表示他们不会在任何模型生成的数据上进行训练，以避免这种情况。
位置偏见：LLM 通常更喜欢第一个答案，所以你不能简单地给它们选项并让它们排名，你还必须混合它们出现的顺序。
不要打分，排名：与其让模型给每个输出打分，你应该让它们进行堆叠排名。模型并没有训练过来打分，所以即使它们可能理解哪个回答更好，给它打分却很难。

如果你确实需要使用 LLM 作为评判者（我们并不是所有人都像 ScaleAI 那样富有！），她建议使用一个开源的 LLM，比如 Prometheus 或 JudgeLM，以确保你能在未来重现这些排名。

从地质学转向 AI 的历程

Alessio：大家好，欢迎收听《Latent Space》播客。我是 Alessio，Decibel Partners 的合伙人兼驻场 CTO，今天和我一同主持的还有 Smol AI 的创始人 Swyx。

Swyx：大家好，今天我们请到了一位非常特别的嘉宾，我们已经尝试了很久才安排上她的时间。她就是 Clémentine Fourrier。我尽量模仿法语发音，但可能不如你说得好。

Clémentine：你发音很棒，就是 Clémentine Fourrier，但你的发音已经很接近了。

Swyx ：听到了一个带有浓重法语腔调的 Fourrier，我其实不太理解。让我根据你的 LinkedIn 来介绍你，如果有遗漏的部分，请你补充。你目前是 Hugging Face 的研究科学家，也是 OpenLLM 排行榜的维护者，稍后我们会详细谈到这个话题。此前你在 INRIA 工作，但看起来你同时还获得了博士学位。这是怎么回事？这很常见吗？

Clémentine：其实我是在 INRIA 完成的博士学位，INRIA 资助了我的博士学位。在法国，博士学位通常是三年，但在读博士之前，我还在 INRIA 担任工程师，这可能会让人有些混淆。

Swyx：我觉得现在很多大学都有这种工业合作项目。这实际上让研究更有实际应用意义，特别是当你在攻读研究生学位时。我认为这种合作在北美也越来越多，像伯克利和多伦多的滑铁卢都有这种趋势。很酷，有很多其他事情可以介绍。我其实不会发音你去过的大学的名字，但还有哪些是大家应该知道的？

Clémentine：其实，我原本是地质工程师，所以我研究过岩石。2015年我毕业时，做了大量关于岩石的研究，后来发现自己并不擅长这个，但我非常擅长计算机科学。所以我转向了计算机科学。不过地质学带给我的影响是它是一门实验科学，而我认为机器学习也是一门实验科学，尽管人们喜欢说它是纯数学。我在不同的机器学习项目上工作过，例如在巴黎脑与脊髓研究所做过脑部疾病预测的项目，在自然语言处理研究团队担任工程师并完成了我的论文，然后我加入了 Hugging Face。

Swyx：在我们进入 NLP 话题之前，你有没有一个最喜欢的岩石事实或者故事可以分享？

Clémentine：我没想到会被问到这个问题。

Swyx：我地理学得很好，特别喜欢学习像均衡状态这样的概念，你知道那种地幔中不同板块上下浮动的现象。我觉得人们并没有考虑地质板块的垂直维度，但这是真实存在的。

Clémentine：对，绝对是。做地质学时，时间尺度完全不同。有一个特定的地方，在法国，你可以看到10亿年前的岩石，这种尺度真是太巨大了。我喜欢地质学的原因之一就是这种时间尺度的差异，它让我们以不同的视角看待世界。我们在地球的历史中只是一个瞬间。

Swyx：但是一个非常重要的瞬间。你从大块的岩石转向大语言模型，我不知道是如何造就这个转变的。那么你能描述一下你加入 Hugging Face 的经历吗？显然，我认为你是我们播客上第二或第三位来自 Hugging Face 的嘉宾，这家公司可能是真正开放的 AI 公司。

Clémentine：在博士结束时，我意识到不想留在学术界。实际上，Meta 找到了我，想给我提供一个实习机会。我当时很惊讶在读博士期间还能做实习，然后我申请了 Hugging Face。感谢 Meta 给我打开了这扇门。我被雇用来研究预训练的图变换模型。我们训练了基础的图变换模型，这是一个非常有趣的项目，但由于资源有限，很难完成。我们尝试了三个月，然后又尝试了三个月，前后三个月是我的实习期，接下来的三个月是我在 Hugging Face 的头三个月。之后我们放弃了这个项目，但我们留下了很多关于图机器学习的成果，供大家使用。但我们停止了尝试在这个特定领域与谷歌竞争。然后我们有一个团队在做模型训练，当时我们列了一个不同主题的清单，有一个没人感兴趣的话题就是评估。所以我花了一个月时间阅读所有关于评估的论文，发现这非常有趣。于是我们开始建立自己的内部评估套件，后来变成了 LightEval。Tom 看到我们对评估感兴趣后，把排行榜交给了我们，当时这是一个完全不同的项目。于是我们基本上变成了一个小团队，在 Hugging Face 负责评估和排行榜。我说我们是因为包括 Nathan Habib，他是和我一起在 Hugging Face 做评估和排行榜的工程师。

OpenLLM 排行榜的起源

Alessio：为了给大家一些背景，可能在2023年4月，我们做了一个《Benchmarks 101》节目，当时每个人都在试图弄清楚如何评估这些模型。当时的模型不太好，首先模型不多，其次模型在很多方面表现不佳。你能给大家一些背景介绍吗？排行榜上测试了多少模型？我知道现在有成千上万的模型。那么你是如何看待哪些基准重要的？我们可以深入探讨细节，但首先请解释一下规模，有多少模型，有多少人参与了这个社区，而不仅仅是 Hugging Face 的维护团队。

Clémentine：一开始，这真的只是一个内部研究项目，因为我们的强化学习团队想要比较他们的结果与已发表的论文，但没有成功。所以他们开了一个小排行榜，手动评估了一些模型。社区很快接管了，大家非常积极。一个半月后，这个项目交给了 Nathan 和我，让我们把它变成一个可以实际运行的工程产品，而不仅仅是一个研究项目。目前在 OpenLLM 排行榜的第一个版本上，我们评估了7400个模型，其中大部分是社区提交的。我想大约有800个讨论线程是用户与我们互动的，提供支持或建议。自排行榜创建以来，我们有数百万的访问者。这规模相当大。我们时不时会收到创业公司发来的感谢信，说他们的模型在排行榜上排名很高，得到了融资，所以他们非常高兴，并向我们表示感谢。这在社区中使用得非常广泛，很多社区成员用它来测试他们的方法，看他们的想法与现有(SOTA)模型相比表现如何。

Swyx：倒回一两年前，这种排行榜做法并不普遍。没有独立验证的排行榜很不正常。每个人都自己跑自己的评估，在自己的论文上发布评估结果，无法重现。我认为这真的是关于可重复的科学。我能想到的唯一一个之前存在的大排行榜是 ML perf，那是另一个大排行榜。当然，可能还有 AlexNet，特定的比赛，特定的基准，但没有什么能涵盖所有其他基准。也许 HuggingFace 以前参与过 BigBench。

Clémentine：可能团队里的其他人参与过。

基准的诞生与演进

Swyx：无论如何，这是第一次将所有东西汇集在一起。那么你在选择时的想法是什么？因为我认为这是另一个要素，我们稍后会谈到 V2，但 V1 是你选择了顶级基准。我不知道背后有没有什么故事，除了显而易见的选择，还有没有什么有争议的选择？

Clémentine：对于 V1，Edward Beeching 和 Lewis Tunstall 是我们当时的强化学习团队，他们基本上想看一下所有论文中出现的分数。所以他们看了当时所有的 RL 大论文，发现你会在其中看到 GSM 8K，MMLU，ArcChallenge 这些基准。因此，他们选择了这些基准，因为它们显然是当时的标准。当我们增加评估时，我想我们实际上是后来增加了 GSM 8K。我们也尝试增加 Drop，但由于实现问题，后来放弃了。在我们进行第二轮时（不是 V2，我称之为 V1.5），我们与社区进行了大量互动，看看在评估方面还缺什么，人们想要评估哪些能力，然后我们增加了这些数据集。我们一直与 RLHF 团队保持密切联系，像 Lewis Tunstall 在帮助我们选择 V2 的评估方面也非常有帮助。

Alessio：在 V2 公告博客中，你提到了其他基准存在的一些问题。我觉得有趣的是，现在每个人都在提这些问题，但以前大家只是用这些数字来做营销和宣传，说看我们表现多好。但现在大家觉得其实基准是有问题的，它们应该更难。人们最近才发现这些问题是因为现在分数越来越高，你才真正检查这些基准，以前分数很低的时候，可能你并不太在意整体质量？或者你认为为什么最近几个月排行榜变得如此受欢迎，现在是做 V2 的合适时机？我们会谈到 V2 实际是什么。

Clémentine：对于第一个问题，当你阅读评估论文时，其实很多来自 LLM 之前时期的数据集是通过众包制作的。所以这些数据集是由工资过低的人制作的，他们通常不是英语母语者。因此，很多数据集有很多错误，仅从阅读论文就能看出会有问题，因为当你生成1万个样本时，很难手动验证每一个。我们使用的数据集，如 MMLU，ArcChallenge 等，从一开始质量就比较高，但大家对它们的关注迫使人们在某个时刻真正深入研究这些数据集，看看分数来自哪里。当一个基准达到饱和时，或当模型在一个基准上的表现与人类相同或超过人类时，这实际上表明这些模型已经完全污染了，现在犯的一些错误是人类不会犯的。例如，MMLU 的人类表现约为80%左右，因为一些人类答错的问题实际上是错误的。那些问题的正确答案实际上是错误的，所以那些得到错误答案的人类实际上得到了正确答案。因此，如果你在这些问题上超过了人类，你实际上已经学会了预测非常错误的东西，我觉得这非常有趣。所以，评估有足够的信噪比，如果质量足够高，它在一段时间内会很有用，但一旦达到饱和，就需要更多地检查它。

Swyx：我真的很喜欢这个评估概念。通常我会说，大约25是随机概率，50是普通人类，75是专家人类，90是作弊。现在大多数模型在 MMLU 中的得分都是高80分，所以这已经不再具有挑战性，或者我们已经达到了饱和。有些人推出了 MMLU Pro。我看到了几个版本的 MMLU 之后的替代品。Dan Hendrycks，推出 MMLU 的人，承诺会制作自己的 MMLU。对我来说，我担心 MMLU Pro 或任何其他 MMLU 变体的寿命只有一年。

Clémentine：然后呢？然后我们就做排行榜 V3？

Swyx：我的意思是，是的。

Clémentine：对不起让你失望，但基本上我们预计 AI 的进步速度会非常快，因此无论如何我们都必须更新它们。当然，其中一部分是因为污染问题，人们试图在排行榜上作弊等等。但很多时候只是因为基准变得太容易了，我们在这些基准上取得的进步仅在一年内就已经很大了。我认为这也是为什么排行榜如此重要，因为每个人都想攀登高的分数。因此这些评估确实看到了性能的飞跃，就像我们在第一版中看到有曲线一样，这个版本已经存档但仍然可以访问，你可以真正看到每次评估的步骤。

人类评估的问题

Alessio：我认为这里还有一个要讨论的问题是人类是否适合评估这些模型。我们今天有点在开玩笑，但我想听听你的看法。我们什么时候不再是测试这些模型的最佳人选了？你如何平衡机器基准、MMLU 这样的基准、人类驱动的评分和 AI 裁判？

Clémentine：基本上，回到最初的区分，以便明确一下，自动化基准，如我们在 OpenLLM 排行榜上使用的，通常是公平和可重复的。每个模型都以完全相同的方式进行评估，你可以真正重现得到的分数。然而，它们在允许评估的范围内通常也有限制，因为如果你看的是多选题，它不会告诉你模型生成诗歌的能力如何。因此人们使用人类评估来进一步评估我们可以评估的能力。

在我看来，我们有三种类型的人类评估。我们有直觉评估、Arena类型的评估，如 LMsys Chatbot Arena，还有人类专家，即付费的人类注释员来进行评估，这是 Scale 的方法之一。我认为付费的人类专家是评估模型的非常好方法，因为你可以给他们一个明确的检查表，由于他们是被付费的，你可以期望获得相当高的质量。

但由于人类专家很昂贵，人们试图使用模型作为裁判，这是我们的第三种方法。我不会太深入讨论模型作为裁判的问题，但我认为它们对领域有问题。人们应该停止使用 LLMS 作为裁判，因为它们在评估中引入了很多微妙的偏见。它们倾向于更喜欢同一系列的输出，倾向于更喜欢第一个答案，这是位置偏见。它们倾向于更喜欢长而冗长的答案，它们在连续范围内评估模型时会有困难。因此，如果你绝对需要使用模型作为特定用例的裁判，不要使用 GPT-4 因为它是闭源的，无法重现。使用小模型，如 Prometheus 或 JudgeLM，并仅将其用于排名，而不是给分数，因为目前这些模型无法正确地做到这一点。我在几天前的 Twitter 上看到 Cohere 的 Aidan 说他们的模型有非常独特的风格，因为他们不使用其他模型的输出进行训练，他们花时间收集了高质量的数据。其他模型由于这个原因有点像。这对评估来说是同样的问题。如果你根据模型评估选择模型，你会使它有点像其他所有模型。回到人类评估，如果我们按照直觉评估、Arena和人类专家的区分，我认为直觉评估实际上是必要的。如果你是工程师，想知道哪个模型最适合你的具体用例，请做一个直觉评估。你可以看看像 OpenLLM 排行榜这样的综合排行榜，它会告诉你哪个模型在一系列任务中表现最好。对于你的用例，你需要自己测试。Arena或Arena类似的系统通常依赖于群体智慧方法。但群体智慧倾向于在可量化的事情上效果很好。最初是为了看看一个群体是否能平均估计出市场上的猪的重量，或者是猜一个罐子里有多少颗大理石。对于任何超级可量化的东西，它效果很好。但当你只是告诉人们什么是好的输出时，要得到可重复的结果就更难了。实验科学是基于可重复性和严格的协议，而使用Arena时，你无法得到这些。我认为Arena是一个非常好的社会学实验。我认为它告诉你很多关于用户的信息，很多关于提示的内容，很多关于人们如何与模型互动的信息。我还认为如果你有明确的指标，可以进行众包评估。例如，对于红队测试，你可以绝对进行众包红队测试，因为模型是否提供了私人信息或者模型是否有毒，是一个可以有明确的“是”或“否”的回答。但是对于其他任何事情，都是非常有限的。今年在 ICLR 有一些非常有趣的关于这个的论文。有一篇来自 Anthropic 的关于“模棱两可”的论文，基本上他们展示了人类倾向于更喜欢与他们意见一致的模型，因为我们希望人们喜欢我们，显然我们也希望模型喜欢我们并同意我们的意见。

Swyx ：可以说，这是对齐，我们希望模型喜欢人类。有时候这很好。

Clémentine：是的。但是你也希望人类能够说出真相。如果你的想法不符合事实，你需要挑战它。Cohere 和爱丁堡大学还有一篇很酷的论文，他们指出人类反馈不是金标准。这篇论文非常有趣，他们发现人类更喜欢过于自信的模型。如果你在一个错误但非常自信的答案和一个正确但不太自信的答案之间进行选择，人类自然会认为那个自信但错误的答案更好。因此Arena并不能提供事实性，而事实性应该是 LLMs 的一个非常重要的方面。

Alessio：这在日常生活中也是如此，人们会信任那个自信说出的话，即使是错误的，而不是试图弄清真相的人。所以你提到这是一个更像是社会实验的观点，我认为这是一个好点子。人们在与人类互动时的偏见也会在与模型互动时反映出来。

Clémentine：是的，确实如此。但问题是一些在现实生活中的判断和喜好不一定会在生产中使用的 LLMs 中产生同样的影响。你不希望最好的 LLM 是那个最迎合你意见的，然后变成宣传机器人。Arena上还有注释员缺乏多样性的问题。根据我所了解，使用Chatbot Arena的大多数用户往往是美国的男性。对不起，这不是一个多样化的人群。因此这些是我认为人类评估在某些方面有限的原因。

Swyx：我再补充一个。我认为Arena数据的样本实际上是公开的，大多数是单轮测试。

Clémentine：确实如此。

Swyx：所以多轮测试根本没有测试。

Clémentine：我不会太多抱怨这个，因为我们也倾向于不评估自动化基准的多轮测试，所以我不能真的说什么。

Swyx：AI女友社区在这方面很擅长，他们非常擅长多轮测试。你只需要去 OpenRouter 看看热门的聊天机器人。对于那些不知道的人来说，这些都在你的博客文章中提到，你在 ICLR 后写了这篇文章，讨论了 LLM 的评估。你从上到下介绍了你对评估的看法，还提到了 RavenWolf 的直觉评估，他显然在 HuggingFace 上写了很多博客，因为 HuggingFace 现在是一个博客平台，而且做了非常好的直觉评估。

Clémentine：是的。我其实是在 Reddit 上发现这个人的，因为他会写非常长的帖子，评估不同模型，看看它们在不同问题上的表现。他在德语中进行评估，所以通常很有趣。他非常严格，但他只做大约15个提示，所以这是一个严格的直觉评估。

OpenLLM 排行榜 v2 新变化

Swyx：我在本地 LLM 子版块上读过这些东西，有点过于详细了。我不知道我是否需要所有这些，但我很高兴有人做了。对我来说，他是我的自动化直觉评估。我不知道他是谁，但他总是出现，就是这样。我们想具体讨论一下新的排行榜的一些选择。祝贺你发布了它。你纠正了一些非常基本的数据科学问题，比如基准之间的差异以及选择更好的基准。我认为 MMLU Pro 显然是最重要的一个，因为这是很多人报告的顶级数字。主要的变化是，例如，现在有10个选择而不是4个，而且是由专家审查的，而不是没有审查的。还有其他特别需要注意的地方吗？基本上，我想快速介绍一下你选择的一些基准，比如 MMLU Pro、GPQA，我认为这两个是非常受认可的。我注意到 Apple Intelligence 使用了 IFEval 作为他们的唯一基准，其他所有都是他们自己的内部评估。但 Apple Intelligence 选择了 IFEval 作为他们的基准。你想评论一下你选择的基准吗？

Clémentine ：对于 IFEval，我认为它非常有趣，因为它像是语言的单元测试。当你评估编码 LLMs 时，你会给它们一组单元测试，看看它们生成的函数是否能通过所有的单元测试。IFEval 行为非常相似，它们提供了非常严格的指令格式化的提示，只评估指令遵循。我觉得这非常有趣，因为这不是一个模糊的度量。很多评估会使用词袋或嵌入来尝试获得语义相似性。但在这里，你不关心这些。你只评估理解指令。我觉得这是一个非常聪明的数据集，我很喜欢它。我们还添加了 GPQA，我从它发布以来就一直想添加到排行榜上。基本上是 MMLU，但达到了博士水平。由博士专家编写的超级复杂问题，如果你有博士学位会很容易回答，如果没有就很难。所以我觉得这些问题非常有趣。它们只在科学领域。

基准答案的黑市

Alessio ：我想知道是否有一个黑市出售基准中的实际数据集的问题答案，以便获得更好的模型分数。我知道你有一个获取问题答案的门槛机制，以确保模型不会被污染。有人联系过你想购买问题答案吗？我想知道是否有营销预算花在这上面。

Clémentine：对于 GPQA，任何人都可以访问答案。你只需要创建一个账户并同意门槛机制，你就可以访问。门槛机制主要是为了防止机器人获取数据。然而，对于 GAIA 基准，我参与了这个基准，我们实际上收到了来自某些国家的机构的联系，他们实际上说，你能给我们测试集的答案吗？我们会将其用于我们的内部基准。我们说，不，你知道测试集是什么吗？但我们确实收到了这样的联系，他们说，这对我们的用例来说会非常有帮助。

Alessio：是的。我问这个问题是以为你会说没有人会这样问，但人类就是人类。我知道你和 Flutter AI 的 Haley Sholkoff 紧密合作，所以我昨晚给她发了私信，问她有什么问题可以问你。感谢 Haley 的帮助。她让我问你关于 MMLU 提示格式选择的问题，以及在为基准构建提示时是否有正确的选择。这有点像 GPQA 示例，可能你们是专家，在讨论这些问题。对我来说，我甚至不知道所有的选项是什么。所以我很想听你讲解一下。基准有问题和答案，以及如何评估它们。但也有如何提示模型来问这些问题。所以任何见解都很有趣。

Clémentine：对于 MMLU，特别是多选评估，你有一个提示，有很多方法来提示模型。我们选择的 MMLU 格式是用于测试工具的格式。问题：问题内容，换行，选择：换行，A.第一个选择，B.第二个选择，然后换行，答案，换列。我们做了很多实验，尝试不同的方法，比如去掉问题，去掉选择，去掉答案，发现分数在100分中相差30分。30分的差异在评估中是巨大的。最小的提示只是问问题，然后查看所有选择的对数概率，选择对数概率最高的答案。最复杂的是问题、选择和带括号的字母前缀，而不是字母和点的枚举。这种方法在大多数模型中得分最高。从内容上看，这两种提示是一样的，因为如果你看对数概率，如果模型确实知道答案，最高对数概率应该是最佳选择，显式给出选择不应该改变内容。但我们在这方面得到了30分的差异。我们与 Outlines 合作发表了一篇关于如何通过结构化生成大大提高评估的博客文章。在 MMLU 的评估中，你可以使用另一种方法，即 Helm 的方法。这种方法不查看选择的对数概率，而是要求模型生成一个字母，并以生成的字母作为答案，即使它不在选项中。如果你说选项是 A、B、C、D，而模型回答“猫”，那么“猫”是错误的，所以模型的答案是错误的。我们选择以对数概率的方式运行多选评估，因为它比生成方式便宜得多，而且通常也更容易并行化，因为如果你只查看一个生成的token，你可以很容易地将其批量处理。

评估的难度及制定基准的责任

Alessio：多选基准对模型来说更容易吗？你对这些基准的难易程度有直觉吗？你如何排名？你有 MMLU，然后是 GPUA，然后是数学基准，还有 BBH。你有多选，然后有有格式化的开放生成，然后是格式驱动的，如 IFEval。哪些是最难的，最令人印象深刻的？哪些是最容易的？你是如何选择这个组合的？

Clémentine：我们基准中最难的两个评估是数学，因为我们只选择了最难的五级问题。我们这样做是为了让评估具有区分性，能让我们看到哪些模型真的好，因为运行整个数据集非常昂贵。我们发现仅运行这个数据集，一个7b模型需要几个小时。我们说不行，我们得减少一些东西。我们还使用了很多多选评估，因为我们受限于计算资源。我们使用的是 H100 节点，每次评估都在一个80 GB 内存的节点上运行。根据 Vantage 的价格，公众价格约为每小时100美元。如果我们评估一个7b模型，目前大约需要两小时。如果评估一个70b模型，大约需要20小时。所以我们能投入的计算资源和资金是有限的。有时我们会收到用户的消息说，他们昨天提交了一个70b模型，为什么还没有评估？我会说，首先，你以为计算资源长在树上吗？如果你有一棵 NVIDIA GPU 树，请给我，我需要更多的 GPU。评估模型需要很多时间。回到你的初始问题，最难的两个评估是数学，是生成评估，生成评估通常比多选更难，但也更难正确完成，因为度量标准。第二个难的是 MUSR（多步软推理），因为它的上下文非常长。基本上是谋杀谜题，模型需要找出罪犯。谋杀谜题是基于规则生成的，只有少数模型在这个评估上表现好于随机。

Alessio：很高兴看到模型在某些基准上表现不佳。如果你只看结果，会觉得这些模型很厉害，但当你使用它们时，你会明显感觉还有很多改进空间。这很好。你如何看待这种责任，无论你是否愿意，这都是人们在评估模型时关注的一个灯塔项目，比如你的排行榜。你内部需要做出哪些艰难决定？因为你需要平衡 Hugging Face 作为公司的利益和这些事情的科学客观性。你内部如何平衡这些，以及如何处理社区的不同意见？

Clémentine：我们知道我们对社区负有很大责任，因为这是一个人们可以评估他们模型的地方，他们也可以通过排行榜切实看到所有营销宣传的真实情况。如果明天你发布一个模型，说我的模型是最好的，我们会实际评估它，并给出一个数字。我们需要非常公平地进行评估。这意味着在选择评估时，我们与不同的人进行了大量内部讨论，比如 Louis Tunstall、Tom Wolfe、Nathan 和我基本上组成了一个小组。我们列出了当时哪些评估是相关的，考虑了内容、稳定性和社区的看法。然后我们花了大约一个月的时间，在各种模型上运行这些评估，以确保实现是绝对正确和公平的。比如在评估第一个版本时，我们发现 Drop 使用了一个点作为句子的结束标志，导致许多浮点数答案被截断，因此不正确。这是第一个版本，所以我们完全放弃了这个评估。在第二个版本中，我们花了更长的时间检查每一个细节，确保几近样本固定，确保所有格式正确，没有换行符等。我们也知道一些模型的分词器有问题，所以我们确保它们在生成评估中仍能正确评估，因为我们知道这些会被使用，分数需要尽可能正确。排行榜没有商业方面的考虑，因为我们基本上是在花钱做这个，因为我们认为这是对社区非常有用的资源，但人们并没有为评估付费。这是我们送给社区的一个礼物。

OpenLLM 经济学

Swyx：我想知道计算资源的问题。你基本上有一个常驻的 H100 集群，但每天都有新的模型出现。我想你会缓存它们，删除一些可能被污染的模型。我想这经常发生，有时新模型突然出现在排行榜顶端，然后人们讨论，发现它被污染了，你需要撤下它们。我想知道这件事的经济效应。你花了多少钱？你有一个常驻集群和一个队列，仅此而已吗？

Clémentine：实际上更复杂。Hugging Face 有一个研究集群，所有研究实验都在这个集群上运行。如果 FindWeb 团队在创建一个新数据集供大家训练模型，它会在集群上。如果 IDFX 团队在创建一个新的多模态模型，它就会在集群上训练。OpenLLM 排行榜团队在这个集群的空闲时间运行评估。我们实际上改变了作业的排队和启动方式。排行榜的作业在集群上以最低优先级启动。如果集群满了，任何其他作业都会杀掉我们的作业。所以我们可以把它送给社区，因为它不太花钱。这些资源本来就会浪费。然而，这意味着有时队列会暂停，因为集群满了，用户并不总是很高兴。但他们会得到很酷的机器学习成果，所以我觉得他们应该高兴。

Swyx：社区有没有办法捐赠计算资源给你？有没有接口可以轻松转移作业到不同的集群？

Clémentine：实际上讨论过很多次，我们正在考虑增加在推理端点上运行评估的选项，用户可以为评估的计算资源付费。我们真的想使用 EleutherAI 的测试工具，因为这是一个很大的稳定库，大家都在使用，我们认为 Elusive 在评估方面做得很好。但我们自己的评估库 Lightval 也有在推理端点上运行评估的功能。所以我们需要将这个功能移植到测试工具中，然后再提供给用户。这不是我们的优先事项，因为我们需要设置另一个运行评估的空间，或者用户需要复制一些东西。这需要更多的工程工作，我们一直有很多事情要做。

Swyx：我能想象。希望当推理端点开放时，唯一需要注意的是所有的推理提供商都会编写自己的 CUDA 内核和实现。有时即使是相同的权重，模型的性能也不完全相同，因为他们可能会进行量化或其他优化。

Clémentine：关于量化，我们通常会明确指示模型的精度。因此你可以找到几种精度的模型。我想这应该由 SART 解决，但如果在不同硬件上以不同批量运行评估，结果会略有不同。

长上下文及agent评估基准

Swyx：我们会问三个维度的基准，然后再问你希望社区构建的缺失基。第一个是社区讨论很多的长上下文。你已经谈到 Muser，但另一个受欢迎的是非常著名的海里捞针。我们在以前的播客中讨论过高级海里捞针和变量跟踪等。你认为排行榜应该有一个长上下文版本吗？你如何调整以适应这些内容？

Clémentine：对于排行榜，添加 Muser 就是因为它是长上下文推理。在高质量长上下文推理基准方面，我能想到两个非常有趣的。一个是学习从一本语法书翻译一种新语言的基准，实际上是一个非常有趣的数据集。他们基本上提供了一本由语言学家编写的小语种语法书，称为 Kalamang，因为它资源非常少，所以你确定网上没有关于它的数据。然后他们问语法问题，模型需要理解整个语法。这是推理和语言技能，非常长的上下文，因为它是一本书。我觉得这个数据集非常有趣。还有一个是 LNAI 做的长上下文模型的挑战基准，他们基本上拿了去年的小说，找人读后做摘要和对事件的对抗性描述，需要理解整本书才能回答。所以也是一个非常长的上下文评估，因为你有整本书，然后有这些问题需要正确回答，也不会被污染，因为书还没有进入训练数据。是新小说。所以我觉得这些数据集更有趣。是的，这些数据集更有趣。

Swyx：你刚刚给了我一个想法，Goodreads 应该是一个数据集，因为这些都是关于小说内容的评论。

Clémentine：当然。绝对有可做的事情。

Swyx：好的，这就是长上下文。抱歉，请继续，Alessio。

Swyx：你提到 GAIA 基准，你之前参与过。关于agent，你认为我们有好的agent基准吗？你认为agent基准有价值吗？

Clémentine：关于agent基准，今年的文献我没有紧密跟踪，但我们做 GAIA 基准时，观察到的主要问题是，几乎所有的agent基准都会将 LLM 放在一个黑盒环境中，这绝对不是现实世界，然后要求它们使用非常具体的 API 完成任务。这实际上是 GAIA 项目的起点，因为我们有一个关于agent能做什么的心理模型，特别是像 AI 助手这样的agent。我们有一个任务列表，期望它们能浏览网页，从结构化的地方提取信息，访问多种工具等。基于这些，我们构建了 GAIA 基准。所以实际上不是从能力的角度，而是通过agent任务的方式。我们期望agent能完成这些任务，使用多种工具进行推理。这就是我们构建 GAIA 的方式，而不是创建那些不能很好地推广到现实世界的盒装环境，GAIA 基本上是在现实世界中测试你的模型。所以我希望我们能有更多像 GAIA 这样的数据集。我们基本上提供了完整的配方，我真的认为任何人都可以贡献或创建类似的数据集。所以我对看到 GAIA 2、GAIA 3 感到兴奋，人们也在思考创建工具。根据创建的工具不同，有些任务会变得更容易。所以如何增加复杂性等？

Swyx：我在 ICLR 的海报展示会上采访了 Thomas Scialom，讨论了 GAIA。想了解更多关于 GAIA 的人可以参考我们的 ICLR 这一期节目。今年另一个大的agent基准是 SWEBench，更侧重于编码方面。我很好奇你对 SWEBench 有什么看法，或者你有没有研究过？

Clémentine：我记得确实去看过那个海报，但现在让我立即给出反馈的话，我不能。

Swyx：只是试探。那么我们有一个关于 ARC 的问题。你如何看待 ARC 挑战？显然，ARC 挑战最近获得了新的百万美元奖金，吸引了很多目光。有人说…

Clémentine：因为我们有两个 ARC 挑战。我们有 LNAI ARC 数据集的挑战子集，然后有 Cholet 的 ARC AGI 挑战。你说的是哪个？

Alessio ：是 AGI 挑战。首先，我好奇你是否认为解决这个挑战真的会达到 AGI？总体上你对更多基于挑战的评估，而不是基准驱动的评估怎么看？

Clémentine：我不认为解决它就是 AGI。我也认为目前专注于达到 AGI 不是一个好的目标。但我对这个特定数据集非常感兴趣。我很期待看到会发生什么，因为我尝试解答了一些问题，发现它们非常棒。它们是纯逻辑问题。目前，我们在 LLM 评估中缺乏复杂逻辑评估。模型在这方面表现很差。如果它们能学习并在基于逻辑的任务中推广模式，那将是推理方面的一个重要进步。

何谓有效的基准

Alessio：一个更宏观的问题。你如何判断一个基准是否真的有用？每个人都想构建基准，就像测试集一样。你有没有快速的方法，就像你对模型有直觉评估一样，对基准也有直觉评估？

Clémentine：其实我有一些方法，首先，这是低投入版本，你首先要看论文，看看是谁制作了数据集。这意味着数据集是模型生成的还是人类生成的？注释员是否得到了合理的报酬？如果你的数据集是英文的，注释员是否是母语为英语的人？等等。你基本上要了解数据集的质量，然后你需要知道数据集背后的假设是什么。他们认为他们的数据集是哪个任务的agent？这个假设听起来合理吗？然后你要看问题。你要实际浏览数据集，查看提示。你能解决这些问题吗？你看到明显的错误了吗？提示在格式上是否一致？理想情况下，你还要看看代码。

如果你有更多时间投入，你可以在你知道表现不错的一些模型上自己使用它。你可以使用一个小的好模型，比如 5.3b 大小的模型，这个问题争议很大，但对于它的大小来说并不算太差。你有一些大约 20 亿参数的模型，足够好，不会太贵。然后你要在大家都知道表现好的大模型上测试它，比如 Command R Plus。如果是生成模型，你要看生成结果。它们做得好吗？有没有截断？看起来现实吗？这样你就能更好地了解数据集的质量。因为很多基准的质量依赖于它们的度量标准。如果你使用的是精确匹配度量标准，你要确保你能从答案中实际提取到信息。GSM 8K 在这方面做得很好，因为输出格式非常受限。但有些评估在这方面很差。例如，Drop 使用词袋来估计答案是否正确，这不是一个好的度量标准。

Swyx：这是老派 NLP 的方法，用词袋。这有点像Blue Score。好吧，假设你有一个，你希望有人建立一个你真的想包含但找不到的基准吗？

Clémentine：是的。我认为有很多我们需要的东西。但有一个是模型校准。现在没有人评估模型校准，我认为这是个问题。模型校准是…

Swyx：什么是模型校准？

Clémentine：你看起来很困惑，这很有趣。基本上，一个模型被认为是校准良好的，如果一个答案的对数概率得分与答案的正确性高度相关。你可以把它看作是模型的自信程度。你希望一个模型在告诉你“是的，这是对的”时，这个答案实际上是对的。因此，具体来说，这叫做校准。这并不难测量。你可以用任何多选评估集来测试这一点。我认为有更多有趣的数据集可以用来测试这一点。如果我们有校准良好的模型，它将为我们提供带有置信区间的答案。你可以说模型对它的答案高度自信，或者模型有疑虑，你可以给出小的置信评分。我认为这会非常有趣。

Swyx ：是的，ICLR 上有一些关于不确定性的论文。我的快速回应是，我认为众所周知，基础模型比指令微调模型校准得更好。指令微调会使它们过于自信，使它们变得太像人类。

Clémentine：是的，这很棘手。

Swyx：但我同意，我们应该有一个基准来评估这一点，它会变得更好。

Clémentine：是的，我希望如此。我认为还有很多其他有趣的事情可以评估。我认为对提示的鲁棒性，现在没有人做这件事，因为它太贵了。但如果我用 10 种不同的方式提示同一个内容，我不希望得到 10 个不同的答案。这有点与校准有关，这是 LLMs 中应该被认为理所当然的，但实际上效果并不好。如果我必须再选择一个，因为我很贪心，你问了我一个，但你会得到三个。我希望看到更多关于迎合性的评估，基本上是模型在互动中可能出现的问题，把人们放在思想泡泡中。当人们与聊天模型对话时，你不希望他们在社交网络上。你希望聊天模型断然说出事实真相。有些事情是事实，比如地球是圆的，重力存在。很多事情不应该被讨论，模型应该断然告诉用户如果他们错了。

对 OpenLLM 排行榜v3 的预测

Alessio：这是一个非常好的回顾，我们已经占用了很多你的时间。最后一个问题，对排行榜 v3 有什么预测吗？如果一年后，大多数模型都能达到 v2 的顶峰吗？还是你认为需要多久才能需要一个新的版本？

Clémentine：我实际上正在研究下一个版本。

Clémentine：我现在不想透露太多细节。但我认为我们目前在推理和数学评估方面还有很多空间。我认为我们还有很多评估空间需要探索。长上下文，我们才刚刚开始。我认为像 EF eval 这样的指令测试，模型很快就会变得很好。遗憾的是 GPQA，因为我认为它可能会在某个时候被污染。但基本上，下一个排行榜版本会根据模型变化的速度来决定。它会是一个类似的版本，包含推理、数学，可能还有代码，如果我们能加入，因为现在所有的模型应该都能编写一些代码。我真的想为下一个版本加入一个迎合性评估。但这是很遥远的未来。所以这是我预测的结尾。

Alessio：太棒了，非常感谢你来参加节目。我们会在备注中链接你以前的所有工作，以便人们阅读。人们可以关注你的 Twitter 或 X 以了解最新动态。抱歉，Yvonne，不要取关我们。

Swyx：在 Hugging Face 上关注她，Hugging Face 是一个社交网络。

Clémentine：是的，没错。

Alessio：非常感谢。

原播客：Benchmarks 201: Why Leaderboards > Arenas >> LLM-as-Judge

https://www.latent.space/p/benchmarks-201

———–END———–

分类

深度｜LLM 到底哪家强？万字访谈 OpenLLM 排行榜维护者——LLM 评估基准的真相_AI阅读总结 — 包阅AI