Open LLM Leaderboard

6个月前发布 1,952 0 1.3K

Hugging Face推出的开源大模型排行榜单

收录时间：

2025-12-02

打开网站手机查看

AI学习网站

Open LLM Leaderboard

打开网站

Open LLM Leaderboard是什么

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。Open LLM Leaderboard通过多种基准测试（如 IFEval、BBH、MATH 等），从指令遵循、复杂推理、数学解题、专业知识问答等多个维度对模型进行评估。排行榜涵盖预训练模型、聊天模型等多种类型，提供详细的数值结果和模型输入输出细节。Open LLM Leaderboard 能帮助用户筛选出当前最先进的模型，推动开源社区的进步。

Open LLM Leaderboard 的主要功能

多维度基准测试：包括多种基准测试（如 IFEval、BBH、MATH、GPQA 等），涵盖指令遵循、复杂推理、数学解题、专业知识问答等多个领域，全面评估模型能力。
多种模型类型支持：支持预训练模型、持续预训练模型、领域特定微调模型、聊天模型等，覆盖不同应用场景。
详细结果展示：提供详细的数值结果和模型输入输出细节，帮助用户深入了解模型表现。
社区互动：社区成员对模型进行标记和讨论，确保排行榜的公正性和透明度。
可复现性支持：提供代码和工具，帮助用户复现排行榜上的结果，增强研究的可信度。

Open LLM Leaderboard 的评估基准

IFEval：评估模型遵循明确指令的能力，如格式要求，使用严格准确率指标。
BBH（Big Bench Hard）：用23个高难度子任务，涵盖多步算术、算法推理和语言理解，测试模型的综合能力。
MATH：测试模型解决高中竞赛级别数学问题的能力，要求严格遵循特定输出格式。
GPQA（Graduate-Level Google-Proof Q

数据统计

暂无评论

暂无评论...

Open LLM Leaderboard

Open LLM Leaderboard是什么

Open LLM Leaderboard 的主要功能

Open LLM Leaderboard 的评估基准

数据统计

相关导航

Sapling AI Content Detector

Powerpresent AI

Coursera

办公小浣熊

Proofig

麦当秀MindShow

remove.bg

悟空图像PhotoSir

暂无评论

标签云