
ARC
腾讯旗下ARC实验室推出的免费AI图片处理工具
Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)封装。Open LLM Leaderboard通过多种基准测试(如 IFEval、BBH、MATH 等),从指令遵循、复杂推理、数学解题、专业知识问答等多个维度对模型进行评估。排行榜涵盖预训练模型、聊天模型等多种类型,提供详细的数值结果和模型输入输出细节。Open LLM Leaderboard 能帮助用户筛选出当前最先进的模型,推动开源社区的进步。
多维度基准测试:包括多种基准测试(如 IFEval、BBH、MATH、GPQA 等),涵盖指令遵循、复杂推理、数学解题、专业知识问答等多个领域,全面评估模型能力。
多种模型类型支持:支持预训练模型、持续预训练模型、领域特定微调模型、聊天模型等,覆盖不同应用场景。
详细结果展示:提供详细的数值结果和模型输入输出细节,帮助用户深入了解模型表现。
社区互动:社区成员对模型进行标记和讨论,确保排行榜的公正性和透明度。
可复现性支持:提供代码和工具,帮助用户复现排行榜上的结果,增强研究的可信度。
IFEval:评估模型遵循明确指令的能力,如格式要求,使用严格准确率指标。
BBH(Big Bench Hard):用23个高难度子任务,涵盖多步算术、算法推理和语言理解,测试模型的综合能力。
MATH:测试模型解决高中竞赛级别数学问题的能力,要求严格遵循特定输出格式。
GPQA(Graduate-Level Google-Proof Q







