FlagEval

1个月前发布 2,356 0 1.5K

智源研究院推出的FlagEval(天秤)大模型评测平台

收录时间:
2025-12-02
FlagEvalFlagEval

FlagEval是什么

FlagEval(天秤)是北京智源人工智能研究院(BAAI)推出的科学、公正、开放的大模型评测体系及开放平台,为研究人员提供全面评估基础模型及训练算法性能的工具和方法。FlagEval采用“能力-任务-指标”三维评测框架,从多个维度对大模型的认知能力进行评估,涵盖对话、问答、情感分析等多种应用场景,提供超过22个数据集和8万道评测题目。平台支持多模态模型评测,覆盖文本、图像、视频等多种数据类型,兼容多种AI框架和硬件架构。FlagEval提供自动化评测机制,支持主观与客观评测的全自动流水线,帮助研究人员高效、准确地了解模型性能,推动大模型技术的发展。

FlagEval

FlagEval的主要功能

多维度评测框架:采用“能力-任务-指标”三维评测框架,从多个维度全面评估大模型的认知能力,涵盖对话、问答、情感分析等多种应用场景。

丰富的评测数据集:提供超过22个数据集和8万道评测题目,覆盖不同应用场景、难度级别和语言类型,确保评测的全面性和准确性。

多模态支持:支持文本、图像、视频等多种模态的模型评测,满足不同类型模型的评估需求。

自动化评测机制:实现主观评测和客观评测的全自动流水线,支持自适应评测机制,用户可根据模型类型和状态选择评测策略,提高评测效率。

广泛的模型覆盖:涵盖超过800个开源和闭源模型,支持多种AI框架(如PyTorch和MindSpore)和硬件架构(如NVIDIA、昇腾、寒武纪和昆仑芯等)。

排行榜与结果展示:提供详细的评测数据表格和排行榜,展示不同模型的评测结果,帮助研究人员直观了解模型性能。

社区参与与持续更新:鼓励社区参与,欢迎研究人员和开发者贡献评测数据集和模型,持续更新评测内容,确保评测的时效性和全面性。

如何使用FlagEval

注册与登录:访问 FlagEval 官网,注册并登录用户账户。
准备模型与代码:根据 FlagEval 平台的要求,准备好待评测的模型文件、推理代码及相关配置文件。例如,在计算机视觉(CV)领域,需要提供模型的基本信息,如输入图像的预处理参数、任务相关的批处理大小等。
安装 FlagEval-Serving 工具:通过安装 FlagEval-Serving 工具,用户可以上传模型、代码和数据等待评测的文件。
上传模型与代码:在 FlagEval 平台上点击“上传模型

数据统计

相关导航

暂无评论

none
暂无评论...