FlagEval

6个月前发布 2,453 0 1.5K

智源研究院推出的FlagEval（天秤）大模型评测平台

收录时间：

2025-12-02

打开网站手机查看

AI学习网站

FlagEval

打开网站

FlagEval是什么

FlagEval（天秤）是北京智源人工智能研究院（BAAI）推出的科学、公正、开放的大模型评测体系及开放平台，为研究人员提供全面评估基础模型及训练算法性能的工具和方法。FlagEval采用“能力-任务-指标”三维评测框架，从多个维度对大模型的认知能力进行评估，涵盖对话、问答、情感分析等多种应用场景，提供超过22个数据集和8万道评测题目。平台支持多模态模型评测，覆盖文本、图像、视频等多种数据类型，兼容多种AI框架和硬件架构。FlagEval提供自动化评测机制，支持主观与客观评测的全自动流水线，帮助研究人员高效、准确地了解模型性能，推动大模型技术的发展。

FlagEval的主要功能

多维度评测框架：采用“能力-任务-指标”三维评测框架，从多个维度全面评估大模型的认知能力，涵盖对话、问答、情感分析等多种应用场景。

丰富的评测数据集：提供超过22个数据集和8万道评测题目，覆盖不同应用场景、难度级别和语言类型，确保评测的全面性和准确性。

多模态支持：支持文本、图像、视频等多种模态的模型评测，满足不同类型模型的评估需求。

自动化评测机制：实现主观评测和客观评测的全自动流水线，支持自适应评测机制，用户可根据模型类型和状态选择评测策略，提高评测效率。

广泛的模型覆盖：涵盖超过800个开源和闭源模型，支持多种AI框架（如PyTorch和MindSpore）和硬件架构（如NVIDIA、昇腾、寒武纪和昆仑芯等）。

排行榜与结果展示：提供详细的评测数据表格和排行榜，展示不同模型的评测结果，帮助研究人员直观了解模型性能。

社区参与与持续更新：鼓励社区参与，欢迎研究人员和开发者贡献评测数据集和模型，持续更新评测内容，确保评测的时效性和全面性。

如何使用FlagEval

注册与登录：访问 FlagEval 官网，注册并登录用户账户。
准备模型与代码：根据 FlagEval 平台的要求，准备好待评测的模型文件、推理代码及相关配置文件。例如，在计算机视觉（CV）领域，需要提供模型的基本信息，如输入图像的预处理参数、任务相关的批处理大小等。
安装 FlagEval-Serving 工具：通过安装 FlagEval-Serving 工具，用户可以上传模型、代码和数据等待评测的文件。
上传模型与代码：在 FlagEval 平台上点击“上传模型

数据统计

暂无评论

暂无评论...

FlagEval

FlagEval是什么

FlagEval的主要功能

如何使用FlagEval

数据统计

相关导航

光子AI

希沃白板

AI Prompt Generator

Gemma

LMArena

Writecream AI Content Detector

Awesome ChatGPT Prompts

LLMEval3

暂无评论

标签云