CMMLU

6个月前发布 1,552 0 1.6K

一个综合性的大模型中文评估基准

收录时间：

2025-12-02

打开网站手机查看

AI学习网站

CMMLU

打开网站

CMMLU是什么

CMMLU是综合性的中文评估基准，专门用在评估语言模型在中文语境下的知识和推理能力，涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学，需要知识的人文科学和社会科学，及需要生活常识的中国驾驶规则等。CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。CMMLU提供丰富的测试数据和排行榜，支持多种评估方式，如five-shot和zero-shot测试，是衡量中文语言模型性能的重要工具。

CMMLU的主要功能

排行榜：展示不同语言模型在five-shot和zero-shot测试下的表现，帮助比较模型性能。
数据集：提供开发和测试数据，支持快速使用和评估。
预处理代码：提供提示生成方法，方便模型训练和测试。
评估工具：支持多种评估方式，便于研究者和开发者测试模型能力。

如何使用CMMLU

获取数据集：

从GitHub下载：访问 CMMLU GitHub页面：https://github.com/haonan-li/CMMLU/，在data目录中找到开发和测试数据集。

通过Hugging Face获取：访问Hugging Face平台：https://huggingface.co/datasets/haonan-li/cmmlu，直接加载CMMLU数据集。

准备测试环境：

安装依赖：确保安装了必要的Python库，如transformers、datasets等。

克隆代码库：克隆CMMLU的GitHub仓库，获取测试代码和预处理工具。

git clone https://github.com/haonan-li/CMMLU.git
cd CMMLU

预处理数据：在src/mp_utils目录中，使用提供的脚本对数据进行预处理，生成适合模型输入的格式。

python src/mp_utils/preprocess.py

运行评估代码

选择模型：根据需要评估的语言模型，加载模型和tokenizer。

运行测试脚本：在script目录中，运行测试脚本，评估模型在不同任务上的表现。

python script/evaluate.py --model


        数据统计
     
        
            
                
                    
                    
                    
                
                
                    
                    
                    
                    
                    
                    
                    
                    
                    
                    
                    
                    
                
            
         
     
    相关导航

                
                
                
                     

                    
                        阿里云AI学习路线
                        阿里云推出的人工智能学习路线（学 测）
                    
                 
                    
                
                    
                    
                
                
            

                
                
                
                     

                    
                        Generative AI for Beginners
                        微软推出的面向初学者的免费生成式人工智能课程
                    
                 
                    
                
                    
                    
                
                
            

                
                
                
                     

                    
                        堆友AI学习
                        堆友AI推出的AI设计知识学习网站
                    
                 
                    
                
                    
                    
                
                
            

                
                
                
                     

                    
                        DALL·E 3
                        OpenAI旗下最新的图像生成模型
                    
                 
                    
                
                    
                    
                
                
            

                
                
                
                     

                    
                        GAIPPT
                        AI智能美化PPT工具，上传PPT一键美化
                    
                 
                    
                
                    
                    
                
                
            

                
                
                
                     

                    
                        Awesome ChatGPT Prompts
                        AI提示词收集和整理工具
                    
                 
                    
                
                    
                    
                
                
            

                
                
                
                     

                    
                        LLaMA
                        Meta（Facebook）推出的AI大语言模型
                    
                 
                    
                
                    
                    
                
                
            

                
                
                
                     

                    
                        CopyLeaks
                        AI内容检测和分级
                    
                 
                    
                
                    
                    
                
                
            


	
		
		
			暂无评论 
		
	 
	
		 
						
				
											
						
							
						 
						
							
						
							
						
								
							
						
																		
														再想想
														
							
							

						
					
					
									
				
						
			暂无评论...


     
	
		标签云