🌐Website | 📘Documentation | 🛠️Installation | 🤔Reporting Issues

English | 简体中文

🧭 欢迎

来到OpenCompass！

就像指南针在我们的旅程中为我们导航一样，我们希望OpenCompass能够帮助你穿越评估大型语言模型的重重迷雾。OpenCompass提供丰富的算法和功能支持，期待OpenCompass能够帮助社区更便捷地对NLP模型的性能进行公平全面的评估。

🚀 最新进展

[2023.08.21] Lagent 正式发布，它是一个轻量级、开源的基于大语言模型的智能体（agent）框架。我们正与Lagent团队紧密合作，推进支持基于Lagent的大模型工具能力评测 ! 🔥🔥🔥.
[2023.08.18] OpenCompass现已支持多模态评测，支持10+多模态评测数据集，包括 MMBench, SEED-Bench, COCO-Caption, Flickr-30K, OCR-VQA, ScienceQA 等. 多模态评测榜单即将上线，敬请! 🔥🔥🔥.
[2023.08.18] 数据集页面现已在OpenCompass官网上线，欢迎更多社区评测数据集加入OpenCompass !
[2023.08.11] 官网榜单上新增了模型对比功能，希望该功能可以协助提供更多发现！
[2023.08.11] 新增了 LEval 评测支持.
[2023.08.10] OpenCompass 现已适配 LMDeploy. 请参考评测指南对 Turbomind 加速后的模型进行评估.
[2023.08.10] Qwen-7B 和 XVERSE-13B的评测结果已更新在 OpenCompass 大语言模型评测榜单!
[2023.08.09] 更新更多评测数据集(CMMLU, TydiQA, SQuAD2.0, DROP) ，请登录大语言模型评测榜单查看更多结果! 欢迎添加你的评测数据集到OpenCompass.
[2023.08.07] 新增了 MMBench 评测脚本以支持用户自行获取 MMBench-dev 的测试结果.
[2023.08.05] GPT-4 的评测结果已更新在 OpenCompass 大语言模型评测榜单!
[2023.07.27] 新增了 CMMLU! 欢迎更多的数据集加入 OpenCompass.

✨ 介绍

OpenCompass 是面向大模型评测的一站式平台。其主要特点如下：

开源可复现：提供公平、公开、可复现的大模型评测方案
全面的能力维度：五大维度设计，提供 50+ 个数据集约 30 万题的的模型评测方案，全面评估模型能力
丰富的模型支持：已支持 20+ HuggingFace 及 API 模型
分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测
多样化评测范式：支持零样本、小样本及思维链评测，结合标准型或对话型提示词模板，轻松激发各种模型最大性能
灵活化拓展：想增加新模型或数据集？想要自定义更高级的任务分割策略，甚至接入新的集群管理系统？OpenCompass 的一切均可轻松扩展！

📊 性能榜单

我们将陆续提供开源模型和API模型的具体性能榜单，请见 OpenCompass Leaderbaord 。如需加入评测，请提供模型仓库地址或标准的 API 接口至邮箱 opencompass@pjlab.org.cn.

🔝返回顶部

📖 数据集支持

语言	知识	推理	学科	理解
字词释义 WiC SummEdits 成语习语 CHID 语义相似度 AFQMC BUSTM 指代消解 CLUEWSC WSC WinoGrande 翻译 Flores	知识问答 BoolQ CommonSenseQA NaturalQuestion TrivialQA 多语种问答 TyDi-QA	文本蕴含 CMNLI OCNLI OCNLI_FC AX-b AX-g CB RTE 常识推理 StoryCloze StoryCloze-CN（即将上线） COPA ReCoRD HellaSwag PIQA SIQA 数学推理 MATH GSM8K 定理应用 TheoremQA 代码 HumanEval MBPP 综合推理 BBH	初中/高中/大学/职业考试 GAOKAO-2023 CEval AGIEval MMLU GAOKAO-Bench CMMLU ARC	阅读理解 C3 CMRC DRCD MultiRC RACE 内容总结 CSL LCSTS XSum 内容分析 EPRSTMT LAMBADA TNEWS

🔝返回顶部

📖 模型支持

开源模型	API 模型
LLaMA Vicuna Alpaca Baichuan WizardLM ChatGLM-6B ChatGLM2-6B MPT Falcon TigerBot MOSS ……	OpenAI Claude (即将推出) PaLM (即将推出) ……

🛠️ 安装

下面展示了快速安装以及准备数据集的步骤。

conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/InternLM/opencompass opencompass
cd opencompass
pip install -e .
# 下载数据集到 data/ 处
wget https://github.com/InternLM/opencompass/releases/download/0.1.1/OpenCompassData.zip
unzip OpenCompassData.zip

有部分第三方功能,如 Humaneval 以及 Llama,可能需要额外步骤才能正常运行，详细步骤请参考安装指南。

🔝返回顶部

🏗️ ️评测

确保按照上述步骤正确安装 OpenCompass 并准备好数据集后，请阅读快速上手了解如何运行一个评测任务。

更多教程请查看我们的文档。

🔜 路线图

主观评测
- 发布主观评测榜单
- 发布主观评测数据集
长文本
- 支持广泛的长文本评测集
- 发布长文本评测榜单
代码能力
- 发布代码能力评测榜单
- 提供非Python语言的评测服务
智能体
- 支持丰富的智能体方案
- 提供智能体评测榜单
鲁棒性
- 支持各类攻击方法

👷‍♂️ 贡献

我们感谢所有的贡献者为改进和提升 OpenCompass 所作出的努力。请参考贡献指南来了解参与项目贡献的相关指引。

🤝 致谢

该项目部分的代码引用并修改自 OpenICL。

该项目部分的数据集和提示词实现修改自 chain-of-thought-hub, instruct-eval

🖊️ 引用

@misc{2023opencompass,
    title={OpenCompass: A Universal Evaluation Platform for Foundation Models},
    author={OpenCompass Contributors},
    howpublished = {\url{https://github.com/InternLM/OpenCompass}},
    year={2023}
}

🔝返回顶部

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_zh-CN.md

README_zh-CN.md

🧭 欢迎

🚀 最新进展

✨ 介绍

📊 性能榜单

📖 数据集支持

📖 模型支持

🛠️ 安装

🏗️ ️评测

🔜 路线图

👷‍♂️ 贡献

🤝 致谢

🖊️ 引用

Files

README_zh-CN.md

Latest commit

History

README_zh-CN.md

File metadata and controls

🧭 欢迎

🚀 最新进展

✨ 介绍

📊 性能榜单

📖 数据集支持

📖 模型支持

🛠️ 安装

🏗️ ️评测

🔜 路线图

👷‍♂️ 贡献

🤝 致谢

🖊️ 引用