AI模型评测
MMLU
大规模多任务语言理解基准
Open LLM Leaderboard
Hugging Face推出的开源大模型排行榜单
C-Eval
一个全面的中文基础模型评估套件
FlagEval
智源研究院推出的FlagEval(天秤)大模型评测平台
SuperCLUE
中文通用大模型综合性测评基准
OpenCompass
上海人工智能实验室推出的大模型开放评测体系
CMMLU
一个综合性的大模型中文评估基准
MMBench
全方位的多模态大模型能力评测体系
HELM
斯坦福大学推出的大模型评测体系
Chatbot Arena
以众包方式进行匿名随机对战的LLM基准平台
LLMEval3
由复旦大学NLP实验室推出的大模型评测基准
H2O EvalGPT
H2O.ai推出的基于Elo评级方法的大模型评估系统
PubMedQA
生物医学研究问答数据集和模型得分排行榜
- name: MMLU
desc: 大规模多任务语言理解基准
avatar: /img/mmlu-benchmark-icon.png
link: https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: Open LLM Leaderboard
desc: Hugging Face推出的开源大模型排行榜单
avatar: /img/huggingface-icon.png
link: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: C-Eval
desc: 一个全面的中文基础模型评估套件
avatar: /img/c-eval-icon.png
link: https://cevalbenchmark.com/static/leaderboard_zh.html
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: FlagEval
desc: 智源研究院推出的FlagEval(天秤)大模型评测平台
avatar: /img/flageval-icon.png
link: https://flageval.baai.ac.cn/#/trending
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: SuperCLUE
desc: 中文通用大模型综合性测评基准
avatar: /img/superclue-icon.png
link: https://www.cluebenchmarks.com/static/superclue.html
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: OpenCompass
desc: 上海人工智能实验室推出的大模型开放评测体系
avatar: /img/opencompass-icon.png
link: https://opencompass.org.cn/leaderboard-llm
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: CMMLU
desc: 一个综合性的大模型中文评估基准
avatar: /img/cmmlu-benchmark-icon.png
link: https://github.com/haonan-li/CMMLU
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: MMBench
desc: 全方位的多模态大模型能力评测体系
avatar: /img/mmbench-icon.png
link: https://mmbench.opencompass.org.cn/leaderboard
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: HELM
desc: 斯坦福大学推出的大模型评测体系
avatar: /img/helm-benchmark.png
link: https://crfm.stanford.edu/helm/latest
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: Chatbot Arena
desc: 以众包方式进行匿名随机对战的LLM基准平台
avatar: /img/lmsys-icon.png
link: https://chat.lmsys.org
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: LLMEval3
desc: 由复旦大学NLP实验室推出的大模型评测基准
avatar: /img/llm-eval-icon.png
link: http://llmeval.com/index
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: H2O EvalGPT
desc: H2O.ai推出的基于Elo评级方法的大模型评估系统
avatar: /img/h2o-evalgpt-icon.png
link: https://evalgpt.ai
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: PubMedQA
desc: 生物医学研究问答数据集和模型得分排行榜
avatar: /img/pubmedqa-icon.png
link: https://pubmedqa.github.io
bgColor: '#FCDBA0'
textColor: '#A05F2C'
上次更新: 2023/11/17, 11:46:28