AI模型评测
MMLU
大规模多任务语言理解基准
Open LLM Leaderboard
Hugging Face推出的开源大模型排行榜单
C-Eval
一个全面的中文基础模型评估套件
FlagEval
智源研究院推出的FlagEval(天秤)大模型评测平台
SuperCLUE
中文通用大模型综合性测评基准
OpenCompass
上海人工智能实验室推出的大模型开放评测体系
CMMLU
一个综合性的大模型中文评估基准
MMBench
全方位的多模态大模型能力评测体系
HELM
斯坦福大学推出的大模型评测体系
Chatbot Arena
以众包方式进行匿名随机对战的LLM基准平台
LLMEval3
由复旦大学NLP实验室推出的大模型评测基准
H2O EvalGPT
H2O.ai推出的基于Elo评级方法的大模型评估系统
PubMedQA
生物医学研究问答数据集和模型得分排行榜
Chatbot Arena
匿名对比评测不同AI模型,由社区投票排名。
Chatbot Arena排行榜
基于Elo评分的AI模型排行榜,反映模型真实能力。
OpenCompass
上海AI实验室开源的模型评测平台。
MMLU基准测试
大规模多任务语言理解基准,广泛用于模型评测。
SuperGLUE
自然语言理解基准测试套件。
HELM基准
语言模型整体评估基准,覆盖多方面能力评测。
- name: MMLU
desc: 大规模多任务语言理解基准
avatar: /img/mmlu-benchmark-icon.png
link: https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: Open LLM Leaderboard
desc: Hugging Face推出的开源大模型排行榜单
avatar: /img/huggingface-icon.png
link: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: C-Eval
desc: 一个全面的中文基础模型评估套件
avatar: /img/c-eval-icon.png
link: https://cevalbenchmark.com/static/leaderboard_zh.html
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: FlagEval
desc: 智源研究院推出的FlagEval(天秤)大模型评测平台
avatar: /img/flageval-icon.png
link: https://flageval.baai.ac.cn/#/trending
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: SuperCLUE
desc: 中文通用大模型综合性测评基准
avatar: /img/superclue-icon.png
link: https://www.cluebenchmarks.com/static/superclue.html
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: OpenCompass
desc: 上海人工智能实验室推出的大模型开放评测体系
avatar: /img/opencompass-icon.png
link: https://opencompass.org.cn/leaderboard-llm
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: CMMLU
desc: 一个综合性的大模型中文评估基准
avatar: /img/cmmlu-benchmark-icon.png
link: https://github.com/haonan-li/CMMLU
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: MMBench
desc: 全方位的多模态大模型能力评测体系
avatar: /img/mmbench-icon.png
link: https://mmbench.opencompass.org.cn/leaderboard
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: HELM
desc: 斯坦福大学推出的大模型评测体系
avatar: /img/helm-benchmark.png
link: https://crfm.stanford.edu/helm/latest
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: Chatbot Arena
desc: 以众包方式进行匿名随机对战的LLM基准平台
avatar: /img/lmsys-icon.png
link: https://chat.lmsys.org
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: LLMEval3
desc: 由复旦大学NLP实验室推出的大模型评测基准
avatar: /img/llm-eval-icon.png
link: http://llmeval.com/index
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: H2O EvalGPT
desc: H2O.ai推出的基于Elo评级方法的大模型评估系统
avatar: /img/h2o-evalgpt-icon.png
link: https://evalgpt.ai
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: PubMedQA
desc: 生物医学研究问答数据集和模型得分排行榜
avatar: /img/pubmedqa-icon.png
link: https://pubmedqa.github.io
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: Chatbot Arena
desc: 匿名对比评测不同AI模型,由社区投票排名。
avatar: /img/icon.png
link: https://chat.lmsys.org/
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: Chatbot Arena排行榜
desc: 基于Elo评分的AI模型排行榜,反映模型真实能力。
avatar: /img/icon.png
link: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: OpenCompass
desc: 上海AI实验室开源的模型评测平台。
avatar: /img/icon.png
link: https://opencompass.org.cn/
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: MMLU基准测试
desc: 大规模多任务语言理解基准,广泛用于模型评测。
avatar: /img/icon.png
link: https://www.mmlu.ai/
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: SuperGLUE
desc: 自然语言理解基准测试套件。
avatar: /img/icon.png
link: https://super.gluebenchmark.com/
bgColor: '#FCDBA0'
textColor: '#A05F2C'
- name: HELM基准
desc: 语言模型整体评估基准,覆盖多方面能力评测。
avatar: /img/icon.png
link: https://www.helm.org/
bgColor: '#FCDBA0'
textColor: '#A05F2C'
上次更新: 2023/11/17, 11:46:28
