AI网站
AI网站

AI模型评测

MMLU

大规模多任务语言理解基准

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

C-Eval

一个全面的中文基础模型评估套件

FlagEval

智源研究院推出的FlagEval（天秤）大模型评测平台

SuperCLUE

中文通用大模型综合性测评基准

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

CMMLU

一个综合性的大模型中文评估基准

MMBench

全方位的多模态大模型能力评测体系

HELM

斯坦福大学推出的大模型评测体系

Chatbot Arena

以众包方式进行匿名随机对战的LLM基准平台

LLMEval3

由复旦大学NLP实验室推出的大模型评测基准

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

PubMedQA

生物医学研究问答数据集和模型得分排行榜

Chatbot Arena

匿名对比评测不同AI模型，由社区投票排名。

Chatbot Arena排行榜

基于Elo评分的AI模型排行榜，反映模型真实能力。

OpenCompass

上海AI实验室开源的模型评测平台。

MMLU基准测试

大规模多任务语言理解基准，广泛用于模型评测。

SuperGLUE

自然语言理解基准测试套件。

HELM基准

语言模型整体评估基准，覆盖多方面能力评测。


  - name: MMLU
    desc: 大规模多任务语言理解基准 
    avatar: /img/mmlu-benchmark-icon.png
    link: https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: Open LLM Leaderboard
    desc: Hugging Face推出的开源大模型排行榜单 
    avatar: /img/huggingface-icon.png
    link: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: C-Eval
    desc: 一个全面的中文基础模型评估套件 
    avatar: /img/c-eval-icon.png
    link: https://cevalbenchmark.com/static/leaderboard_zh.html 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: FlagEval
    desc: 智源研究院推出的FlagEval（天秤）大模型评测平台 
    avatar: /img/flageval-icon.png
    link: https://flageval.baai.ac.cn/#/trending 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: SuperCLUE
    desc: 中文通用大模型综合性测评基准 
    avatar: /img/superclue-icon.png
    link: https://www.cluebenchmarks.com/static/superclue.html 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: OpenCompass
    desc: 上海人工智能实验室推出的大模型开放评测体系 
    avatar: /img/opencompass-icon.png
    link: https://opencompass.org.cn/leaderboard-llm 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: CMMLU
    desc: 一个综合性的大模型中文评估基准 
    avatar: /img/cmmlu-benchmark-icon.png
    link: https://github.com/haonan-li/CMMLU 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: MMBench
    desc: 全方位的多模态大模型能力评测体系 
    avatar: /img/mmbench-icon.png
    link: https://mmbench.opencompass.org.cn/leaderboard 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: HELM
    desc: 斯坦福大学推出的大模型评测体系 
    avatar: /img/helm-benchmark.png
    link: https://crfm.stanford.edu/helm/latest 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: Chatbot Arena
    desc: 以众包方式进行匿名随机对战的LLM基准平台 
    avatar: /img/lmsys-icon.png
    link: https://chat.lmsys.org 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: LLMEval3
    desc: 由复旦大学NLP实验室推出的大模型评测基准 
    avatar: /img/llm-eval-icon.png
    link: http://llmeval.com/index 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: H2O EvalGPT
    desc: H2O.ai推出的基于Elo评级方法的大模型评估系统 
    avatar: /img/h2o-evalgpt-icon.png
    link: https://evalgpt.ai 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: PubMedQA
    desc: 生物医学研究问答数据集和模型得分排行榜 
    avatar: /img/pubmedqa-icon.png
    link: https://pubmedqa.github.io 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: Chatbot Arena
    desc: 匿名对比评测不同AI模型，由社区投票排名。 
    avatar: /img/icon.png
    link: https://chat.lmsys.org/ 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: Chatbot Arena排行榜
    desc: 基于Elo评分的AI模型排行榜，反映模型真实能力。 
    avatar: /img/icon.png
    link: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: OpenCompass
    desc: 上海AI实验室开源的模型评测平台。 
    avatar: /img/icon.png
    link: https://opencompass.org.cn/ 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: MMLU基准测试
    desc: 大规模多任务语言理解基准，广泛用于模型评测。 
    avatar: /img/icon.png
    link: https://www.mmlu.ai/ 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: SuperGLUE
    desc: 自然语言理解基准测试套件。 
    avatar: /img/icon.png
    link: https://super.gluebenchmark.com/ 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: HELM基准
    desc: 语言模型整体评估基准，覆盖多方面能力评测。 
    avatar: /img/icon.png
    link: https://www.helm.org/ 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'

上次更新: 2023/11/17, 11:46:28

← AI办公工具 AI健康医疗→