AI工具集导航
首页
  • AI写作工具
  • AI音频工具
  • AI视频工具
  • AI设计工具
  • AI编程工具
  • AI对话聊天
  • AI语言翻译
  • AI内容检测
  • AI提示指令
  • AI训练模型
  • AI学习网站
  • AI开发框架
  • AI图像工具
  • AI办公工具
  • AI模型评测
  • AI健康医疗
wkiwi的博客 (opens new window)
预约系统 (opens new window)
GitHub (opens new window)
首页
  • AI写作工具
  • AI音频工具
  • AI视频工具
  • AI设计工具
  • AI编程工具
  • AI对话聊天
  • AI语言翻译
  • AI内容检测
  • AI提示指令
  • AI训练模型
  • AI学习网站
  • AI开发框架
  • AI图像工具
  • AI办公工具
  • AI模型评测
  • AI健康医疗
wkiwi的博客 (opens new window)
预约系统 (opens new window)
GitHub (opens new window)
npm

一句话做应用

  • AI网站

    • AI写作工具
    • AI音频工具
    • AI视频工具
    • AI设计工具
    • AI编程工具
    • AI对话聊天
    • AI语言翻译
    • AI内容检测
    • AI提示指令
    • AI训练模型
    • AI学习网站
    • AI开发框架
    • AI图像工具
    • AI办公工具
    • AI模型评测
    • AI健康医疗
    • AI智能体与自动化
    • AI办公与效率工具
    • AI教育与学习工具
    • AI营销与商业工具
    • AI研究与开发工具
    • AI数据分析
    • AI法律助手
    • AI金融工具
    • AI新闻资讯
  • AI网站
  • AI网站
wkiwi
2023-11-16

AI模型评测

MMLU

大规模多任务语言理解基准

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

C-Eval

一个全面的中文基础模型评估套件

FlagEval

智源研究院推出的FlagEval(天秤)大模型评测平台

SuperCLUE

中文通用大模型综合性测评基准

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

CMMLU

一个综合性的大模型中文评估基准

MMBench

全方位的多模态大模型能力评测体系

HELM

斯坦福大学推出的大模型评测体系

Chatbot Arena

以众包方式进行匿名随机对战的LLM基准平台

LLMEval3

由复旦大学NLP实验室推出的大模型评测基准

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

PubMedQA

生物医学研究问答数据集和模型得分排行榜

Chatbot Arena

匿名对比评测不同AI模型,由社区投票排名。

Chatbot Arena排行榜

基于Elo评分的AI模型排行榜,反映模型真实能力。

OpenCompass

上海AI实验室开源的模型评测平台。

MMLU基准测试

大规模多任务语言理解基准,广泛用于模型评测。

SuperGLUE

自然语言理解基准测试套件。

HELM基准

语言模型整体评估基准,覆盖多方面能力评测。


  - name: MMLU
    desc: 大规模多任务语言理解基准 
    avatar: /img/mmlu-benchmark-icon.png
    link: https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: Open LLM Leaderboard
    desc: Hugging Face推出的开源大模型排行榜单 
    avatar: /img/huggingface-icon.png
    link: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: C-Eval
    desc: 一个全面的中文基础模型评估套件 
    avatar: /img/c-eval-icon.png
    link: https://cevalbenchmark.com/static/leaderboard_zh.html 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: FlagEval
    desc: 智源研究院推出的FlagEval(天秤)大模型评测平台 
    avatar: /img/flageval-icon.png
    link: https://flageval.baai.ac.cn/#/trending 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: SuperCLUE
    desc: 中文通用大模型综合性测评基准 
    avatar: /img/superclue-icon.png
    link: https://www.cluebenchmarks.com/static/superclue.html 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: OpenCompass
    desc: 上海人工智能实验室推出的大模型开放评测体系 
    avatar: /img/opencompass-icon.png
    link: https://opencompass.org.cn/leaderboard-llm 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: CMMLU
    desc: 一个综合性的大模型中文评估基准 
    avatar: /img/cmmlu-benchmark-icon.png
    link: https://github.com/haonan-li/CMMLU 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: MMBench
    desc: 全方位的多模态大模型能力评测体系 
    avatar: /img/mmbench-icon.png
    link: https://mmbench.opencompass.org.cn/leaderboard 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: HELM
    desc: 斯坦福大学推出的大模型评测体系 
    avatar: /img/helm-benchmark.png
    link: https://crfm.stanford.edu/helm/latest 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: Chatbot Arena
    desc: 以众包方式进行匿名随机对战的LLM基准平台 
    avatar: /img/lmsys-icon.png
    link: https://chat.lmsys.org 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: LLMEval3
    desc: 由复旦大学NLP实验室推出的大模型评测基准 
    avatar: /img/llm-eval-icon.png
    link: http://llmeval.com/index 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: H2O EvalGPT
    desc: H2O.ai推出的基于Elo评级方法的大模型评估系统 
    avatar: /img/h2o-evalgpt-icon.png
    link: https://evalgpt.ai 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: PubMedQA
    desc: 生物医学研究问答数据集和模型得分排行榜 
    avatar: /img/pubmedqa-icon.png
    link: https://pubmedqa.github.io 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: Chatbot Arena
    desc: 匿名对比评测不同AI模型,由社区投票排名。 
    avatar: /img/icon.png
    link: https://chat.lmsys.org/ 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: Chatbot Arena排行榜
    desc: 基于Elo评分的AI模型排行榜,反映模型真实能力。 
    avatar: /img/icon.png
    link: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: OpenCompass
    desc: 上海AI实验室开源的模型评测平台。 
    avatar: /img/icon.png
    link: https://opencompass.org.cn/ 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: MMLU基准测试
    desc: 大规模多任务语言理解基准,广泛用于模型评测。 
    avatar: /img/icon.png
    link: https://www.mmlu.ai/ 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: SuperGLUE
    desc: 自然语言理解基准测试套件。 
    avatar: /img/icon.png
    link: https://super.gluebenchmark.com/ 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: HELM基准
    desc: 语言模型整体评估基准,覆盖多方面能力评测。 
    avatar: /img/icon.png
    link: https://www.helm.org/ 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
上次更新: 2023/11/17, 11:46:28
AI办公工具
AI健康医疗

← AI办公工具 AI健康医疗→

Theme by Vdoing | Copyright © 2023-2026 wkiwi | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×