AI工具集导航
首页
  • AI写作工具
  • AI音频工具
  • AI视频工具
  • AI设计工具
  • AI编程工具
  • AI对话聊天
  • AI语言翻译
  • AI内容检测
  • AI提示指令
  • AI训练模型
  • AI学习网站
  • AI开发框架
  • AI图像工具
  • AI办公工具
  • AI模型评测
  • AI健康医疗
wkiwi的博客 (opens new window)
预约系统 (opens new window)
GitHub (opens new window)
首页
  • AI写作工具
  • AI音频工具
  • AI视频工具
  • AI设计工具
  • AI编程工具
  • AI对话聊天
  • AI语言翻译
  • AI内容检测
  • AI提示指令
  • AI训练模型
  • AI学习网站
  • AI开发框架
  • AI图像工具
  • AI办公工具
  • AI模型评测
  • AI健康医疗
wkiwi的博客 (opens new window)
预约系统 (opens new window)
GitHub (opens new window)
  • AI网站

    • AI写作工具
    • AI音频工具
    • AI视频工具
    • AI设计工具
    • AI编程工具
    • AI对话聊天
    • AI语言翻译
    • AI内容检测
    • AI提示指令
    • AI训练模型
    • AI学习网站
    • AI开发框架
    • AI图像工具
    • AI办公工具
    • AI模型评测
    • AI健康医疗
  • AI网站
  • AI网站
wkiwi
2023-11-16

AI模型评测

MMLU

大规模多任务语言理解基准

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

C-Eval

一个全面的中文基础模型评估套件

FlagEval

智源研究院推出的FlagEval(天秤)大模型评测平台

SuperCLUE

中文通用大模型综合性测评基准

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

CMMLU

一个综合性的大模型中文评估基准

MMBench

全方位的多模态大模型能力评测体系

HELM

斯坦福大学推出的大模型评测体系

Chatbot Arena

以众包方式进行匿名随机对战的LLM基准平台

LLMEval3

由复旦大学NLP实验室推出的大模型评测基准

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

PubMedQA

生物医学研究问答数据集和模型得分排行榜


  - name: MMLU
    desc: 大规模多任务语言理解基准 
    avatar: /img/mmlu-benchmark-icon.png
    link: https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: Open LLM Leaderboard
    desc: Hugging Face推出的开源大模型排行榜单 
    avatar: /img/huggingface-icon.png
    link: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: C-Eval
    desc: 一个全面的中文基础模型评估套件 
    avatar: /img/c-eval-icon.png
    link: https://cevalbenchmark.com/static/leaderboard_zh.html 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: FlagEval
    desc: 智源研究院推出的FlagEval(天秤)大模型评测平台 
    avatar: /img/flageval-icon.png
    link: https://flageval.baai.ac.cn/#/trending 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: SuperCLUE
    desc: 中文通用大模型综合性测评基准 
    avatar: /img/superclue-icon.png
    link: https://www.cluebenchmarks.com/static/superclue.html 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: OpenCompass
    desc: 上海人工智能实验室推出的大模型开放评测体系 
    avatar: /img/opencompass-icon.png
    link: https://opencompass.org.cn/leaderboard-llm 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: CMMLU
    desc: 一个综合性的大模型中文评估基准 
    avatar: /img/cmmlu-benchmark-icon.png
    link: https://github.com/haonan-li/CMMLU 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: MMBench
    desc: 全方位的多模态大模型能力评测体系 
    avatar: /img/mmbench-icon.png
    link: https://mmbench.opencompass.org.cn/leaderboard 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: HELM
    desc: 斯坦福大学推出的大模型评测体系 
    avatar: /img/helm-benchmark.png
    link: https://crfm.stanford.edu/helm/latest 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: Chatbot Arena
    desc: 以众包方式进行匿名随机对战的LLM基准平台 
    avatar: /img/lmsys-icon.png
    link: https://chat.lmsys.org 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: LLMEval3
    desc: 由复旦大学NLP实验室推出的大模型评测基准 
    avatar: /img/llm-eval-icon.png
    link: http://llmeval.com/index 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: H2O EvalGPT
    desc: H2O.ai推出的基于Elo评级方法的大模型评估系统 
    avatar: /img/h2o-evalgpt-icon.png
    link: https://evalgpt.ai 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
  - name: PubMedQA
    desc: 生物医学研究问答数据集和模型得分排行榜 
    avatar: /img/pubmedqa-icon.png
    link: https://pubmedqa.github.io 
    bgColor: '#FCDBA0'
    textColor: '#A05F2C'
上次更新: 2023/11/17, 11:46:28
AI办公工具
AI健康医疗

← AI办公工具 AI健康医疗→

Theme by Vdoing | Copyright © 2023-2025 wkiwi | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×