MMLU （大规模多任务语言理解）

AI大语言模型

MMLU （大规模多任务语言理解）

MMLU （Massive Multitask Language Understanding）是一种新的基准测试

标签： AI模型评测

链接直达手机查看

MMLU（Massive Multitask Language Understanding）是一种新的基准测试，旨在通过仅在零镜头和少镜头设置中评估模型来衡量预训练期间获得的知识。这使得基准更具挑战性，并且更类似于我们评估人类的方式。该基准测试涵盖STEM、人文学科、社会科学等领域的57个学科。它的难度从初级到高级专业水平不等，它测试世界知识和解决问题的能力。科目范围从传统领域（如数学和历史）到更专业的领域（如法律和道德）。主题的粒度和广度使基准测试成为识别模型盲点的理想选择。

©️版权声明：如涉及作品内容、版权和其它问题，请联系我方删除，我方将在收到通知后第一时间删除内容！本文只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。

类似网站

/uploadfile/202312/3ab9bba29fc079e.png

中文通用大模型综合性测评基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准

/uploadfile/202409/7529353d1602b55.png

H2O.ai是一家专注于人工智能和机器学习的公司，提供了一系列的AI产品和解决方案。

/uploadfile/202312/10eadcfa3ad2b81.png

PubMedQA是一个针对生物医学研究问答的在线平台

/uploadfile/202312/8e85d7e1e5d1f59.png

FlagEval（天秤）

FlagEval（天秤）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评

/uploadfile/202312/5d6e7ace16e8da3.png

斯坦福大学推出的大模型评测体系

/uploadfile/202312/6e2a38d2a7c79b4.png

MMBench是一个用于评估指令微调视觉语言模型（VLM）各种能力的平台

/uploadfile/202312/88695f879b976.png

OpenCompass

OpenCompass是由上海人工智能实验室（上海AI实验室）于2023年8月正式推出的大模型开放评测体系，通过完整开源可复现的评测框架，支持大语言模型、多模态模型各类模型的一站式评测，并定期公布评测

/uploadfile/202312/a4e6d5dafe3a5ca.png

CMMLU是一个综合性的汉语评估基准，专门用于评估语言模型在汉语背景下的知识和推理能力

术心导航官网收录了国内外数千个AI工具，全面涵盖了AI写作、AI图像处理、AI视频制作、AI对话聊天等多个领域。此外，还特别提供了视频剪辑、直播运营、后期制作等热搜职业岗位的运营资源，旨在帮助您轻松掌握这些技能，开启职业发展的新篇章。 Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

术心导航关于我们广告合作友情链接

关注我们

Copyright © 术心导航豫ICP备2022024987号