MMLU(Massive Multitask Language Understanding)是一种新的基准测试,旨在通过仅在零镜头和少镜头设置中评估模型来衡量预训练期间获得的知识。这使得基准更具挑战性,并且更类似于我们评估人类的方式。该基准测试涵盖STEM、人文学科、社会科学等领域的57个学科。它的难度从初级到高级专业水平不等,它测试世界知识和解决问题的能力。科目范围从传统领域(如数学和历史)到更专业的领域(如法律和道德)。主题的粒度和广度使基准测试成为识别模型盲点的理想选择。
©️版权声明:如涉及作品内容、版权和其它问题,请联系我方删除,我方将在收到通知后第一时间删除内容!本文只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。