FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。

目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对广泛的语言基础模型、跨模态基础模型实现了评测。

后续将全面覆盖基础模型、预训练算法、微调/压缩算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。

image.png

©️版权声明:如涉及作品内容、版权和其它问题,请联系我方删除,我方将在收到通知后第一时间删除内容!本文只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。

类似网站