OpenCompass

AI大模型评测

OpenCompass

OpenCompass是由上海人工智能实验室（上海AI实验室）于2023年8月正式推出的大模型开放评测体系，通过完整开源可复现的评测框架，支持大语言模型、多模态模型各类模型的一站式评测，并定期公布评测

标签： AI大模型评测上海人工智能实验室上海AI实验室大语言模型多模态模型

链接直达手机查看

OpenCompass是由上海人工智能实验室（上海AI实验室）于2023年8月正式推出的大模型开放评测体系，通过完整开源可复现的评测框架，支持大语言模型、多模态模型各类模型的一站式评测，并定期公布评测结果榜单。

OpenCompass平台广泛支持超过40+个HuggingFace和API模型，整合了100+个基准测试和大约400,000个问题，以评估八个维度的模型。其高效的分布式评估系统允许对数十亿个规模的模型进行快速、彻底的评估。该平台支持多种评估方法，包括零样本、少样本和链式评估，并采用高度可扩展的模块化设计，可轻松添加新模型、基准测试或自定义任务策略。此外，OpenCompass还包括强大的实验管理和报告工具，用于详细跟踪和实时结果显示。

©️版权声明：如涉及作品内容、版权和其它问题，请联系我方删除，我方将在收到通知后第一时间删除内容！本文只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。

类似网站

/uploadfile/202312/d9d784771cd63ab.png

序列猴子企业CoPilot

序列猴子企业大模型是一款为企业量身定制的创新AI产品，通过企业专属大语言模型的定制和私有化部署，实现与基于特定行业数据、语气和风格的角色间的个性化自然语言交流，提高企业应用场景专业度，提升用户体验

/uploadfile/202312/3ab9bba29fc079e.png

中文通用大模型综合性测评基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准

/uploadfile/202312/71f29c143db6143.png

OpenBMB是一个致力于将大型模型技术普及化的平台。

/uploadfile/202312/8e85d7e1e5d1f59.png

FlagEval（天秤）

FlagEval（天秤）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评

/uploadfile/202312/f099c5fd45c172b.png

Evidently AI

Evidently AI，这是一个AI可观测性和ML监测平台

/uploadfile/202312/5d6e7ace16e8da3.png

斯坦福大学推出的大模型评测体系

/uploadfile/202312/6e2a38d2a7c79b4.png

MMBench是一个用于评估指令微调视觉语言模型（VLM）各种能力的平台

术心导航官网收录了国内外数千个AI工具，全面涵盖了AI写作、AI图像处理、AI视频制作、AI对话聊天等多个领域。此外，还特别提供了视频剪辑、直播运营、后期制作等热搜职业岗位的运营资源，旨在帮助您轻松掌握这些技能，开启职业发展的新篇章。 Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

术心导航关于我们广告合作友情链接

关注我们

Copyright © 术心导航豫ICP备2022024987号