Hunyuan-DiT,这是一种文本到图像的扩散转换器,对英语和中文都有细致的理解。为了构建Hunyuan-DiT,我们精心设计了transformer结构、文本编码器和位置编码。我们还从头开始构建了一个完整的数据管道,以更新和评估数据以进行迭代模型优化。为了精细地理解语言,我们训练了一个多模态大型语言模型来优化图像的标题。最后,Hunyuan-DiT可以与用户进行多轮多模态对话,根据上下文生成和提炼图像。通过我们精心设计的整体人工评估协议,由50多名专业人工评估员参与,与其他开源模型相比,Hunyuan-DiT在中文到图像的生成方面树立了新的新水平。

🎉Hunyuan-DiT主要特点

中英双语DiT架构

Hunyuan-DiT是潜在空间中的扩散模型,如下图所示。遵循潜在扩散模型,我们使用预先训练的变分自动编码器(VAE)将图像压缩到低维潜在空间,并训练扩散模型以使用扩散模型学习数据分布。我们的扩散模型使用变压器进行参数化。为了对文本提示进行编码,我们利用了预先训练的双语(英文和中文)CLIP和多语言T5编码器的组合。
image.png

多轮Text2Image生成

了解自然语言指令并与用户执行多轮次交互对于text-to-image系统。它可以帮助构建一个动态的迭代创建过程,将用户的想法变为现实一步一步来。在本节中,我们将详细介绍如何赋予Hunyuan-DiT执行多轮的能力对话和图像生成。我们训练MLLM理解多轮用户对话并输出用于图像生成的新文本提示。
image.png
©️版权声明:如涉及作品内容、版权和其它问题,请联系我方删除,我方将在收到通知后第一时间删除内容!本文只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。

类似网站