智源发布原生多模态世界模型Emu3，无需扩散模型--头条今日-看天下新闻图文生活资讯平台

日前，智源研究院方面正式发布原生多模态世界模型Emu3。据了解，该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。值得一提的是，目前该模型已开源关键技术和模型。

据悉，Emu3提供了一个强大的视觉tokenizer，能够将视频和图像转换为离散token，这些视觉离散token可与文本tokenizer输出的离散token一起送入模型。与此同时，该模型输出的离散token可以被转换为文本、图像和视频，为Any-to-Any的任务提供更统一的研究范式。

此外受益于Emu3下一个token预测框架的灵活性，直接偏好优化（DPO）可无缝应用于自回归视觉生成，使得模型与人类偏好保持一致。

据了解，Emu3保留了主流大语言模型（即Llama-2）的网络架构，不同点在于其扩展了Llama-2架构中的嵌入层，以容纳离散的视觉token。此外还使用了GQA注意力机制、SwiGLU激活函数和一维旋转位置编码（RoPE）等技术，并去除注意力模块中QKV层和线性投影层中的偏置，并且其还采用0.1的dropout率来提高训练的稳定性，以及使用QwenTokenizer来对多语言文本进行编码。

据智源研究院院长王仲远介绍，自去年以来，智源研发团队通过不断探索，为文字、图像、视频发明了一种新“语言”，使得过去难以互通的不同模态信息，能够在一个统一的空间里进行表达，从而实现原生多模态世界模型的重要突破。目前，Emu3在图像生成、视频生成、视觉语言理解等任务中超过SDXL、LLaVA、OpenSora等开源模型。

王仲远表示，“Emu3会为未来多模态基座模型的发展指明一个方向，是下一代的多模态大模型的训练范式。对于这样的技术路线，需要各界共同努力，才能加速多模态基座模型的发展。期待在产业转化过程中，Emu3能够像悟道系列，与各大模型公司、互联网企业等合作，共同推进技术的应用”。

不久前，智源研究院研发的开源通用向量系列模型BGE（BAAI General Embedding）登顶Hugging Face月度榜单榜首，据悉这也是中国首个登顶该榜单的模型。据官方透露，在一年内BGE的总下载量已超数亿次，同时也是下载量最多的国产AI系列模型。据了解，该模型专为各类信息检索及大语言模型检索增强应用打造。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】

	农业农村部：预计我国粮食产量今年将首次突破1.4万亿斤
	农业农村部：四季度猪价大幅波动的可能性较小
	三晶股份IPO注册折戟，今年还有5家“钉子户”业绩没过关
	证监会主席吴清：没有出现扎堆、违规减持现象
	互换便利申请额度超2000亿，18日起启动操作
	三季度488.5万外国人免签入境同比上升78.6%
	内幕交易时有发生，多家上市公司高管遭立案、吃罚单
	涉嫌违法违规使用医保基金国家医保局点名七家医院
	楼市限制措施全面退场：限购地区仅剩京沪深及海南部分城市
	首批“持证”射频美容仪产品将上架，百亿级市场再陷“混战”？

头条今日_全国热点资讯网（头条才是今日你关心的）

智源发布原生多模态世界模型Emu3，无需扩散模型

相关推荐

农业农村部：预计我国粮食产量今年将首次突破1.4万亿斤

农业农村部：四季度猪价大幅波动的可能性较小

三晶股份IPO注册折戟，今年还有5家“钉子户”业绩没过关

证监会主席吴清：没有出现扎堆、违规减持现象

互换便利申请额度超2000亿，18日起启动操作

三季度488.5万外国人免签入境同比上升78.6%

内幕交易时有发生，多家上市公司高管遭立案、吃罚单

涉嫌违法违规使用医保基金国家医保局点名七家医院

楼市限制措施全面退场：限购地区仅剩京沪深及海南部分城市

首批“持证”射频美容仪产品将上架，百亿级市场再陷“混战”？

评论