阿里云自研AI肖像视频生成框架已接入通义App--头条今日-看天下新闻图文生活资讯平台

日前，阿里云方面宣布自研AI肖像视频生成框架“EMO”（Emote Portrait Alive）已接入通义App，并向所有用户免费开放。

据了解，EMO框架可以用于生成“对口型”视频，用户只需输入人物照片及音频（说话、唱歌、rap均可），就能够让照片中的人物开口说出相关音频，并支持中英韩等多种语言。而生成视频的最终长度，则取决于输入音频的长度。

据悉，EMO基于英伟达的Audio2Video扩散模型打造，使用了超过250个小时的专业视频和超过1.5亿张图像进行训练，相关训练分为图像预训练、视频训练和速度层训练三个阶段。其中在图像预训练阶段，网络以单帧图像为输入进行训练；在视频训练阶段，引入时间模块和音频层，处理连续帧；速度层训练则专注于调整角色头部的移动速度和频率。

目前，通义App已首批上线超80个EMO模板，包括热门歌曲《上春山》、《野狼Disco》，以及网络热梗“钵钵鸡”、“回手掏”等，用户任选一款模板，然后上传一张肖像照片就能合成演戏、唱歌视频。但需要注意的是，目前通义App暂未开放自定义音频功能，即用户暂时无法自行上传音频内容进行合成。

据了解，通义App是阿里云多项AI技术的重要落地和应用场景。例如此前曾走红的全民舞王应用，便是基于阿里通义实验室自研的Animate Anyone算法打造，并集成多项创新技术，包括引入ReferenceNet用于捕捉和保留原图像信息，可高度还原人物、表情及服装细节，还使用了高效的Pose Guider姿态引导器，确保动作的精准可控，并通过时序生成模块保障视频帧之间的连贯流畅性等。

此外基于通义千问大模型，近期通义App还陆续推出了超长文档解析、AI编码助手、AI会议助手等免费实用功能。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】

	“社保缴满15年就够了”误解该如何消除？
	报告：适时合理调整国有金融资本在银行等行业的比重
	“App扣费前提醒一声有那么难吗”
	业务猛增4000%！黄金变现热潮持续短期追涨需谨慎
	中微公司一季度净利润下降9.53%，刻蚀设备营收增长六成
	江苏银行一季度营收、净利均涨逾10%，拨备覆盖率下降
	公告现多处文字错误西藏珠峰被监管警示
	上市券商一季报披露拉开帷幕自营业务仍是业绩“胜负手”
	长城汽车业绩过山车：去年一季度净利暴跌九成后，今年一季度暴增17倍
	浙江建投：去年净利润同比下降近六成，计提资产减值准备10.12亿元

头条今日_全国热点资讯网（头条才是今日你关心的）

阿里云自研AI肖像视频生成框架已接入通义App

相关推荐

“社保缴满15年就够了”误解该如何消除？

报告：适时合理调整国有金融资本在银行等行业的比重

“App扣费前提醒一声有那么难吗”

业务猛增4000%！黄金变现热潮持续短期追涨需谨慎

中微公司一季度净利润下降9.53%，刻蚀设备营收增长六成

江苏银行一季度营收、净利均涨逾10%，拨备覆盖率下降

公告现多处文字错误西藏珠峰被监管警示

上市券商一季报披露拉开帷幕自营业务仍是业绩“胜负手”

长城汽车业绩过山车：去年一季度净利暴跌九成后，今年一季度暴增17倍

浙江建投：去年净利润同比下降近六成，计提资产减值准备10.12亿元

评论