日前,全球首个类Sora架构开源视频生成模型Open-Sora迎来更新、并依旧全部开源,其中包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节等。
据了解,Open-Sora是由Colossal-AI于今年3月推出,其采用了Sora同源架构的Diffusion Transformer(DiT),并同样使用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层、将其扩展到了视频数据上。具体来说,其整个架构包括一个预训练好的VAE、一个文本编码器,以及一个利用空间-时间注意力机制的STDiT(Spatial Temporal Diffusion Transformer)模型。
据悉,在功能方面,新版Open-Sora可支持长达16秒的单镜头视频生成,且视频分辨率最高可达720p,并可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。而且新版Open-Sora还支持视频拼接功能,这也意味着用户有机会免费创作一段带有故事性的小短片。
在架构方面,新版Open-Sora对STDiT架构进行了关键性改进,旨在提高模型的训练稳定性和整体性能。针对当前的序列预测任务,该团队采纳了大语言模型的最佳实践,将时序注意力中的正弦波位置编码(sinusoidal positional encoding)替换为更加高效的旋转位置编码(RoPE embedding)。此外为了增强训练的稳定性,该团队还参考SD3模型架构,进一步引入了QK归一化技术,以增强半精度训练的稳定性。
训练方面,新版Open-Sora采用了一种多阶段训练方法,每个阶段都会基于前一个阶段的权重继续训练。据悉,相较于单一阶段训练,这种多阶段训练通过分步骤引入数据,能够更高效地实现高质量视频生成的目标。
在数据收集和预处理流程方面,Colossal-AI致力于扩充和优化数据集,为新版Open-Sora建立了一个自动化的数据处理流程,该流程遵循奇异值分解(SVD)原则,涵盖了场景分割、字幕处理、多样化评分与筛选,以及数据集的管理系统和规范。
据悉在公布Open-Sora各项进展的同时,Colossal-AI方面还指出,“尽管Open-Sora在复现类Sora文生视频模型的工作方面取得了不错的进展,但我们也发现,当前生成的视频在多个方面仍有待改进,包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。对于这些挑战,我们将在下一版本的开发中优先解决,以期望达到更高的视频生成标准”。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读:
- Sora引发热议的同时,AI同声传译器正开启同传新纪元
- 万字梳理中国AIGC产业峰会激辩,大模型应用最全行业参考在此
未经允许不得转载:头条今日_全国热点资讯网(头条才是今日你关心的) » Open-Sora升级,可生成16s、720p分辨率视频