AI 生成视频的热度一直在技术圈中递增不减,此前,Colossal-AI 团队在 GitHub 全面开源了全球首个类 Sora 架构视频生成模型 「Open-Sora」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重。
近日,Open-Sora 在开源社区悄悄更新了,现已支持长达单镜头 16 秒的视频生成,分辨率最高可达 720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。
GitHub: https://github.com/hpcaitech/Open-Sora
本次更新内容依旧全部开源,包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo 示例和详尽的上手教程。
另外,团队在 GitHub 上正式发布了 Open-Sora 技术报告,本次更新主要包括以下几项关键特性:
- 支持长视频生成;
- 视频生成分辨率最高可达 720p;
- 单模型支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求;
- 提出了更稳定的模型架构设计,支持多时间 / 分辨率 / 长宽比 / 帧率训练;
- 开源了最新的自动数据处理全流程。
所有代码均已开源至 GitHub,对 AI 文生视频感兴趣的同学,可以体验一下。