本站点使用Cookies,继续浏览表示您同意我们使用Cookies。
Cookies和隐私政策>
日前,浪潮信息发布了大规模面向时空一致性视频生成训练的开源数据集DropletVideo-10M,该数据集有1000万条高质量训练数据,总时长20,400小时,前后耗费1年多时间制作而成。为了验证该数据集的有效性,浪潮信息基于该数据集训练了视频生成模型,模型的视频生成效果达到主流开源水平,在持续时空一致性方面具有突出表现,明显领先于I2VGen-XL、Animate-any等主要的视频生成模型。
DropletVideo-10M数据集及模型已在Huggingface开源。以下为开源项目地址:https://dropletx.github.io/
时空一致性是视频生成领域最大的技术挑战之一。视频中每一个元素都要按照物理规律演进,而且演进要与镜头配合,比如一辆汽车在旷野中飞驰,那么车的光影、地面的尘土等所有的元素要配合镜头一起演进,并且这种演进要符合物理规律。每一帧视频演进都会产生误差,误差会随着时长而积累,生成的视频的失真度会越来越严重,最终让视频完全不可观看,这也是视频生成模型都对时长进行限制的直接原因之一。
视频时空一致,就是画面同拍摄画面的相机运动保持一致,目前的技术方法要么只解决时间或空间一致性问题,要么只是对二者进行基本的结合。数据即智能,在解决时空一致性的众多技术思路中,浪潮信息选择了最基本的手段——训练数据集。为此制作DropletVideo-10M数据集,浪潮信息开发了 6250 个搜索词从YouTube上收集了285万多个视频,经过分割提取出1.08亿个有效的视频片段,对1.08亿个视频片段最终分级分类后,筛选出1000万条可用训练数据并标注摘要。相较于同类规模的Panda-70M等现有视频-文本数据集,DropletVideo-10M不仅在视频收集和筛选方面采用了更为严格的标准,而且摘要标注内容更丰富,平均每条视频的摘要达206个单词,显著提升了其潜力,以更好地满足时空一致性视频生成模型的训练需求。
双重运动耦合:填补行业空白
传统数据集(如OpenVid-1M等)主要是静态镜头下的物体运动视频,本身包含的时空一致性内容较少,而DropletVideo-10M首次整合“物体运动+相机运动”的双重动态,全部采用包含复杂相机运动的视频片段,通过独创“收集-分割-筛选-摘要”四阶段构建流程,从长视频中提取时空连贯片段,确保每个样本同时包含主体动作与镜头推拉、平移等运动轨迹,为模型理解真实世界运动规律提供多维数据支撑。
语义丰富的摘要:解码动态细节
当前视频数据集的摘要普遍长度不足,难以详尽呈现视频内容,更缺乏时空一致性所需的摄像机运动内容,以及由于镜头方向及移动引起的场景变化的描述,很多数据集的摘要长度不足20个单词。
DropletVideo-10M构建了行业领先的精细化文本摘要,每条视频的摘要平均达206个单词,明确标注物体运动轨迹、速度变化及相机运动方式,对镜头移动方向、速率及其引发的画面变化进行描述。这种细粒度标注使文本-视频对齐的时空一致性表达提升至新高度。
严控数据品质,专业级标准
通过美学评分与图像质量双重筛选机制(见下图),DropletVideo-10M中95%视频达到专业影像审美标准(美学评分>3.5),78%片段具备影视级画质(质量评分>4.0)。这种“艺术价值+技术参数“的双重保障,有效规避了低质数据导致的画面抖动、形变等问题。
图表来源 《DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation》
开源生态,赋能多维场景
DropletVideo-10M是唯一完全公开自采集数据的模型,确保了数据的自主性和创新性。作为完全开源的数据资产,DropletVideo-10M可以为影视特效模拟、多视角动态场景生成、3D模型制作等领域提供底层支持,让开发者能够训练出精准控制镜头语言与物体动态的生成模型,推动AI视频创作向专业化、工业化方向演进。
基于DropletVideo-10M,浪潮信息训练并开源了视频生成模型。模型采用业界知名的开源模型CogVideoX-Fun模型架构,最高支持生成85帧896x896分辨率的视频,具有多种相机运镜甚至组合运镜的生成能力,连续时间、空间一致性强,而且具有运动强度控制模块,是业界首个支持运动强度控制的视频生成模型。
给定文本提示:"视频展示了一位厨师在现代化厨房中专注于烹饪的过程,其身后是专业的厨房设备,周围环境整洁而宁静。视频开头,厨师佩戴高高的白色厨师帽,身穿黑色厨师外套及白色围裙,正站在厨房的中央操作台前。画面聚焦于厨师灵巧的双手,他正用一把明亮的菜刀在堆满各种新鲜食材的工作台上切菜。这些蔬菜包括红色番茄、黄色辣椒、绿色黄瓜,以及一旁高大的绿色花椰菜。蔬菜颜色鲜艳,排列整齐。背景中可以看到厨房的金属排烟罩和数个不锈钢制的现代化厨具设备,厨房仅有厨师一人专注地工作。随着视频的推进,镜头缓慢向右平移,工作台上一个红色苹果逐渐进入画面,苹果非常新鲜。”
开源开放,探索AI前沿
浪潮信息一直在进行AI算法的前沿探索,提出了局部注意力过滤增强机制LFA(Localized Filtering-based Attention)、MoE架构中的基于注意力机制的门控网络(Attention Router)等创新算法。
此次发布的DropletVideo-10M数据集以及模型DropletVideo也是属于探索性质,时空一致性的真正解决还需要很长的路要走。
感兴趣的开发者请在Huggingface保持关注,后续的进展会在社区即时发布。