在A100上用310M模型,实现每秒超30帧自回归视频生成,同时画面还保持高质量!
通过实现帧内并行采样,帧间自回归的方式,NFD让视频生成在保持较高生成质量的同时,生成效率大幅提升。
或许不久之后的游戏,就是玩家直接跟模型交互打游戏了,无需通过传统的游戏引擎。
比如在《我的世界》中,下面每个视频在NVIDIA A100 GPU上生成只需约0.48秒
值得一提的是,前段时间在X上火了的一款基于Minecraft的交互式自回归世界模型——MineWorld,也是这个微软研究院的团队做的。
当前多数的自回归视频生成模型如VideoPoet采用类似于Language Model的方式,将视频编码成离散视频Token,并逐个生成Token。
然而这种方式在生成的时候既没法利用GPU并行计算的能力,也破坏了帧内的相关性。
因此,研究人员采用了Next-Frame Diffusion(NFD)的方式来建模视频,其使用帧内双向注意力,帧间因果注意力机制的方式来建模视频,并采用扩散模型多步迭代生成连续Token。
这样做的好处是可以在生成的时候逐帧采样来流式生成视频,并在帧内并行生成以提高推理效率。
为进一步提高生成效率,研究人员进一步通过以下技术来减少推理时的总采样次数:
将一致性蒸馏扩展到视频领域,并专门针对视频模型优化,从而少量采样步骤,实现高效推理;提出了投机采样方法。由于相邻帧常常动作输入相同,模型使用当前动作输入生成多个后续帧,若输入动作发生变化,则丢弃投机生成的帧,以充分利用并行计算能力。
具体来说,NFD的架构包含一个将原始视觉信号转换为Token的Tokenizer,以及生成这些Token的基于扩散的Transformer模型。在Transformer内,研究人员使用了块状因果注意力机制,结合帧内的双向注意力和帧间的因果依赖,高效建模时空依赖性。
相比计算密集的3D全注意力,该方法将整体成本减少50%,支持高效地并行预测下一帧所有Token。
研究人员基于Flow Matching构建训练流程,追求简单和稳定性。对于视频帧xi,分配一个独立时间步t,并通过线性插值生成加噪版本:
在采样阶段,研究人员采用DPM-Solver++,通过以下公式对同一帧的所有Token去噪:
虽然NFD在推理阶段支持并行Token采样,受限于扩散模型的多步采样,实现实时视频生成仍具挑战性。
因此,研究人员首先将一致性蒸馏扩展到视频领域,通过数学变换将流匹配模型转换TrigFlow模型,从而简化了连续时间一致性模型的训练,并针对视频数据的特性进行调整。
鉴于这个发现,研究人员进一步提出了一种投机采样技术,通过并行预测多个未来帧加速推理。
在投机生成后,将预测动作与实际后续动作输入进行比较。一旦检测到预测与真实动作不一致,丢弃之后的所有投机帧,并从最后验证的帧重新开始生成
下表从视频内容的生成效率和视觉质量两个角度对比了本工作的方法和当前最先进方法。
其中,NFD指使用Flow Matching目标训练并通过DPM-Solver++进行18次采样的模型;NFD+为加速版本,通过一致性蒸馏实现4步采样,并结合了投机采样技术。
NFD+通过高效采样策略显著加速:130M和310M模型分别达到42.46FPS和31.14FPS,远超所有基线。
即使速度提升,NFD+仍保持竞争力的视觉质量,310M模型在PSNR上达到16.83,FVD为227,与更大的MineWorld模型表现相当。
最后总结来说,团队认为当下视频生成模型在各个领域百花齐放,有诞生像Sora、可灵、Veo3这样的产品,也有Genie、MineWorld这样的游戏世界模拟器,为未来世界模型的实现提供了巨大意义。随着视频模型广泛的应用,更灵活、更高效的生成范式变得越来越重要。
干部培训是一项非常严肃的任务,是提升村干部素质的最有效形式。学习期间,组织部等相关部门要认真履行职责,参加培训的社干部要抓住机会真学、会学、学深、学透,努力营造求真务实的学风,确保学习培训活动真正收到实效。
“呜”的一声,它们呼啸而过,草木化成齑粉,六七米长的巨石被洞穿成筛子,无坚不摧。
然而,让人吃惊的是,羽箭射在青鳞鹰的头上,擦出一串火花,难以穿透,这样的硬弓与利箭都难以奏效。
“嗯,东西不错。”那为首的男子点头,持着宝骨看了又看,道:“喏,给你十枚精璧,这块符骨我们买了。”说罢,他丢下一些晶莹的块状物,转身就走。
“噗”的一声,任穿山甲皮坚如铁,但还是被青鳞鹰那寒光闪烁的一对大爪子给洞穿了尾部,鲜血淋淋。
一群强者彻底没有了言语,这得有多么厚实的底蕴才敢这般,直接就吃掉了一头至宝狻猊的肉身?
整片虚神界哗然,激起轩然,就是身在高层次的洞天福地的那些人,也都想去初始地看一看。
他想拼命,不惜血战,只要击杀这头恶灵,那么这块神秘而强大的骨剪就会易主,他将得到一件了不得的宝具!
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证