分享
最佳论文 | 生成式图像动力学 Generative Image Dynamics
输入“/”快速插入内容
最佳论文 | 生成式图像动力学 Generative Image Dynamics
飞书用户2749
2024年11月30日修改
作者:企鹅火烈鸟,北京邮电大学硕士
Github:
https://github.com/yinfan98
导读:我们在前不久发布了
CVPR 2024 最佳论文候选名单
,并邀请大家参与“最佳论文”的预测投票。本篇文章将要介绍的是投票数第二高的论文。今天就来带大家一起解读这篇论文。
论文链接:
https://arxiv.org/abs/2309.07906
Demo效果
这篇文章是 Google Research 发表在今年 CVPR 2024 上的文章,目前并没有开源代码可供参考。但在他们的
导览页面
上,现在已经公布了 Demo。现在让我们一起来看看 Demo 效果吧!
🔗
导览页面
:
https://generative-dynamics.github.io/
Demo1
Demo2
研究初心
这是为了能有更加形象的视觉合成方法。因为自然界是运动的,即使看似静止的场景也会因风、水流、呼吸或其他自然节奏而包含微妙的振荡。模拟这种运动在视觉内容合成中至关重要——人类对运动的敏感性会导致没有运动的图像看起来不真实。作者也在文章里和其他文生视频、文生图方法做了对比。主观评测之下,Generative Image Dynamics 方法生成的动图
更具真实性
。
研究方法
文章最开始的图片(如上图所示)很好的诠释了本文的方法。输入一张图片,对这张图片做傅立叶变换转换到频域,在不同的频率下通过LDM模型(对的,就是图像生成的那个LDM)获得图像的光谱。通过光谱在类似 UNet 的模型上生成了后续时间下的新图像。
频域分析的优势是,频域可以把不同的运动通过频域拆解开(比如频率低的运动就是一些缓慢的大范围的运动。频率高的运动就是一些快速范围小的运动),这样就可以对不同运动分别进行分析生成。类似的低频高频拆解的操作在神经辐射场里也有体现,神经辐射场把不同的输入用低频到高频的谐波进行位置编码,来获得更高频更细微的特征。
光谱分析的原因是,光谱能很好刻画运动模式。使用光谱,我们就能方便地在频域分析运动,并转换回时域生成新的图像。
更深入地拆解这个方法
运动表示