Lumiere：具有生成式 AI 的逼真视频

谷歌研究人员与以色列理工学院、特拉维夫大学和魏茨曼研究所合作，展示了一些有趣的东西。整个东西被称为Lumiere ，它是一个文本到视频的扩散模型。大多数人可能是从 Midjourney 或 ChatGP 中知道的。输入一些文字，你就会得到一张图像。这在视频序列中也已经存在很长时间了。 Lumiere 使用新的架构和算法将一切提升到一个新的水平。

除了文本到视频的转换之外，Lumiere 还掌握图像到视频的转换和风格化生成。如果你观看网站上的演示视频，你会发现这是一个非常大的人工智能影院。为了实现这一目标，引入了“时空 U-Net 架构”，可以一次性生成视频的整个持续时间。这与在合成远处关键帧后执行时间超分辨率的现有视频模型形成对比。研究人员表示，这种方法很难实现全局时间一致性。

它看起来不错，但有一个缺点。这是一个研究项目，你和我都无法在任何地方登录并创作这样的艺术作品。