Google Veo,严肃 AI 生成视频,首次亮相 Google I/O 2024

Google 的 Veo 正枪瞄 OpenAI 的 Sora,这是一个 AI 模型,可以根据文本提示生成大约一分钟长的 1080p 视频片段。

周二在 Google 的 I/O 2024 开发者大会上发布,Veo 可以捕捉不同的视觉和电影风格,包括风景和延时摄影,并对已经生成的视频进行编辑和调整。

Google AI 研发实验室 DeepMind 主管 Demis Hassabis 在一次虚拟圆桌会议中告诉记者:“我们正在探索故事板和生成更长的场景等功能,以查看 Veo 能做什么。我们在视频方面取得了令人难以置信的进展。”

图片来源:Google

Veo 建立在 Google 在视频生成方面的初步商业工作之上,在 4 月份进行了预览,利用了公司的 Imagen 2 系列图像生成模型来创建循环视频片段。

但是,与基于 Imagen 2 的工具不同,后者只能创建低分辨率、几秒钟长的视频,Veo 似乎与今天领先的视频生成模型竞争 — 不仅仅是 Sora,还有来自创业公司 Pika、Runway 和 Irreverent Labs 的模型。

在一次简报中,DeepMind 的生成媒体研究负责人 Douglas Eck 向我展示了一些精心挑选的 Veo 功能示例。其中一个 —— 一个繁忙海滩的鸟瞰图 —— 展示了 Veo 在竞争视频模型方面的优势,他说。

“海滩上所有游泳者的细节对图像和视频生成模型来说都很困难 —— 有那么多动态人物。”他说:“细看的话,波浪看起来相当不错。并且文本提示词‘繁华’的感觉,我认为通过所有的人物 —— 充满太阳沐浴者的热闹海滩前线被捕捉到了。”

图片来源:Google

Veo 已经接受大量视频素材的训练。通常情况下,这就是生成式 AI 模型的工作原理:给定某种形式的数据示例,模型会在数据中识别出模式,从而能够生成新的数据 —— 在 Veo 的情况下是视频。

Veo 的训练视频素材来自哪里?Eck 没有详细说明,但他承认一些可能来自 Google 自己的 YouTube。

“Google 的模型可能得到了一些 YouTube 内容的训练,但总是遵循我们与 YouTube 创作者的协议。”他说。

“协议”部分在技术上可能是真实的。但同样真实的是,考虑到 YouTube 的网络效应,如果创作者希望触及最广泛的观众,他们就别无选择,只能按照 Google 的规定行事。

图片来源:Google

《纽约时报》在四月份的报道揭示,去年 Google 扩大了其服务条款的范围,其中一部分是允许公司利用更多数据来训练其 AI 模型。根据旧的服务条款,不清楚 Google 是否可以使用 YouTube 数据来构建视频平台以外的产品。但在新条款下,这一情况明显改观,放宽了限制。

Google 绝对不是唯一一家利用大量用户数据来训练内部模型的科技巨头。(参见:Meta。)但令某些创作者失望的是,Eck 坚称 Google 在道德上设定了“黄金标准”。

“解决这个(训练数据)挑战的办法是让所有利益相关者聚在一起,共同探讨下一步是什么,”他说。“在我们与利益相关者(电影行业、音乐行业、艺术家自己)之间采取这些步骤之前,我们不会前进。”

但 Google 已经让 Veo 可供选择的创作者使用,包括唐纳德·格洛弗(也称为幼稚游戏者)及其创意机构 Gilga。(就像 OpenAI 的 Sora,Google 将 Veo 定位为创意工具。)

Eck 指出,Google 提供了工具,允许站长阻止公司的机器人从他们的网站上抓取训练数据。但这些设置不适用于 YouTube。与一些竞争对手不同,Google 不提供机制让创作者在网站抓取后从其训练数据集中删除他们的作品。

我还问了 Eck 关于“灌输”的问题,这在生成式 AI 上指的是当一个模型生成一个训练样本的镜像副本时。发现工具如 Midjourney 已经能够根据时间戳从电影如《沙丘》、《复仇者联盟》和《星球大战》中 spit 出准确的静止照片,为用户埋下了潜在的法律雷区。据说 OpenAI 已经采取措施,在 Sora 的提示中屏蔽商标和创作者的姓名,试图规避版权挑战。

那么 Google 采取了什么措施来减少 Veo 的“灌输”风险?Eck 没有答案,除了说研究团队为暴力和淫秽内容设置了过滤器(不包括黄色内容),并且正在使用 DeepMind 的 SynthID 技术将来自 Veo 的视频标记为 AI 生成的。

图片来源:Google

“对于像 Veo 模型这样重大的事情,我们打算逐渐将其释放到我们可以与之密切合作的一小组利益相关者手中,以了解模型的影响,然后才扩大到更大的群体,”他说。

Eck 还在模型的技术细节上有更多分享。

Eck 将 Veo 描述为“相当可控”,这意味着模型从提示(比如“平移”,“缩放”,“爆炸”之类的描述词)中很好地理解摄像机移动和视觉特效。与 Sora 一样,Veo 在物理学上有一定的了解 —— 例如流体动力学和重力 —— 这些都有助于生成视频的真实感。

Veo 还支持对视频中特定区域进行遮罩编辑,并且可以从静止图像中生成视频,就像 Stability AI 的 Stable Video 等生成模型一样。或许最有趣的是,给定一系列提示以共同讲述一个故事,Veo 可以生成更长的视频 —— 超过一分钟的视频。

图片来源:Google

这并不是说 Veo 是完美的。反映了今天生成式 AI 的局限性,Veo 的视频中的物体会在没有解释或一致性的情况下消失和出现。而且 Veo 经常在物理学方面出错 —— 例如,汽车会莫名其妙地不可能地倒车。

因此,Veo 在可预见的未来会继续留在 Google Labs 的等待列表中,该列表是公司实验技术的门户,位于一个名为 VideoFX 的新型用于生成式 AI 视频创建和编辑的前端。随着改进,Google 希望将模型的一些功能引入到 YouTube Shorts 和其他产品中。

“这是一个正在进行中的工作,非常实验性……在这里,未完成的地方比完成得多,”Eck 说。“但我认为这是电影制作领域真正伟大的东西的原材料。”

我们正在推出一个 AI 通讯!在这里注册,从 6 月 5 日开始接收到您的邮箱中。