Google 的 Veo 正枪瞄 OpenAI 的 Sora,这是一个 AI 模型,可以根据文本提示生成大约一分钟长的 1080p 视频片段。
周二在 Google 的 I/O 2024 开发者大会上发布,Veo 可以捕捉不同的视觉和电影风格,包括风景和延时摄影,并对已经生成的视频进行编辑和调整。
Google AI 研发实验室 DeepMind 主管 Demis Hassabis 在一次虚拟圆桌会议中告诉记者:“我们正在探索故事板和生成更长的场景等功能,以查看 Veo 能做什么。我们在视频方面取得了令人难以置信的进展。”
Veo 建立在 Google 在视频生成方面的初步商业工作之上,在 4 月份进行了预览,利用了公司的 Imagen 2 系列图像生成模型来创建循环视频片段。
但是,与基于 Imagen 2 的工具不同,后者只能创建低分辨率、几秒钟长的视频,Veo 似乎与今天领先的视频生成模型竞争 — 不仅仅是 Sora,还有来自创业公司 Pika、Runway 和 Irreverent Labs 的模型。
在一次简报中,DeepMind 的生成媒体研究负责人 Douglas Eck 向我展示了一些精心挑选的 Veo 功能示例。其中一个 —— 一个繁忙海滩的鸟瞰图 —— 展示了 Veo 在竞争视频模型方面的优势,他说。
“海滩上所有游泳者的细节对图像和视频生成模型来说都很困难 —— 有那么多动态人物。”他说:“细看的话,波浪看起来相当不错。并且文本提示词‘繁华’的感觉,我认为通过所有的人物 —— 充满太阳沐浴者的热闹海滩前线被捕捉到了。”
Veo 已经接受大量视频素材的训练。通常情况下,这就是生成式 AI 模型的工作原理:给定某种形式的数据示例,模型会在数据中识别出模式,从而能够生成新的数据 —— 在 Veo 的情况下是视频。
Veo 的训练视频素材来自哪里?Eck 没有详细说明,但他承认一些可能来自 Google 自己的 YouTube。
“Google 的模型可能得到了一些 YouTube 内容的训练,但总是遵循我们与 YouTube 创作者的协议。”他说。
“协议”部分在技术上可能是真实的。但同样真实的是,考虑到 YouTube 的网络效应,如果创作者希望触及最广泛的观众,他们就别无选择,只能按照 Google 的规定行事。
《纽约时报》在四月份的报道揭示,去年 Google 扩大了其服务条款的范围,其中一部分是允许公司利用更多数据来训练其 AI 模型。根据旧的服务条款,不清楚 Google 是否可以使用 YouTube 数据来构建视频平台以外的产品。但在新条款下,这一情况明显改观,放宽了限制。
Google 绝对不是唯一一家利用大量用户数据来训练内部模型的科技巨头。(参见:Meta。)但令某些创作者失望的是,Eck 坚称 Google 在道德上设定了“黄金标准”。
“解决这个(训练数据)挑战的办法是让所有利益相关者聚在一起,共同探讨下一步是什么,”他说。“在我们与利益相关者(电影行业、音乐行业、艺术家自己)之间采取这些步骤之前,我们不会前进。”
但 Google 已经让 Veo 可供选择的创作者使用,包括唐纳德·格洛弗(也称为幼稚游戏者)及其创意机构 Gilga。(就像 OpenAI 的 Sora,Google 将 Veo 定位为创意工具。)