Spawning希望构建更多道德AI训练数据集

Jordan Meyer和Mathew Dryhurst创立了Spawning AI,旨在创建帮助艺术家更好地控制其作品在网上使用的工具。他们的最新项目名为Source.Plus,旨在策划“非侵权”媒体,用于AI模型训练。

Source.Plus项目的首个目标是一个数据集,其中包含近4000万公共领域图片和创意共同体CC0许可下的图片,该许可允许创作者放弃几乎所有对其作品的法律利益。Meyer声称,尽管与一些其他生成AI训练数据集相比,Source.Plus的数据集要小得多,但已经“高质量”到可以训练出最先进的图像生成模型。

“通过Source.Plus,我们正在建立一个通用的‘选择加入’平台,”Meyer表示。“我们的目标是让版权持有者能够轻松以自己的条件提供媒体用于生成AI训练,并让开发者无障碍地将该媒体纳入其训练工作流程中。”

权利管理

关于训练生成AI模型的伦理问题的讨论,特别是像Stable Diffusion和OpenAI的DALL-E 3这样的艺术生成模型,仍在继续,并且对艺术家有着巨大的影响,无论最终结果如何。

生成AI模型通过训练大量相关数据(例如图片)来“学习”生成其输出(例如逼真的艺术品)。其中一些模型的开发者认为,公共来源的数据,无论其版权状态如何,都有公平使用的权利。其他人试图在权利范围内行事,至少对为训练集做出贡献的内容所有者进行补偿或至少给予致谢。

Spawning的首席执行官Meyer认为,目前尚未有人确定最佳的方法。

“AI训练通常倾向于使用最容易获取的数据,这并不总是最公平或负责任的数据来源,”他在接受TechCrunch采访时说。“艺术家和版权持有者对于其数据用于AI训练的方式几乎没有控制权,而开发者也没有高质量的选择,从而可以轻松尊重数据权利。”

Source.Plus目前在限制性测试阶段,是基于Spawning现有的艺术溯源和使用权管理工具的基础上构建的。

2022年,Spawning创建了HaveIBeenTrained网站,让创作者可以选择退出与Spawning合作的供应商使用的训练数据集,包括Hugging Face和Stability AI等厂商。在从True Ventures和Seed Club Ventures等投资者那里筹集了300万美元的风险资本后,Spawning推出了ai.text,让网站可以为AI“设置权限”,以及一个名为Kudurru的系统,用于防御数据刮取机器人。

Source.Plus是Spawning首次努力建立一个媒体库,以及在公司内部策划该媒体库。Meyer表示,初始的图片数据集PD/CC0可用于商业或研究应用。

Source.Plus媒体库。
图片来源:Spawning

“Source.Plus不仅仅是一个训练数据的存储库;它是一个能够支持训练流程的丰富平台,”他继续说。“我们的目标是在一年内推出能够支持强大基础AI模型的高质量、非侵权CC0数据集。”

包括Getty Images、Adobe、Shutterstock和AI初创公司Bria在内的组织声称,他们只使用来源公平的数据进行模型训练(Getty甚至称其生成AI产品为“商业安全”)。但Meyer表示,Spawning的目标是为什么是更公平地获取数据设定一个“更高的门槛”。

Source.Plus会为“选择退出”和其他艺术家训练偏好筛选图片,并显示图片来源的溯源信息。它还会排除没有获得CC0许可的图片,包括具有创意共同体BY 1.0许可的图片,该许可要求进行归属。Spawning还表示,他们正在监控源自他人(而非创作者)负责指明作品版权状态的来源的版权挑战,例如维基共享资源。

“我们细致地验证了收集的图片的许可证,任何疑问的许可都被排除在外——这是许多‘公平’数据集没有执行的步骤,”Meyer说。

从历史上看,问题图片,包括暴力和色情敏感个人图片,一直困扰着开放和商业训练数据集。

LAION数据集的维护人员被迫下线一个库,因为有报告揭露了医疗记录和儿童性虐待的画面;就在本周,人权观察组织的一项研究发现,LAION的一个存储库中包括了巴西儿童的面部照片,但这些儿童并没有经过同意或知情同意。在其他地方,Adobe的库存媒体库Adobe Stock,该公司用于训练其生成AI模型,包括艺术生成Firefly Image模型,被发现含有对手公司(如Midjourney)的AI生成图片。

Source.Plus画廊中的艺术作品。
图片来源:Spawning

Spawning的解决方案是使用分类器模型来检测图片中的裸露、血腥、个人可识别信息和其他不良信息。Meyer表示,鉴于没有一个分类器是完美的,Spawning计划让用户通过调整分类器的检测阈值“灵活”过滤Source.Plus数据集。

“我们雇用了管理员来验证数据的拥有者,”Meyer补充说。“我们还内置了补救功能,用户可以标记违规或可能侵权的作品,并且消费数据的过程可以进行审计。”

补偿

大多数为其生成AI训练数据做出贡献的创作者提供补偿计划都并不出色。一些计划依赖于不透明的指标来计算创作者的支付金额,而另一些支付金额被艺术家认为过低。

以Shutterstock为例。这家库存媒体库与AI供应商达成了价值数千万美元的交易,为用于训练其生成AI模型或许可给第三方开发者的作品支付到一个“投稿者基金”中。但Shutterstock并未透明公布艺术家可以期待获得的收入,也没有让艺术家自行设定价格和条款;一个第三方估计将收入定为1500美元可以获得15美元,这并不是一个惊人的金额。

一旦Source.Plus于今年晚些时候退出测试阶段并扩大到PD/CC0之外的数据集,它将采取与其他平台不同的方式,允许艺术家和版权持有者设置他们每次下载的价格。Spawning将收取费用, 但只收取一个固定费率——Meyer称之为“十分之一便士”。

客户也可以选择支付每月10美元给Spawning,再加上每张图片下载的典型费用,以获取Source.Plus策划服务,这个订阅计划允许他们私下管理图片收藏,每月最多下载1万次数据集,并获得新功能的访问权限,例如“优质”收藏和数据丰富化等。

图片来源:Spawning

“我们将根据当前行业标准和内部指标提供指导和建议,但最终,数据集的贡献者将决定对他们来说什么才是有价值的,”Meyer说。“我们选择这种定价模式是有意而为,以便让艺术家获得收入的主要部分,并允许他们设定自己参与的条件。我们认为这种收入分成比更常见的百分比收入分成更有利于艺术家,将导致更高的支付金额和更大的透明度。”

“如果Source.Plus获得了Spawning所希望的关注度,Spawning打算将其扩展到其他类型的媒体,包括音频和视频。Spawning正在与尚未公开的公司进行讨论,使他们的数据可用于Source.Plus。Meyer表示,Spawning可能会利用Source.Plus数据集构建自己的生成AI模型。

“我们希望希望参与生成AI经济的版权持有者有机会这样做,并获得公平的补偿,”Meyer表示。“我们也希望那些对与AI互动感到矛盾的艺术家和开发者有机会以尊重其他创意者的方式这么做。”

显然,Spawning在这里有一个独一无二的定位。Source.Plus似乎是让艺术家参与生成AI开发过程并分享他们作品利润的最有希望的尝试之一。

正如我的同事Amanda Silberling最近所写的,出现了像艺术主办社区Cara这样的应用,Meta宣布可能会将其生成AI训练的内容自Instagram,包括艺术家内容,显示了创意社区已经到达了一个临界点。他们渴望寻求与他们视为窃贼的公司和平台的替代方案——而Source.Plus可能只是一个可行的方案。

但是,如果Spawning总是以艺术家的最佳利益行事(考虑到Spawning是一家由风险投资支持的企业),我想知道Source.Plus是否能像Meyer设想的那样成功扩展。如果社交媒体给我们什么启示,那就是内容的审核—特别是对成百上千件用户生成的内容—是一个棘手的问题。很快我们会找到答案。