Internet

Vana计划让用户出租Reddit数据用于训练人工智能

读者时代

Wednesday, October 30 2024

在生成式人工智能蓬勃发展的时代，数据是新的石油。那么为什么你不能出售自己的数据呢？

从大型科技公司到初创企业，人工智能制造商正在向数据经纪人许可电子书、图片、视频、音频等数据，以训练更强大（和更具法律防御性）的AI产品。Shutterstock与Meta、Google、亚马逊和苹果达成协议，为模型训练提供数百万张图片，而OpenAI已与几家新闻机构签署协议，以新闻档案来训练其模型。

在许多情况下，拥有这些数据的个人创作者和所有者没能从这些交易中获得任何报酬。一家名为Vana的初创企业希望改变这种现状。

在Vana之前，Kazlauskas在MIT学习计算机科学和经济学，最终离开学校创立了一家金融科技自动化初创企业Iambiq。而Abal是一名经过培训的公司律师，曾在波士顿咨询公司The Cadmus Group担任副手，后来负责数据标注公司Appen的影响采购。

通过Vana，Kazlauskas和Abal致力于打造一个平台，让用户能够将他们的数据（包括聊天记录、语音录音和照片）汇集到数据集中，用于生成式人工智能模型的训练。他们还希望通过在这些数据上微调公开模型，创造更加个性化的体验，例如基于你的健康目标的每日励志语音留言，或者一个了解你风格偏好的艺术生成应用程序。

“Vana的基础架构实际上创建了一个用户拥有的数据宝库，”Kazlauskas告诉TechCrunch。“通过允许用户以一种非保管方式汇总他们的个人数据... Vana让用户拥有AI模型并在各种人工智能应用中使用他们的数据。”

这就是Vana向开发者推介其平台和API的方式：

Vana API连接用户的跨平台个人数据...以允许您个性化您的应用程序。您的应用程序可以立即访问用户的个性化AI模型或基础数据，简化入门流程并消除计算成本疑虑。...我们认为用户应该能够将他们在Instagram、Facebook和Google等封闭花园中的个人数据带入您的应用程序，以便您可以从用户与您的消费AI应用的第一次互动开始创建令人惊叹的个性化体验。

通过简单确认电子邮件后，您可以为数字头像附加数据（例如自拍、个人描述和语音录音），并探索使用Vana平台和数据集构建的应用程序。应用程序种类丰富，包括ChatGPT风格的聊天机器人、交互式故事书籍和Hinge档案生成器。

现在，您可能会问，在这个数据隐私意识增强和勒索软件攻击增多的时代，为什么会有人自愿向一个匿名的初创企业提供个人信息，更不用说一个风险投资支持的企业了？（Vana迄今已从Paradigm、Polychain Capital和其他支持者那里筹集了2000万美元。）任何以利润为目的的公司真的能够信任不滥用或处理他们所获得的任何可获得回报的数据吗？

针对这个问题，Kazlauskas强调Vana的整个目的是让用户“重新控制他们的数据”，指出Vana用户可以选择自行托管数据而不是将其存储在Vana的服务器上，并控制他们的数据如何与应用程序和开发者共享。她还辩称，由于Vana通过向用户收取月度订阅费（起价为3.99美元）并对开发者征收“数据交易”费（例如为AI模型训练传输数据集），该公司不会有滥用用户和他们带来的大量个人数据的动机。

“我们希望创建由用户拥有并管理的模型，他们都在贡献自己的数据，”Kazlauskas说，“并允许用户将他们的数据和模型带到任何应用程序中。”

尽管Vana声称并未将用户的数据出售给公司用于生成AI模型的训练，但它希望允许用户自行选择这样做——从他们的Reddit帖子开始。

本月，Vana推出了他们称之为Reddit数据DAO（数字自治组织）的项目，该项目汇集多个用户的Reddit数据（包括他们的Karma和帖子历史），并让他们共同决定如何使用这些合并的数据。加入Reddit帐户后，提交数据请求，并将该数据上传到DAO后，用户获得权利与DAO的其他成员一起投票，决定将合并数据授权给生成AI公司进行共享利润。

我们已经计算过数据，r/datadao现在是历史上最大的数据DAO：第一阶段欢迎了141,000名Reddit用户，上传了21,000份完整数据。
— r/datadao (@rdatadao) 2024年4月11日

这可以看作是对Reddit最近商业化其平台数据举措的回应。

Reddit之前并没有为生成AI训练目的限制帖子和社区的访问。但在去年年底上市前，它改变了政策。自政策变更以来，Reddit已从包括Google在内的公司获得了超过2.03亿美元的许可费。

“DAO的广泛理念是释放用户数据，摆脱试图囤积和商品化数据的主要平台，”Kazlauskas说。“这是第一步，也是我们推动帮助人们将他们的数据汇集到用户拥有的数据集中进行人工智能模型训练的一部分。”

不出所料，Reddit——并没有正式与Vana合作——对DAO并不满意。

Reddit禁止了Vana专门讨论DAO的子论坛。Reddit发言人指责Vana“滥用”了其数据导出系统，该系统旨在遵守GDPR和加州消费者隐私法等数据隐私法规。

“我们的数据安排让我们能够对这类实体设置限制，甚至对于公开信息也是如此，”发言人告诉TechCrunch。“Reddit不会将非公开、个人数据与商业实体分享，当Redditors向我们请求导出他们的数据时，他们将根据适用法律获得来自我们的非公开个人数据。Reddit与经过审查的组织之间的直接合作关系、并有明确的条款和问责制至关重要，这些合作关系和协议可防止人们数据的滥用或不当使用。”

但Reddit是否有真正的理由感到担忧呢？

Kazlauskas设想DAO发展到一定程度，将影响Reddit对其数据收费的金额。这还有很长的路要走，甚至可能永远不会发生；DAO只有超过141,000名成员，仅占Reddit强大7300万用户群体的一小部分。而且其中一些成员可能是机器人或重复帐户。

此外，DAO可能收到来自数据购买者的支付的公平分配问题也是一个问题。

目前，DAO根据Reddit Karma向用户授予“代币”——加密货币。但Karma可能并不是衡量对数据集质量贡献的最佳指标，特别是在Reddits社区较小且机会较少的情况下。

Kazlauskas提出了一个主张，即DAO成员可以选择分享跨平台和人口统计数据，使DAO可能变得更有价值，激励用户注册。但这也将要求用户更多地信任Vana负责地处理他们的敏感数据。

就我个人而言，我看不到Vana的DAO达到临界质量。前方的障碍太多了。不过，我认为，这绝不是为了主张控制日益用于生成AI模型培训的数据而进行的最后的基础性尝试。

像Spawning这样的初创企业正在努力寻找让创作者能够制定规则来指导他们的数据如何用于训练，而像Getty Images、Shutterstock和Adobe这样的供应商继续尝试不同的补偿方案。但还没有人完全找到解决办法。这是否能够解决？鉴于生成AI行业的激烈竞争性质，这显然是一个艰巨的任务。但也许有人会找到一条路—亦或者政策制定者会强制执行一个。