为什么矢量数据库在AI炒作达到高峰时正受到关注

矢量数据库正变得越来越受欢迎,从参与该领域的初创公司数量和投资者们对这块蛋糕的追捧情况来看。大型语言模型(LLMs)的普及以及生成式AI(GenAI)运动为矢量数据库技术的蓬勃发展创造了有利条件。

传统的关系型数据库,如Postgres或MySQL,适用于结构化数据 - 可以整洁地分类为行和列的预定义数据类型,但对于非结构化数据(如图像、视频、电子邮件、社交媒体帖子以及任何不符合预定义数据模型的数据),效果并不理想。

另一方面,矢量数据库以矢量嵌入的形式存储和处理数据,将文本、文档、图像和其他数据转换为捕捉不同数据点之间含义和关系的数值表示。这对机器学习非常适用,因为数据库根据每个项目与其他项目的相关性来空间存储数据,这使得检索语义相似数据更容易。

对于像OpenAI的GPT-4这样的LLMs来说,这特别有用,因为它可以通过分析之前类似对话来更好地理解对话的背景。矢量搜索也适用于各种实时应用,比如社交网络或电子商务应用中的内容推荐,因为它可以查看用户搜索过的内容并迅速检索类似的项目。

矢量搜索还可以帮助减少LLM应用中的“幻觉”,通过提供可能在原始训练数据集中并不存在的额外信息。

“没有使用矢量相似度搜索,您仍然可以开发AI/ML应用程序,但您需要进行更多的重新训练和微调,”矢量搜索初创公司Qdrant的首席执行官兼联合创始人安德烈·扎亚尔尼向TechCrunch解释道。“当存在大量数据集并且您需要一种以有效和便捷的方式处理矢量嵌入的工具时,矢量数据库就会发挥作用。”

今年1月,Qdrant获得了2800万美元的融资,以资本化增长,这使其成为去年增长最快的商业开源初创公司前十名之一。并且,最近筹集资金的矢量数据库初创公司远不止Qdrant一家 - Vespa、Weaviate、Pinecone和Chroma去年共筹集了2亿美元,用于各种矢量产品。

Qdrant创始团队。图片来源:Qdrant

自年初以来,我们还看到Index Ventures带领950万美元的种子轮投资进入Superlinked,这是一个将复杂数据转换为矢量嵌入的平台。几周前,Y Combinator(YC)公布了其2024年冬季孵化器名单,其中包括Lantern,一家为Postgres销售托管式矢量搜索引擎的初创公司。

在其他地方,Marqo在去年年底获得了440万美元的种子轮融资,随后于2月份迅速获得了1250万美元的A轮融资。Marqo平台提供了一整套矢量工具,包括矢量生成、存储和检索,允许用户规避来自OpenAI或Hugging Face等第三方工具,一切都通过单一的API提供。

Marqo的联合创始人汤姆·哈默和杰西·N·克拉克曾在亚马逊担任工程职位,他们意识到了跨不同模态(如文本和图像)进行语义灵活查询的“巨大未满足需求”。这也是他们在2021年离开亚马逊组建Marqo的原因。

Marqo联合创始人Jesse Clark和Tom Hamer。图片来源:Marqo

进入企业

尽管在ChatGPT和GenAI运动的轰动中,矢量数据库正备受关注,但它们并非适用于每种企业搜索场景的灵丹妙药。

“专用数据库往往完全专注于特定用例,因此可以为所需任务设计其架构和用户体验的性能,与通用数据库相比,后者需要适应当前设计,”数据库支持和服务公司Percona的创始人彼得·扎伊采夫向TechCrunch解释道。

虽然专用数据库可能会在某一方面表现出色,但这就是为什么我们开始看到像Elastic、Redis、OpenSearch、Cassandra、Oracle和MongoDB这样的数据库巨头,以及像Microsoft的Azure、Amazon的AWS和Cloudflare这样的云服务提供商,都正在将矢量数据库搜索智能加入到其产品中。

扎伊采夫将这一最新趋势与十多年前JSON发生的情况进行了比较,当时网络应用程序变得更加普遍,开发人员需要一种独立于语言且易于人类阅读和编写的数据格式。在那种情况下,以文档数据库(如MongoDB)形式出现了一类新的数据库,而现有的关系数据库也引入了JSON支持。

“我认为矢量数据库也可能出现类似情况,”扎伊采夫告诉TechCrunch。“那些正在构建非常复杂和大规模AI应用程序的用户将使用专用的矢量搜索数据库,而那些需要为其现有应用程序构建一点AI功能的用户更有可能在他们已经使用的数据库中使用矢量搜索功能。”

但扎亚尼和他的Qdrant同事们在打赌,完全围绕矢量构建的本地解决方案将提供所需的速度、内存安全性和规模,以处理矢量数据激增,而不是像其他公司那样事后附加矢量搜索。

“他们的销售点是‘如果需要,我们也可以进行矢量搜索’,”扎亚尼说。“我们的销售点是‘我们以最佳方式进行高级矢量搜索’。这一切都关乎专业化。我们实际上建议从您当前技术堆栈中已有的数据库开始。在某个时刻,如果矢量搜索是您解决方案中的重要组成部分,用户将面临一些限制。”