Snowflake发布了自己的旗舰生成AI模型

全面、高度通用的生成AI模型曾经是市场的主流,而它们目前仍然如此。但随着各大小云服务供应商加入生成AI竞争,我们看到了一批针对最富裕潜在客户——企业的新模型。

以Snowflake为例,这家云计算公司今天推出了名为Arctic LLM的生成AI模型,被描述为“企业级”。Snowflake表示,Arctic LLM适用于“企业工作负载”,包括生成数据库代码,并且可供研究和商业使用,且遵循Apache 2.0许可协议。

“我认为这将是我们——Snowflake——和我们的客户构建企业级产品并真正实现AI的承诺和价值的基础”,首席执行官Sridhar Ramaswamy在一次发布会上表示。“你应该将这视为我们在生成AI领域的第一个关键步骤,但未来还有更多。”

企业模型

我的同事Devin Coldewey最近写了一篇关于生成AI模型无休止的文章。我建议你阅读他的文章,但要点是:模型是供应商激发其研发激情的简单方式,同时也是他们产品生态系统的引擎(例如模型托管、微调等)。

Arctic LLM也不例外。Snowflake旗下生成AI模型家族Arctic中的旗舰模型Arctic LLM——耗时约三个月,使用了1000个GPU进行训练,耗资200万美元——在Databricks发布的DBRX之后推出,DBRX也是一款被市场定位为企业空间优化的生成AI模型。

Snowflake在其宣传材料中直接将Arctic LLM与DBRX进行了对比,称Arctic LLM在编码(Snowflake没有具体说明使用的编程语言)和SQL生成这两个任务上优于DBRX。该公司表示,Arctic LLM在这些任务上也优于Meta的Llama 2 70B(但不如更新的Llama 3 70B)和Mistral的Mixtral-8x7B。

Snowflake还声称,Arctic LLM在流行的通用语言理解基准MMLU上实现了“领先的表现”。但需要指出的是,虽然MMLU声称评估生成模型通过逻辑问题的推理能力,但其中包含了一些可以通过死记硬背解决的测试,因此这一点需要持怀疑态度。

“Arctic LLM解决了企业部门内特定需求”,Snowflake的AI主管Baris Gultekin在接受TechCrunch采访时表示,“不同于像写诗这样的通用AI应用,Arctic LLM专注于企业导向挑战,例如开发SQL合作者和高质量聊天机器人。”

像DBRX和谷歌当前性能最佳的生成模型Gemini 1.5 Pro一样,Arctic LLM采用了混合专家(MoE)架构。MoE架构基本上将数据处理任务分解为子任务,然后将其委托给更小、更专业的“专家”模型。因此,虽然Arctic LLM包含4800亿参数,但一次只激活17亿个参数——足以驱动128个单独的专家模型。(参数基本上定义了AI模型在问题上的技能,比如分析和生成文本。)

Snowflake声称,这种高效的设计使其能够以“约为类似模型的八分之一的成本”在开放的公共网络数据集(包括RefinedWeb、C4、RedPajama和StarCoder)上训练Arctic LLM。

无处不在

Snowflake提供了与Arctic LLM一起的编码模板和培训源列表,以指导用户如何将模型投入运行并为特定用例进行微调。但认识到对于大多数开发人员来说,这可能是一项既昂贵又复杂的任务(微调或运行Arctic LLM需要大约八个GPU),Snowflake也承诺将Arctic LLM提供给一系列主机,包括Hugging Face、Microsoft Azure、Together AI的模型托管服务和企业生成AI平台Lamini。

然而,问题在于:Arctic LLM首先将在Cortex上提供,Cortex是Snowflake用于构建AI和机器学习驱动应用和服务的平台。该公司毫不奇怪地将其自称为运行Arctic LLM的首选方式,提供“安全性”、“治理”和可扩展性。

“我们在这里的梦想是,在一年之内开发一个让我们的客户能够直接与数据聊天的API”,Ramaswamy说。“我们本可以选择说,‘哦,我们将等待某个开源模型然后使用它。’相反,我们正在进行基础性投资,因为我们认为这将为我们的客户带来更多价值。”

因此,我不禁要问:除了Snowflake客户外,Arctic LLM实际上是为谁设计的?

在一个充满“开放”生成模型的领域,在那些可以针对几乎任何目的进行微调的模型中,Arctic LLM并没有显著突出的地方。虽然其架构可能带来效率优势,但我不确定这些优势是否足以让企业选择放弃其他众多著名且受支持的商业友好生成模型(如GPT-4)。

此外,需要考虑一点对Arctic LLM不利的因素:其相对较小的上下文。

在生成AI中,上下文窗口指的是模型在生成输出(例如更多文本)之前考虑的输入数据(例如文本)。具有较小上下文窗口的模型容易忘记甚至是非常近期对话内容,而具有更大上下文的模型通常能够避免这种问题。

Arctic LLM的上下文在约8000到24000个单词之间,取决于微调方法,远低于Anthropic的Claude 3 Opus和谷歌的Gemini 1.5 Pro等模型。

Snowflake在营销中没有提及,但几乎可以肯定Arctic LLM会遇到与其他生成AI模型相同的限制和缺陷——即产生幻觉(例如,自信地错误回答请求)。这是因为Arctic LLM,以及存在的每个生成AI模型,都是统计概率机器——施加了一个较小的上下文窗口。它根据大量的例子猜测哪些数据最“恰当”放在何处(例如,在句子“I go to the market”中将“go”放在“the market”之前)。它必然会猜错——这就是“幻觉”。

正如Devin在文章中写道,除非有下一个重大技术突破,否则在生成AI领域我们只能期待渐进式的改进。然而,这不会阻止像Snowflake这样的供应商将它们吹嘘为巨大的成就,并充分营销它们。