Databricks 这回砸下重金，整整1000万美金投入了他们全新的 DBRX 生成式 AI 模型

我问Rao是否有任何DBRX训练数据集是版权或许可的，或者显示出明显的偏见（例如种族偏见），但他没有直接回答，只是说：“我们对使用的数据非常小心，并进行了红队演练，以改善模型的弱点。它类似于OpenAI的GPT系列和Google的Gemini，既可以在GitHub上找到，也可以在AI开发平台Hugging Face上用于研究和商业用途，DBRX有基础版（DBRX Base）和经过特别调优的版本（D

文章共2,231字 · 阅读需要大约8分钟

一键AI生成摘要，助你高效阅读

问答

新加坡内哥谈技术

1012人浏览 · 2024-03-30 00:00:00

新加坡内哥谈技术 · 2024-03-30 00:00:00 发布

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

如果你想提高你的大型科技公司的知名度，并且有1000万美元可花，你会怎么花？是投资超级碗广告，还是赞助F1车队？

你也可以选择用这笔钱训练一个生成式人工智能模型。虽然这不是传统意义上的营销，但生成式模型无疑是吸引眼球的利器——并且越来越多地成为指向供应商主要产品和服务的渠道。

看看Databricks最新公布的DBRX生成式AI模型，这可不是闹着玩的。它类似于OpenAI的GPT系列和Google的Gemini，既可以在GitHub上找到，也可以在AI开发平台Hugging Face上用于研究和商业用途，DBRX有基础版（DBRX Base）和经过特别调优的版本（DBRX Instruct），能够在公共的、自定义的或其他专有数据上运行和调整。

Databricks的Naveen Rao副总裁在接受TechCrunch采访时说：“DBRX被训练用来提供关于各种主题的有用信息。DBRX针对英语使用进行了优化和调整，但也能够进行多种语言的对话和翻译，比如法语、西班牙语和德语。”

Databricks将DBRX描述为“开源”，就像Meta的Llama 2和AI初创公司Mistral的模型一样“开源”。（这些模型是否真正符合开源定义，目前还有激烈的讨论。）

Databricks表示，他们花了大约1000万美元和两个月的时间来训练DBRX，并声称（引用新闻稿的话）“在标准基准测试上胜过所有现有的开源模型”。

但是，营销的问题来了——除非你是Databricks的客户，否则使用DBRX非常困难。

因为要在标准配置中运行DBRX，你需要一台至少配备四个Nvidia H100 GPU的服务器或个人电脑（或任何其他总计约320GB内存的GPU配置）。单单一个H100的成本就高达数千美元——很可能更多。这对于平均企业来说可能是小菜一碟，但对于许多开发者和独立创业者来说，这已经遥不可及了。

当然，你可以在第三方云上运行这个模型，但硬件要求依然很高——例如，Google Cloud上只有一种实例类型包含H100芯片。其他云可能成本较低，但总的来说，运行这样庞大的模型今天并不便宜。

此外，还有一些细节问题。Databricks表示，拥有超过7亿活跃用户的公司将面临“某些限制”，这与Meta对Llama 2的限制相似，所有用户必须同意条款，确保他们“负责任地”使用DBRX。（截至发稿时，Databricks尚未提供这些条款的具体内容。）

Databricks提出其Mosaic AI Foundation Model产品作为解决这些障碍的管理解决方案，除了运行DBRX和其他模型外，还提供了一个用于在自定义数据上微调DBRX的训练堆栈。客户可以使用Databricks的模型服务私下托管DBRX，Rao建议，或者他们可以与Databricks合作，将DBRX部署在他们选择的硬件上。

Rao补充说：“我们专注于使Databricks平台成为定制模型构建的最佳选择，因此Databricks的最终收益是我们平台上的更多用户。DBRX是我们一流的预训练和调优平台的展示，客户可以利用这个平台从零开始构建自己的模型。这是客户开始使用Databricks Mosaic AI生成式工具的简单方法。并且，DBRX本身就非常强大，可以针对特定任务进行调整，以获得比大型封闭模型更好的性能和更经济的成本。”

Databricks声称DBRX的运行速度是Llama 2的两倍，部分原因是它采用了专家混合（MoE）架构。MoE——与Mistral的新模型和Google最近宣布的Gemini 1.5 Pro共享的架构——基本上是将数据处理任务分解为多个子任务，然后将这些子任务委派给较小的、专业的“专家”模型。

大多数MoE模型有8个专家。DBRX有16个，Databricks表示这提高了质量。

然而，质量是相对的。

虽然Databricks声称DBRX在某些语言理解、编程、数学和逻辑基准测试上胜过Llama 2和Mistral的模型，但在数据库编程语言生成等小众用途之外，DBRX在大多数领域都不及目前领先的生成式AI模型，OpenAI的GPT-4。

现在，正如一些社交媒体上的人指出的，DBRX和GPT-4，后者的训练成本显著更高，非常不同——可能差异太大，不值得直接比较。将这些大型、由企业资助的模型与领域中最好的模型进行比较是重要的，但也应该指出它

们的区别，比如DBRX是“开源”的，并且针对一个明确的企业受众。

同时，也不能忽视DBRX在普通人运行起来的成本上几乎与旗舰模型如GPT-4接近，其训练数据不是公开的，它在最严格的定义上也不是开源的。

Rao承认DBRX也有其他限制，即它——像所有其他生成式AI模型一样——可能会因为Databricks在安全测试和红队操作中的工作而“幻觉”式地回答查询。因为该模型仅仅被训练以将某些词或短语与特定概念相关联，如果这些关联不完全准确，它的回应也不会总是准确的。

此外，DBRX不是多模态的，与一些较新的旗舰生成式AI模型不同，包括Gemini。（它只能处理和生成文本，不能生成图片。）我们也不知道用于训练它的具体数据来源；Rao只透露没有使用Databricks客户数据来训练DBRX。

“我们在训练DBRX时使用了来自多种来源的大量数据集。”他补充说，“我们使用了社区熟知、喜爱并每天使用的开放数据集。”

我问Rao是否有任何DBRX训练数据集是版权或许可的，或者显示出明显的偏见（例如种族偏见），但他没有直接回答，只是说：“我们对使用的数据非常小心，并进行了红队演练，以改善模型的弱点。”生成式AI模型倾向于重复训练数据，这是商业用户对于使用未经许可、版权或明显偏见数据训练的模型的一个主要担忧。在最坏的情况下，用户可能因不知不觉地将模型中的侵权或有偏见的作品纳入其项目而面临道德和法律风险。

一些训练和发布生成式AI模型的公司提供覆盖可能侵权引起的法律费用的政策。Databricks目前没有——Rao说公司正在“探索”可能提供此类支持的情景。

考虑到DBRX在其他方面的不足，这个模型似乎很难吸引除当前或潜在Databricks客户之外的人。Databricks在生成式AI领域的竞争对手，包括OpenAI，提供的技术同样甚至更加引人注目，价格也非常有竞争力。并且，许多生成式AI模型比DBRX更接近人们通常理解的开源定义。

Rao承诺Databricks将继续完善DBRX，并随着公司的Mosaic Labs R&D团队——DBRX背后的团队——探索新的生成式AI途径而发布新版本。

“DBRX在推动开源模型空间向前发展，并挑战未来的模型建造得更高效。”他说。“我们将发布变体，因为我们应用技术来提高输出质量，从可靠性、安全性和偏见方面......我们将开放模型视为一个平台，我们的客户可以利用我们的工具在其上构建定制功能。”

鉴于DBRX目前相对于其同行的位置，这是一条异常漫长的道路。