谷歌已将向量查找引进其 MySQL 数据库服务,这一步领先了 MySQL 的所属公司 Oracle,迄今为止,Oracle 没有给 MySQL 增加任何大型言语模型(LLM)方面的功用。

谷歌云数据库副总裁安迪古特曼斯 (Andi Gutmans) 表明,在曩昔 12 年里,谷歌在向量方面的创新速度适当快。现在,在多个 Google Cloud 数据库中供给向量查找预览版,包含 Cloud SQL for MySQL、Memorystore for Redis 以及 Google 的分布式数据库办理和存储服务 Spanner。

向量是 LLM 的基本元素,自 2022 年 ChatGPT 推出以来,LLM 已成为大型科技公司、政府和媒体的关注焦点。LLM 依赖于单词或言语的其他组成部分,根据其与其他言语的统计相似性将其表明为向量嵌入。Google 支撑 Word2Vec,这是一种 2013 年推出的自然言语处理技术,虽然它已被法学硕士选用的转换器架构所代替。

开源数据库服务公司 Percona 的技术传播者 Dave Stokes 表明,Oracle 工程部分近期没有计划向 MySQL 支撑向量类的功用。

“可悲的是,Oracle 好像将一切资源投入到 HeatWave 中,一起为社区版做了绝对最低极限的资源,”他说。“这将使得 MySQL 进一步落后于 PostgreSQL 和新的向量数据库等。社区版遍及缺少新特性和功用,而将 JavaScript 和向量嵌入到商业版别中,这将使社区客户寻求其他代替方案,例如 Google 供给的产品”。

不过,谷歌并不是唯一一家将向量查找增加到 MySQL 服务的供货商。PlanetScale 是基于 MySQL/Vitesse 的分布式事务体系,于去年 10 月宣告了这一新功用。

Redis 是一种盛行的内存数据库,通常用作缓存和体系代理,也已经在发布的版别中支撑向量查找。

分布式文档数据库 Couchbase 在 DBaaS Capella 和 Couchbase Enterprise Edition 中引进了向量查找作为新功用。Couchbase 产品办理和事务运营高级副总裁 Scott Anderson 表明,向渠道增加向量查找是“使我们的客户能够构建新一波自适应应用程序”的下一步。

去年,Oracle数据库、Cassandra、MongoDB、PostgreSQL 和 SingleStore 在其数据库体系中增加了对向量查找的支撑,而像 Pinecone 这样的专业向量数据库也如雨后春笋般出现,以支撑计算趋势。

Forrester Research 副总裁兼首席剖析师 Noel Yuhanna 表明,向量查找现在或多或少已经成为任何专业企业数据库的标准。

“那些没有它的企业可能会看到对其增长的影响。根据我们的研讨,大约 35% 的企业正在考虑向量数据库,估计在未来 18 个月内将增长到 50%,”他说。

他表明,向量查找关于生成式人工智能应用程序变得至关重要,能够协助寻找相似的数据、图像和文档,以及客户智能、诈骗检测、聊天机器人和内容个性化等新兴应用程序。

Yuhanna 说,虽然专业向量数据库有其优势,但集成数据库为组织供给了更多背景和更丰富的数据体会。“没有哪家供货商能脱颖而出,由于向量功用仍在不断发展,而且许多供货商没有展现出高端规模。”

然而,现在只有约 22% 的组织正在为其数据库考虑 LLM/GenAI 战略,虽然 Forrester 估计这一数字在未来两到三年内会翻一番。Yuhanna 表明:“我们看到的大部分需求是期望使用向量进行新部署的新 GenAI 应用程序;要使现有数据库转向向量,我们至少需求几年时刻。”

谷歌还企图让自己的 GenAI 模型更挨近其剖析环境。谷歌表明,它正在经过 Vertex AI 为 BigQuery(其数据仓库体系)的用户供给 Gemini。与 AI 和 ML 渠道的新集成旨在协助数据工程师和剖析师使用 Gemini 模型为其 BigQuery 数据供给多模式和高级推理功用。

Yuhanna 表明,将 Vertex AI、BigQuery 和 BigLake 更紧密地结合在一起不只能够协助组织避免数据移动,还能够协助供给见地、改进数据治理和安全性、删除冗余数据,并经过最大极限地削减办理要求来降低成本。

他表明,企业将非结构化数据与结构化 BI 风格数据合并为所谓的 Lakehouse 概念是趋势的一部分,现在约有四分之一的企业选用这种概念,以降低成本并运行 BI、数据科学、AI/ML、运营单一渠道上的见地和 SQL 剖析。

更多技术文章,请访问:opensource.actionsky.com/

关于 SQLE

SQLE 是一款全方位的 SQL 质量办理渠道,掩盖开发至出产环境的 SQL 审核和办理。支撑主流的开源、商业、国产数据库,为开发和运维供给流程自动化能力,提高上线效率,提高数据质量。