2023 年,伴跟着 ChatGPT 的横空出世,生成式 AI (Generative AI) 的开展引起了广泛重视。各种规模的公司,从新式草创到大型企业,都在尽力探究适合自己的 GenAI 运用战略。
他们面对的问题包含:
在这个充溢不确认性的时代,企业们不只在寻求自身的回答,也渴望了解行业内其他公司的动向。尽管市场上已经有一些初步的探究来说明这一点,但凭借 LangChain 在整个生态体系中的特殊位置,咱们有能力深入揭示各团队怎么实践利用大言语模型 (LLM) 来进行创新和构建。
咱们经过剖析 LangSmith 上的匿名元数据来完成这一方针。LangSmith 是咱们专为简化从概念原型到产品完成进程的云平台,它供给了比如追踪、回归测验、评价等一系列强壮功用。现在 LangSmith 还处于私家测验阶段,但咱们正逐日向等候名单中的用户开放运用权限。
经过这些数据,咱们能够回答这样的问题:人们都在构建些什么?他们是怎么构建这些项目的?以及他们怎么对这些运用程序进行测验?一切的统计数据均来自于 2023 年 7 月 2 日至 12 月 11 日期间的记载。
探究创新:用户都在构建些什么?
让咱们来探究一下最常见的用户构建项目。
LangSmith 尽管与 LangChain 完成了无缝集成,但它也能够轻松适应 LangChain 生态体系之外的运用。有趣的是,大约 15% 的 LangSmith 用户并没有运用 LangChain。为了满意更广泛的用户需求,咱们投入了很多作业,致力于改进一切相关组件的运用体验,无论用户是否选用 LangChain。
在结合数据和大言语模型的进程中,检索技能(Retrieval)已成为干流办法。LangChain 供给了与超越 60 种向量存储的集成,这是对非结构化数据进行索引的最常见办法。此外,LangChain 还供给了多种更高级的检索战略。有意思的是,高达 42% 的杂乱查询触及到了检索技能,这不只凸显了检索的重要性,也显现了 LangChain 在简化检索进程方面的成就。
最终,咱们发现大约 17% 的杂乱查询触及到了智能体 (Agent) 的运用。 智能体允许大言语模型自主决议怎么操作,从而使体系更有用地处理杂乱查询和特殊状况。但是,因为智能体的可靠性和功用仍有待进步,这可能是其运用不如预期普及的原因。
LCEL:助力创新的新东西
在过去几个月中,LangChain 增加了一个有目共睹的新功用:LangChain 表达式言语(LangChain Expression Language,简称 LCEL)。LCEL 供给了一种轻松的办法来组合不同的组件,非常适合构建杂乱且个性化的处理方案。在这个生成式 AI (GenAI) 探究的初期,每个人都在探究怎么让大言语模型更好地为自己服务。这个进程充溢了试验和个性化定制。LCEL 正是为了简化这一进程而规划的 – 跟着咱们不断增加其功用并优化相关文档,LCEL 的运用在过去几个月里呈现出快速增长的趋势。
大言语模型供给商之争:谁在领跑?
在大言语模型 (LLMs) 这一革命性技能范畴,哪些供给商受到了用户的喜爱?
毫不意外地,OpenAI 名列榜首,其次是 AzureOpenAI。OpenAI 以其杰出的技能和服务在 2023 年锋芒毕露,成为大言语模型的领军企业。而 Azure 依托其强壮的企业级保障,也紧随这以后,成功抓住了市场的脉搏。
在专有模型的保管服务范畴,咱们看到 Anthropic(排名第三)、Vertex AI(排名第四)和 Amazon Bedrock(排名第八)也各自占有了一席之地。
在开源模型方面,则是 Hugging Face(排名第四)、Fireworks AI(排名第六)和 Ollama(排名第七)成为用户接触这些模型的主要途径。
值得一提的是,这些排名是依据用户运用特定供给商的数量来确认的。
开源模型的新风潮:谁在引领?
跟着开源模型越来越受到重视,很多供给商正争相推出更经济的保管方案。那么,开发者们又是怎么接入这些开源模型的呢?
现在,大多数开发者挑选在本地运行这些模型,像 Hugging Face、LlamaCpp、Ollama 和 GPT4All 这类东西因其方便性而受到喜爱。
在供给开源模型 API 访问服务的供给商中,Fireworks AI 率先锋芒毕露,紧随这以后的则是 Replicate、Together 和 Anyscale。
值得一提的是,这些排名是依据用户挑选运用特定供给商的数量来确认的。
向量存储的抢手挑选:哪些是开发者的首选?
正如咱们之前所提到的,检索(retrieval)是大言语模型运用中不可或缺的一部分。向量存储已经成为履行相关上下文检索的首选办法。在 LangChain 的 60 多个向量存储集成中,哪些最受欢迎呢?
数据显现,本地向量存储最为常用,其中 Chroma、FAISS、Qdrant 和 DocArray 均位列前五。这些排名依据用户的运用状况,因而,考虑到本地和免费的向量存储的便利性,它们成为最抢手的挑选也就不足为奇了。
在保管服务方面,Pinecone 作为前五名中仅有的保管向量存储,遥遥领先。这以后是 Weaviate,显现出以向量为核心的数据库现在比增加向量功用的数据库更受欢迎。
至于那些增添了向量功用的数据库, Postgres (PGVector)、Supabase、Neo4j、Redis、Azure Search 和 Astra DB 等均表现出色。
值得一提的是,这些排名是依据运用特定向量存储的用户数量来确认的。
嵌入技能的抢手挑选:开发者喜爱哪些东西?
要有用利用向量存储,首先需要为文本片段计算嵌入。开发者们通常是怎么完成这一过程的呢?
在嵌入技能范畴,OpenAI 依旧处于领先位置。但在其之后,咱们能够看到更多的多样化挑选。开源供给商的受欢迎程度更高,其中 Hugging Face 位居第二,而 GPT4All 和 Ollama 也在前八名内。在保管服务方面,Vertex AI 竟然超越了 AzureOpenAI,Cohere 和 Amazon Bedrock 也紧随这以后,显现出这一范畴的竞赛益发激烈。
探究先进的检索战略:哪些最受欢迎?
在检索范畴,仅依靠嵌入间的余弦类似度远远不够。咱们注意到,许多开发者正在依靠更为高级的检索战略,而这些战略大多已在 LangChain 中得到完成和详细记载。
值得一提的是,咱们调查到最常用的检索战略并非内置战略,而是自定义战略。这反映了两个方面:
- 在 LangChain 中完成自定义检索战略的便捷性;
- 为了达到最佳功用,开发者需要选用自定义逻辑。
在此基础上,咱们还看到了一些更为了解的战略名字呈现:
- Self Query – 该战略从用户的问题中提取元数据过滤器;
- Hybrid Search – 主要经过特定供给商如 Supabase 和 Pinecone 的集成完成;
- Contextual Compression – 对根本检索成果进行后处理;
- Multi Query – 将单一查询转换为多个查询,并检索一切相关成果;
- TimeWeighted VectorStore – 更偏好近期的文档。
测验与评价:开发者怎么战胜挑战?
在构建大言语模型运用的进程中,评价和测验已成为开发者面对的一大挑战,而 LangSmith 逐步成为处理这一问题的优选方案。
咱们发现,大部分用户能够为他们的大言语模型运用拟定出有用的评价目标 – 有 83% 的测验运行与某种形式的反应相关联。这些有反应的测验均匀触及 2.3 种不同类型的反应,这反映出开发者在寻觅单一可靠评价目标上的困难,因而他们倾向于选用多种不同的目标进行综合评价。
在一切记载的反应中,大部分选用大言语模型来评价输出成果。尽管这种办法引起了一些忧虑和犹豫,但咱们对其持积极观点,并调查到这已成为实践中的干流测验办法。另一个值得重视的数据是,近 40% 的评价东西为自定义评价器。这与咱们的调查相符,即评价通常高度特定于正在开发的运用,而并不存在一个适用于一切状况的标准评价东西。
测验焦点:开发者最关心什么?
从当时的状况来看,大多数开发者仍然把重点放在运用程序的正确性上,而不是毒性(toxicity)、提示词走漏(prompt leakage)或其他安全保障措施。此外,因为准确匹配在评价技能中的运用率较低,咱们能够看出,判断一个运用的正确性往往远比单纯比较输出成果更为杂乱(你不能仅仅简略地直接比较输出成果)。
结论
跟着大言语模型运用开发的首个真实年度行将完毕,许多团队都表达了一个共同的愿望:缩短从原型到产品的转化时刻。希望经过共享这些运用统计数据,能够为大家在构建运用、开发办法和测验战略方面供给一些启示。
不管是否选用 LangChain,LangSmith 正在成为团队将运用从原型推向产品阶段的首选东西。