作者:来自 ElasticAditya Tripathi

挑选大言语模型:2024 年开源 LLM 入门攻略

假如说人工智能在 2023 年起飞,这肯定是轻描淡写的说法。数千种新的人工智能工具被推出,人工智能功用被添加到现有的运用程序中,好莱坞因对这项技术的忧虑而戛然而止。 乃至还有一个人工智能工具能够评价你像弗雷迪墨丘利 (Freddie Mercury) 相同唱歌的水平,由于当然有!

但在每个人工智能工具或功用的背后,都有一个大型言语模型 (LLM) 承担着一切繁重的作业,其间许多都是开源的。 LLM 是一种深度学习算法,能够耗费很多数据来了解和生成言语。 它们建立在神经网络架构之上,能够练习它们履行各种自然言语处理 (NLP) 使命,例如内容生成、翻译、分类和许多其他用例。 再加上开源 LLMs 的可用性,使得要害业务使命的自动化变得愈加容易 —— 例如开发客户支撑谈天机器人、检测诈骗或帮忙疫苗开发等研发 —— 以及跨多个行业的各种其他用例。 LLMs 还能够经过扩展咱们处理和剖析数据的方式,在进步云安全性、查找和可观察性方面发挥至关重要的效果。

与任何新技术相同,LLMs 的运用也带来了需求考虑和解决的应战。 输出的质量彻底取决于所供给数据的质量。 许多 LLMs 接受过大型公共数据存储库的练习,在没有接受过特定范畴数据的练习时,他们倾向于 “发生幻觉” 或给出不精确的答案。 个人信息和用户生成内容的收集、存储和保存还存在隐私和版权问题。

检查咱们的页面:什么是大言语模型? 了解有 LLMs 的更多信息。

什么是开源 LLM?

开源 LLM是免费供给的 LLM,任何人都能够修正和定制。

有了开源 LLM,任何个人或企业都能够将其用于自己的意图,而无需支付答应费。 这包括将 LLM 布置到他们自己的基础设施中,并对其进行微调以满意他们自己的需求。

这与闭源 LLM 相反,闭源 LLM 是个人或安排具有的专有模型,不对大众敞开。 最著名的比如就是 OpenAI 的 GPT 系列模型。

LLM 的最佳用例是什么?

LLMs 有无穷无尽的潜在用例,但以下是一些要害功用,能够展现他们能够做的各种事情:

  • 情感剖析 (Sentiment analysis):LLMs 可用于辨认和分类从反馈、交际媒体等收集的片面意见。
  • 内容创立 (Content creation):一些 LLMs 能够生成与上下文相关的内容,例如文章、营销文案和产品描述。
  • 谈天机器人 (Chatbot):你能够微调 LLMs 以用作谈天机器人协助或与客户互动。
  • 翻译 (Translations):运用多言语文本数据,LLMs 可用于翻译人类言语以协助交流。
  • 研讨 (Research):LLMs 能够轻松完结研讨作业,能够消费和处理很多数据并返回最相关的信息。

2024 年热门开源 LLMs

为了让你更轻松地为你的公司或项目挑选开源 LLMs,咱们总结了八个最有趣的开源 LLMs。 咱们依据活泼的人工智能社区和机器学习存储库 Hugging Face 的盛行度度拟定了此列表。

1. GPT-NeoX-20B

GPT-NeoX-20B 由 EleutherAI 开发,是一种自回归言语模型,其架构设计类似于 GPT-3。 它运用 GPT-NeoX 库和来自 The Pile 的数据进行练习,The Pile 是由 The Eye 保管的 800GB 开源数据集。

GPT-NeoX-20B 主要是为了研讨意图而开发的,具有 200 亿个可供你运用和自定义的参数。

它是给谁用的?

GPT-NeoX-20B 十分适宜需求高档内容生成的中型/大型企业,例如营销组织和媒体公司。 这些公司需求具有运转更大的 LLMs 所需的熟练人员和核算才能。

它不适宜谁?

该 LLMs 不适宜没有财务和技术资源来管理核算要求的小型企业或个人。

运用杂乱性

由于它不适宜按原样布置,因而你需求技术专业知识来布置和微调 GPT-NeoX-20B,以满意你的特定使命和需求。

2. GPT-J-6b

GPT-J-6b 也是由 EleutherAI 开发的,是一种生成式预练习 Transformer 模型,旨在依据提示生成类似人类的文本。 它运用 GPT-J 模型构建,具有 60 亿个可练习参数(因而得名)。

它是在纯英语数据集上进行练习的,这使得它不适宜翻译或生成非英言语语的文本。

它是给谁用的?

GPT-J-6b 易于运用且尺度相对较小,十分适宜寻求功用和资源耗费之间平衡的草创公司和中型企业。

它不适宜谁?

关于需求更高档模型功用和定制的企业来说,该 LLM或许不是最佳挑选。 它也不适宜需求多言语支撑的公司。

运用杂乱性

GPT-J-6b 是一个适度用户友好的 LLM,获益于具有支撑性社区,使具有中等技术知识的企业能够运用它。

3. Llama 2

Meta 对 Google 和 OpenAI 盛行的 LLMs回应,Llama 2。它是在公开可用的在线数据源上进行练习,旨在创立人工智能驱动的体会。 它能够针对特定使命进行微调,而且彻底免费用于研讨和商业用途。

Llama 2 以 Meta 在 LLaMA 上的作业为基础,供给三种模型巨细 —— 70 亿、130 亿和 700 亿个参数——使其成为一个动态且可扩展的选项。

它是给谁用的?

由于模型巨细的挑选,Llama 2 关于想要运用广泛言语模型的研讨人员和教育开发人员来说是一个不错的挑选。 它乃至能够在消费级核算机上运转,这使其成为爱好者的一个不错的挑选。

它不适宜谁?

Llama 2 不太适宜高风险或更利基的运用,由于它不适用于高度专业化的使命,而且对其输出的可靠性存在一些忧虑。

运用杂乱性

这是一个相对易于运用的 LLM,专注于教育运用,但或许需求定制才干取得最佳成果。

4. BLOOM

BLOOM 是一种仅解码器的 Transformer 言语模型,具有 1760 亿个海量参数。 它旨在依据提示生成文本,而且能够进行微调以履行特定使命,例如文本生成、摘要、嵌入、分类和语义查找。

它是在包含 46 种不同言语的数百个来历的数据集上进行练习的,这也使其成为言语翻译和多言语输出的绝佳挑选。

它是给谁用的?

BLOOM 十分适宜面向需求多言语支撑的全球受众的大型企业。 由于该模型的规划较大,企业还需求有足够的可用资源来运转它。

它不适宜谁?

仅在英语市场运营的公司或许会发现其多言语功用是剩余的,特别是需求很多资源来定制和练习如此大的模型。

运用杂乱性

由于需求了解言语的细微差别以及在不同言语环境中的布置,BLOOM 具有中等到高的杂乱性。

5. Falcon

Falcon 是一个 LLM,他看着 BLOOM 说:“噗,只有 1760 亿个参数?”

好吧,他们实际上并没有这么说,但他们的开源言语模型的确有三种令人印象深刻的规划:70 亿、400 亿和 1800 亿。

Falcon 已取得 Apache License 2.0 答应,是一种自回归 LLM,旨在依据提示生成文本,并根据其高质量的 RefinedWeb 数据集。

它是给谁用的?

由于其卓越的功用和可扩展性,Falcon 十分适宜对多言语解决方案(如网站和营销创立、投资剖析和网络安全)感兴趣的大型公司。

它不适宜谁?

虽然有 70 亿个选项,但这依然不是寻找简单的即插即用内容生成解决方案的企业的最佳挑选。 关于这些类型的使命来说,定制和练习模型的本钱依然太高。

运用杂乱性

虽然最大的模型尺度巨大,但与其他一些 LLMs 比较,Falcon 相对容易运用。 但你依然需求了解特定使命的细微差别,才干充分运用它们。

6. CodeGen

这个来自 Salesforce 的 LLM 与此列表中的任何其他 LLM 不同,由于它不输出文本答案或内容,而是输出核算机代码。 CodeGen 是 “代码生成” 的缩写,这正是它的效果。 它经过练习能够依据现有代码或自然言语提示输出代码。

CodeGen 供给 70 亿、130 亿和 340 亿个参数,旨在创立一种简化的软件开发办法。

它是给谁用的?

CodeGen 适用于期望自动化编码使命并进步开发人员作业功率的科技公司和软件开发团队。

它不适宜谁?

假如你的公司不编写或运用核算机代码,那么该 LLM 不适宜你!

运用杂乱性

CodeGen 集成到现有的开发作业流程中或许很杂乱,而且需求扎实的软件工程背景。

7. BERT

BERT 是最早的现代 LLMs 之一,是 Google 于 2018 年创立的纯编码器转换器架构。它旨在了解、生成和操作人类言语。

Google 本身已运用 BERT 来进步查找中的查询了解,而且在文本生成、问答和情感剖析等其他使命中也很有效。

它是给谁用的?

考虑到它是 Google 本身查找的要害部分,关于想要为查找引擎优化网站和内容并进步内容相关性的 SEO 专家和内容创立者来说,BERT 是最佳挑选。

它不适宜谁?

除了 SEO 之外,BERT 在许多状况下或许不会是最好的挑选,由于它的年龄较大,这使得它与更大、更新的代替方案比较显得剩余。

运用杂乱性

关于熟悉 SEO 和内容优化的人来说,BERT 适当简单,但它或许需求微调才干跟上 Google 最新 SEO 主张的变化。

8. T5

T5(朗朗上口的文本到文本传输转换器的缩写)是一种根据转换器的架构,运用文本到文本的办法。 它将 NLP 问题转换为输入和输出始终为文本字符串的格局,这使得 T5 可用于翻译、问答和分类等各种使命。 它有五种不同的尺度可供挑选,参数规模从 6000 万个参数到 110 亿个参数不等。

它是给谁用的?

T5 十分适宜需求多功用工具来履行各种文本到文本处理使命(例如摘要、翻译和分类)的公司。

它不适宜谁?

虽然 T5 相对灵敏,但它不适宜需求任何类型的非文本输出的使命。

运用杂乱性

与其他 LLM 比较,T5 通常被认为易于运用,并供给一系列预练习模型。 但它或许依然需求一些专业知识来适应更利基或特定的使命。

免责声明:一切参数和模型尺度在发布时都是正确的,但尔后或许已发生变化。

为你的企业挑选适宜的 LLM

在决议运用哪个开源 LLM 时,你需求考虑几个要害标准:

  • 本钱:由于这些 LLMs 是开源的,因而你无需为模型本身付费。 但你的确需求考虑保管、练习、资源等的本钱。LMM规划越大、越杂乱,你的本钱或许就越高。 这是由于更大的 LLM 将需求更多的数据存储本钱、处理才能、更大的基础设施和维护本钱。
  • 精确性:评价你的挑选的精确性至关重要。 你需求比较不同的 LLMs 履行你所需的使命类型的精确程度。 例如,某些模型将是特定于范畴的,而某些模型能够经过微调或检索增强生成(RAG)进行改进。
  • 功用:LLM 的体现是经过言语流畅性、连贯性和上下文了解等目标来衡量的。 LLM 在这些方面做得越好,它的体现就越好。 这将改进用户体会和使命功率,并为你带来竞赛优势。
  • 数据安全:数据的安全性是另一个要害考虑要素。 假如你正在处理敏感数据或 PII 数据,这一点尤其重要。 这是 RAG 或许有用的另一个范畴,由于你能够运用文档级安全性来控制对数据的访问并约束对特定数据的安全权限。
  • 特定使命与通用意图:考虑你是否需求解决更具体用例的 LLM,仍是涵盖更广泛使命的 LLM。 由于某些模型是特定于范畴的,因而你需求小心挑选你地点范畴内的模型或寻找规模更广泛的模型。
  • 练习数据的质量:假如数据质量不好,成果也不会好。 评价每个 LLM 运用的数据并挑选一个你有信心的数据。RAG 也将协助你完结此使命,由于你能够运用自定义数据,能够准备和微调这些数据以直接进步输出的质量。
  • 技术组合:另一个需求考虑的重要要素是项目团队中现有的技术组合。 数据科学、MLOps 和 NLP 等范畴的经验是必须的。 LLM 越杂乱,你的团队需求具有的技术就越深。 假如你在这方面受到更多约束,那么值得重视更简单的 LLM,乃至寻求引进更多专业知识。

运用这些标准,你应该能够决议咱们涵盖的哪些 LLM 最适宜你的独特状况。

最好的办法是慢慢来,检查列出的选项,并依据它们怎么最好地协助你解决问题来评价它们。 一切这些开源 LLMs 都十分强大,假如有效运用,能够带来变革。

原文:Choosing an LLM: The 2024 getting started guide to open-source LLMs | Elastic Blog