Large Language Model (LLM) 即大规划言语模型,是一种依据深度学习的自然言语处理模型,它可以学习到自然言语的语法和语义,然后可以生成人类可读的文本。
所谓”言语模型”,便是只用来处理言语文字(或许符号体系)的 AI 模型,发现其间的规则,可以依据提示 (prompt),主动生成契合这些规则的内容。
LLM 一般依据神经网络模型,运用大规划的语料库进行练习,比方运用互联网上的海量文本数据。这些模型一般具有数十亿到数万亿个参数,可以处理各种自然言语处理使命,如自然言语生成、文本分类、文本摘要、机器翻译、语音辨认等。
本文对国内外公司、科研组织等安排开源的 LLM 进行了全面的整理。
开源中文 LLM
ChatGLM-6B —— 双语对话言语模型
ChatGLM-6B 是一个开源的、支撑中英双语问答的对话言语模型,并针对中文进行了优化。该模型依据 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技能,用户可以在消费级的显卡进步行本地布置(INT4 量化等级下最低只需 6GB 显存)。
ChatGLM-6B 运用了和 ChatGLM 相同的技能,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语练习,辅以监督微调、反应自助、人类反应强化学习等技能的加持,62 亿参数的 ChatGLM-6B 尽管规划不及千亿模型,但大大降低了推理成本,进步了功率,并且现已能生成恰当契合人类偏好的答复。
VisualGLM-6B —— 多模态对话言语模型
VisualGLM-6B 是一个开源的,支撑图画、中文和英文的多模态对话言语模型,言语模型依据 ChatGLM-6B,具有 62 亿参数;图画部分经过练习 BLIP2-Qformer 构建起视觉模型与言语模型的桥梁,全体模型共78亿参数。
MOSS —— 支撑中英双语的对话大言语模型
MOSS 是一个支撑中英双语和多种插件的开源对话言语模型, moss-moon
系列模型具有 160 亿参数,在 FP16 精度下可在单张 A100/A800 或两张 3090 显卡运转,在 INT4/8 精度下可在单张 3090 显卡运转。
MOSS 基座言语模型在约七千亿中英文以及代码单词上预练习得到,后续经过对话指令微调、插件增强学习和人类偏好练习具有多轮对话才能及运用多种插件的才能。
DB-GPT——数据库大言语模型
DB-GPT 是一个开源的以数据库为根底的 GPT 试验项目,运用本地化的 GPT 大模型与数据和环境进行交互,无数据泄露危险,100% 私密,100% 安全。
DB-GPT 为一切以数据库为根底的场景,构建了一套完好的私有大模型处理方案。 此方案由于支撑本地布置,所以不只仅可以运用于独立私有环境,并且还可以依据业务模块独立布置隔离,让大模型的才能肯定私有、安全、可控。
CPM-Bee——中英文双语大言语模型
CPM-Bee 是一个 彻底开源、允许商用的百亿参数中英文基座模型。它选用 Transformer 自回归架构(auto-regressive),运用万亿级高质量语料进行预练习,具有强壮的根底才能。
CPM-Bee 的特色可以总结如下:
- 开源可商用:OpenBMB 始终秉承 “让大模型飞入千家万户” 的开源精神,CPM-Bee 基座模型将彻底开源并且可商用,以推动大模型范畴的开展。如需将模型用于商业用处,只需企业实名邮件申请并获得官方授权证书,即可商用运用。
- 中英双语功用优异:CPM-Bee 基座模型在预练习语料进步行了严厉的挑选和配比,一起在中英双语上具有亮眼体现,详细可参见评测使命和成果。
- 超大规划高质量语料:CPM-Bee 基座模型在万亿级语料进步行练习,是开源社区内经过语料最多的模型之一。一起,咱们对预练习语料进行了严厉的挑选、清洗和后处理以保证质量。
- OpenBMB 大模型体系生态支撑:OpenBMB 大模型体系在高功用预练习、适配、紧缩、布置、东西开发了一系列东西,CPM-Bee 基座模型将配套一切的东西脚本,高效支撑开发者进行进阶运用。
- 强壮的对话和东西运用才能:结合 OpenBMB 在指令微调和东西学习的探索,咱们在 CPM-Bee 基座模型的根底进步行微调,练习出了具有强壮对话和东西运用才能的实例模型,现已敞开定向邀请内测,未来会逐步向公众敞开。
CPM-Bee 的基座模型可以准确地进行语义了解,高效完结各类根底使命,包括:文字填空、文本生成、翻译、问答、评分猜测、文本挑选题等等。
LaWGPT——依据中文法令常识的大言语模型
LaWGPT 是一系列依据中文法令常识的开源大言语模型。
该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的根底上扩充法令范畴专有词表、大规划中文法令语料预练习,增强了大模型在法令范畴的根底语义了解才能。在此根底上,结构法令范畴对话问答数据集、我国司法考试数据集进行指令精调,进步了模型对法令内容的了解和履行才能。
伶荔 (Linly) —— 大规划中文言语模型
比较已有的中文开源模型,伶荔模型具有以下优势:
- 在 32*A100 GPU 上练习了不同量级和功用的中文模型,对模型充沛练习并供给强壮的 baseline。据知,33B 的 Linly-Chinese-LLAMA 是现在最大的中文 LLaMA 模型。
- 揭露一切练习数据、代码、参数细节以及试验成果,保证项目的可复现性,用户可以挑选合适的资源直接用于自己的流程中。
- 项目具有高兼容性和易用性,供给可用于 CUDA 和 CPU 的量化推理结构,并支撑 Huggingface 格式。
现在揭露可用的模型有:
- Linly-Chinese-LLaMA:中文根底模型,依据 LLaMA 在高质量中文语料上增量练习强化中文言语才能,现已敞开 7B、13B 和 33B 量级,65B 正在练习中。
- Linly-ChatFlow:中文对话模型,在 400 万指令数据集合上对中文根底模型指令精调,现已敞开 7B、13B 对话模型。
- Linly-ChatFlow-int4 :ChatFlow 4-bit 量化版别,用于在 CPU 上布置模型推理。
进行中的项目:
- Linly-Chinese-BLOOM:依据 BLOOM 中文增量练习的中文根底模型,包括 7B 和 175B 模型量级,可用于商业场景。
Chinese-Vicuna ——依据 LLaMA 的中文大言语模型
Chinese-Vicuna 是一个中文低资源的 LLaMA+Lora 方案。
项目包括
- finetune 模型的代码
- 推理的代码
- 仅运用 CPU 推理的代码 (运用 C++)
- 下载 / 转化 / 量化 Facebook llama.ckpt 的东西
- 其他运用
Chinese-LLaMA-Alpaca——中文 LLaMA & Alpaca 大模型
Chinese-LLaMA-Alpaca 包括中文 LLaMA 模型和经过指令微调的 Alpaca 大型模型。
这些模型在原始 LLaMA 的根底上,扩展了中文词汇表并运用中文数据进行二次预练习,然后进一步进步了对中文基本语义了解的才能。一起,中文 Alpaca 模型还进一步运用中文指令数据进行微调,显着进步了模型对指令了解和履行的才能。
ChatYuan —— 对话言语大模型
ChatYuan 是一个支撑中英双语的功用型对话言语大模型。ChatYuan-large-v2 运用了和 v1 版别相同的技能方案,在微调数据、人类反应强化学习、思想链等方面进行了优化。
ChatYuan-large-v2 是 ChatYuan 系列中以轻量化完结高质量作用的模型之一,用户可以在消费级显卡、 PC 乃至手机进步行推理(INT4 最低只需 400M )。
华佗 GPT——开源中文医疗大模型
HuatuoGPT(华佗 GPT)是开源中文医疗大模型,依据医师回复和 ChatGPT 回复,让言语模型成为医师,供给丰厚且准确的问诊。
HuatuoGPT 致力于经过交融 ChatGPT 生成的 “蒸馏数据” 和真实世界医师回复的数据,以使言语模型具有像医师相同的确诊才能和供给有用信息的才能,一起保持对用户流畅的交互和内容的丰厚性,对话更加丝滑。
本草 —— 依据中文医学常识的 LLaMA 微调模型
本草(BenTsao)【原名:华驼 (HuaTuo)】是依据中文医学常识的 LLaMA 微调模型。
此项目开源了经过中文医学指令精调 / 指令微调 (Instruct-tuning) 的 LLaMA-7B 模型。经过医学常识图谱和 GPT3.5 API 构建了中文医学指令数据集,并在此根底上对 LLaMA 进行了指令微调,进步了 LLaMA 在医疗范畴的问答作用。
鹏程盘古 —— 中文预练习言语模型
「鹏程盘古」是业界首个 2000 亿参数以中文为中心的预练习生成言语模型,现在开源了两个版别:鹏程盘古和鹏程盘古增强版,并支撑NPU和GPU两个版别,支撑丰厚的场景运用,在常识问答、常识检索、常识推理、阅读了解等文本生成范畴体现突出,具有较强的少样本学习的才能。
依据盘古系列大模型供给大模型运用落地技能协助用户高效的落地超大预练习模型到实践场景。整个结构特色如下:
主要有如下几个中心模块:
- 数据集:从开源敞开数据集、common crawl 数据集、电子书等收集近 80TB 原始语料,构建了约 1.1TB 的高质量中文语料数据集、53 种语种高质量单、双语数据集 2TB。
- 根底模块:供给预练习模型库,支撑常用的中文预练习模型,包括鹏程・盘古 、鹏程・盘古 增强版等。
- 运用层:支撑常见的 NLP 运用比方多言语翻译、敞开域对话等,支撑预练习模型落地东西,包括模型紧缩、结构移植、可继续学习,助力大模型快速落地。
鹏程盘古对话生成大模型
鹏程・盘古对话生成大模型 (PanGu-Dialog)。
PanGu-Dialog 是以大数据和大模型为显著特征的大规划敞开域对话生成模型,充沛运用大规划预练习言语模型的常识和言语才能,构建可控、牢靠可信、有才智的自然人机对话模型。主要特性如下:
- 首次提出对话才智度以探索对话模型的逻辑推理、数据核算、联想、创作等方面的才能。
- 构建了掩盖范畴最广 (据咱们所知) 的敞开域交互式对话评价数据集 PGCED,12 个范畴,并在常识性、安全性、才智程度等方面制作了针对性的评测数据。
- 依据预练习 + 继续微调的学习战略交融大规划普通文本和多种对话数据练习而成,充沛运用练习言语模型言语才能和常识,高效构建强壮的对话模型。
- 在各项方针上到达了中文纯模型生成式对话 SOTA 水平,在常识性和信息量方面优势显着,但安全性、牢靠、可信、可控、才智等方面的进步并不显着。
- 现在生成式对话仍处于较低水平,与人类对话才能存在显着的差距,后续将在现有根底上针对不同的维度不断优化迭代,不断进步。
悟道——双语多模态大言语模型
“悟道” 是双语多模态预练习模型,规划到达 1.75 万亿参数。项目现有 7 个开源模型效果。
图文类
-
CogView
CogView 参数量为 40 亿,模型可完结文本生成图画,经过微调后可完结国画、油画、水彩画、轮廓画等图画生成。现在在公认 MS COCO 文生图使命上获得了逾越 OpenAI DALL・E 的成果,获得世界第一。
-
BriVL
BriVL (Bridging Vision and Language Model) 是首个中文通用图文多模态大规划预练习模型。BriVL 模型在图文检索使命上有着优异的作用,逾越了同期其他常见的多模态预练习模型(例如 UNITER、CLIP)。
文本类
-
GLM
GLM 是以英文为中心的预练习言语模型系列,依据新的预练习范式完结单一模型在言语了解和生成使命方面获得了最佳成果,并且逾越了在相同数据量进行练习的常见预练习模型(例如 BERT,RoBERTa 和 T5),现在已开源 1.1 亿、3.35 亿、4.10 亿、5.15 亿、100 亿参数规划的模型。
-
CPM
CPM 系列模型是统筹了解与生成才能的预练习言语模型系列,包括中文、中英双语多类模型,现在已开源 26 亿、110 亿和 1980 亿参数规划的模型。
-
Transformer-XL
Transformer-XL 是以中文为中心的预练习言语生成模型,参数规划为 29 亿,现在可支撑包括文章生成、智能作诗、评论 / 摘要生成等干流 NLG 使命。
-
EVA
EVA 是一个敞开范畴的中文对话预练习模型,是现在最大的汉语对话模型,参数量到达 28 亿,并且在包括不同范畴 14 亿汉语的悟道对话数据集(WDC)进步行预练习。
-
Lawformer
Lawformer 是世界创始法令范畴长文本中文预练习模型,参数规划到达 1 亿。
蛋白质类
-
ProtTrans
ProtTrans 是国内最大的蛋白质预练习模型,参数总量到达 30 亿。
BBT-2 —— 120 亿参数大言语模型
BBT-2 是包括 120 亿参数的通用大言语模型,在 BBT-2 的根底上练习出了代码,金融,文生图等专业模型。依据 BBT-2 的系列模型包括:
- BBT-2-12B-Text:120 亿参数的中文根底模型
- BBT-2.5-13B-Text: 130 亿参数的中文+英文双语根底模型
- BBT-2-12B-TC-001-SFT 经过指令微调的代码模型,可以进行对话
- BBT-2-12B-TF-001 在 120 亿模型上练习的金融模型,用于处理金融范畴使命
- BBT-2-12B-Fig:文生图模型
- BBT-2-12B-Science 科学论文模型
BELLE——开源中文对话大模型
BELLE: Be Everyone’s Large Language model Engine(开源中文对话大模型)
本项目方针是促进中文对话大模型开源社区的开展,愿景做能帮到每一个人的 LLM Engine。现阶段本项目依据一些开源预练习大言语模型(如 BLOOM),针对中文做了优化,模型调优仅运用由 ChatGPT 出产的数据(不包括任何其他数据)。
TigerBot —— 多模态大言语模型
TigerBot 是一个多言语多使命的大规划言语模型(LLM)。依据 OpenAI InstructGPT 论文在揭露 NLP 数据集上的主动评测,TigerBot-7B 到达 OpenAI 相同巨细模型的归纳体现的 96%。
YuLan-Chat —— 大言语对话模型
我国人民大学高瓴人工智能学院相关研讨团队(由多位学院老师联合指导)展开了一系列关于指令微调技能的研讨,并发布了学院初版大言语对话模型——YuLan-Chat,旨在探索和进步大言语模型的中英文双语对话才能。
开源 LLM
LLaMA —— Meta 大言语模型
LLaMA 言语模型全称为 “Large Language Model Meta AI”,是 Meta 的全新大型言语模型(LLM),这是一个模型系列,依据参数规划进行了区分(分为 70 亿、130 亿、330 亿和 650 亿参数不等)。
其间 LaMA-13B(130 亿参数的模型)尽管模型参数比较 OpenAI 的 GPT-3(1750 亿参数) 要少了十几倍,但在功用上反而可以逾越 GPT-3 模型。更小的模型也意味着开发者可以在 PC 乃至是智能手机等设备上本地运转类 ChatGPT 这样的 AI 帮手,无需依赖数据中心这样的大规划设备。
Stanford Alpaca —— 指令调优的 LLaMA 模型
Stanford Alpaca(斯坦福 Alpaca)是一个指令调优的 LLaMA 模型,从 Meta 的大言语模型 LLaMA 7B 微调而来。
Stanford Alpaca 让 OpenAI 的 text-davinci-003 模型以 self-instruct 办法生成 52K 指令遵从(instruction-following)样本,以此作为 Alpaca 的练习数据。研讨团队已将练习数据、生成练习数据的代码和超参数开源,后续还将发布模型权重和练习代码。
Lit-LLaMA —— 依据 nanoGPT 的言语模型
Lit-LLaMA 是一个依据 nanoGPT 的 LLaMA 言语模型的完结,支撑量化、LoRA 微调、预练习、flash attention、LLaMA-Adapter 微调、Int8 和 GPTQ 4bit 量化。
主要特色:单一文件完结,没有样板代码;在顾客硬件上或大规划运转;在数值上等同于原始模型。
Lit-LLaMA 认为人工智能应该彻底开源并成为团体常识的一部分。但原始的 LLaMA 代码选用GPL 许可证,这意味着运用它的任何项目也必须在 GPL 下发布。这“污染”了其他代码,阻挠了与生态体系的集成。Lit-LLaMA 永久性地处理了这个问题。
GloVe —— 斯坦福大学的词向量东西
GloVe的全称叫Global Vectors for Word Representation,它是一个依据全局词频核算(count-based & overall statistics)的词表征(word representation)东西,它可以把一个单词表达到一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比方类似性(similarity)、类比性(analogy)等。咱们经过对向量的运算,比方欧几里得距离或许cosine类似度,可以核算出两个单词之间的语义类似性。
以下是 GloVe 供给的预练习词向量,遵从 Public Domain Dedication and License 许可。
- Wikipedia 2014+Gigaword 5(6B tokens, 400K vocab, uncased, 50d, 100d, 200d, & 300d vectors, 822 MB download):glove.6B.zip
- Common Crawl (42B tokens, 1.9M vocab, uncased, 300d vectors, 1.75 GB download):glove.42B.300d.zip
- Common Crawl (840B tokens, 2.2M vocab, cased, 300d vectors, 2.03 GB download):glove.840B.300d.zip
- Twitter (2B tweets, 27B tokens, 1.2M vocab, uncased, 25d, 50d, 100d, & 200d vectors, 1.42 GB download):glove.twitter.27B.zip
Dolly —— 低成本大言语模型
Dolly 是一个低成本的 LLM,Dolly 选用 EleutherAI 现有的 60 亿参数的开源模型,并对其进行细微的修改,以激发指令跟随才能。
尽管模型小得多,只有 60 亿个参数,以及较小的数据集和练习时刻(ChatGPT 的参数是 1750 亿个),但 Dolly 仍然体现出了 ChatGPT 所展现的相同的 “神奇的人类互动才能”。
OPT-175B —— Meta 开源的大言语模型
OPT-175B 是 Meta 开源的大言语模型,具有逾越 1750 亿个参数 —— 和 GPT-3 恰当。比较 GPT-3,OPT-175B 的优势在于它彻底免费。
Meta 还公布了代码库、开发进程日志、数据、研讨论文和其他与 OPT-175B 相关的信息。尽管 OPT-175B 是免费的,但 Meta 也给出了一些约束。为了避免误用和 “保持完好性”,OPT-175B 只允许在非商业用处下运用。也便是说,OPT-175B 的多数运用场景仍是在科研上。
Cerebras-GPT —— 自然言语处理范畴大模型
Cerebras GPT 是由 Cerebras 公司开源的自然言语处理范畴的预练习大模型,其模型参数规划最小 1.11 亿,最大 130 亿,共 7 个模型。
与业界的模型比较,Cerebras-GPT 几乎是各个方面彻底揭露,没有任何约束。不管是模型架构,仍是预练习成果都是揭露的。
BLOOM —— 自然言语处理大模型
Bloom 是用于自然言语处理的大言语模型,包括 1760 亿个参数,支撑 46 种自然言语(包括中文)和 13 种编程言语,可以用来答复问题、翻译文本、从文件中提取信息片段,还能像 GitHub Copilot 相同用于生成代码。
BLOOM 模型的最大优势是它的易获取性,任何个人或组织都可以从 Hugging Face 免费获得 1760 亿个参数的完好模型。用户有多个语种可选,然后将需求输入到 BLOOM 中,使命类型包括撰写食谱或诗篇、翻译或总结文本,乃至还有代码编程。人工智能开发者可以在该模型的根底上构建他们自己的运用程序。
BLOOMChat —— 176B 的开源可商用多言语谈天 LLM
BLOOMChat 是一个新的、敞开的、多言语的谈天 LLM。SambaNova 和 Together 运用 SambaNova 共同的可重构数据流架构在 SambaNova DataScale 体系上练习了 BLOOMChat;其树立在 BigScience 安排的 BLOOM 之上,并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 进步行了微调。
GPT-J —— 自然言语处理 AI 模型
GPT-J 是一个依据 GPT-3,由 60 亿个参数组成的自然言语处理 AI 模型。
该模型在一个 800GB 的开源文本数据集进步行练习,并且可以与类似规划的 GPT-3 模型相媲美。 该模型经过运用 Google Cloud 的 v3-256 TPU 以及 EleutherAI 的 The Pile 数据集进行练习,历时大约五周时刻。GPT-J 在规范 NLP 基准作业负载上完结了与 OpenAI 报告的 67 亿参数版别的 GPT-3 类似的准确性。模型代码、预练习的权重文件、Colab 文档和一个演示网页都包括在 EleutherAI 的开源项目中。
GPT-2 —— 依据 Transformer 的大型言语模型
GPT-2 是一种依据 transformer 的大型言语模型,具有 15 亿个参数,在 800 万网页数据集进步行练习。
GPT-2 可以翻译文本、答复问题、总结阶段,并生成文本输出。尽管其输出内容有时与人类类似,但在生生长阶段时输出内容或许会变得重复或无意义。
GPT-2 是一个通用学习器,没有经过专门练习来履行任何特定的使命,并且是作为 OpenAI 2018 GPT 模型的“直接扩展”而创立的,其参数数量和练习数据集的巨细均增加了十倍。
RWKV-LM —— 线性 Transformer 模型
RWKV 是结合了 RNN 和 Transformer 的言语模型,合适长文本,运转速度较快,拟合功用较好,占用显存较少,练习用时较少。
RWKV 全体结构仍然选用 Transformer Block 的思路,相较于原始 Transformer Block 的结构,RWKV 将 self-attention 替换为 Position Encoding 和 TimeMix,将 FFN 替换为 ChannelMix。其余部分与 Transfomer 一致。
白泽 —— 运用 LoRA 练习的大言语模型
白泽是运用 LoRA 练习的开源谈天模型,它改善了开源大型言语模型 LLaMA,经过运用新生成的谈天语料库对 LLaMA 进行微调,该模型在单个 GPU 上运转,使其可供更广泛的研讨人员运用。
白泽现在包括四种英语模型:白泽 -7B、13B 和 30B(通用对话模型),以及一个垂直范畴的白泽 – 医疗模型,供研讨 / 非商业用处运用,并方案在未来发布中文的白泽模型。
白泽的数据处理、练习模型、Demo 等全部代码现已开源。
CodeGeeX——多言语代码生成模型
CodeGeeX 是一个具有 130 亿参数的多编程言语代码生成预练习模型。CodeGeeX 选用华为 MindSpore 结构完结,在鹏城试验室 “鹏城云脑 II” 中的 192 个节点(共 1536 个国产昇腾 910 AI 处理器)上练习而成。
CodeGeeX 有以下特色:
- 高精度代码生成:支撑生成 Python、C++、Java、JavaScript 和 Go 等多种干流编程言语的代码,在 HumanEval-X 代码生成使命上获得 47%~60% 求解率,较其他开源基线模型有更佳的均匀功用。
- 跨言语代码翻译:支撑代码片段在不同编程言语间进行主动翻译转化,翻译成果正确率高,在 HumanEval-X 代码翻译使命上逾越了其它基线模型。
- 主动编程插件:CodeGeeX 插件现已上架 VSCode 插件商场(彻底免费),用户可以经过其强壮的少样本生成才能,自界说代码生成风格和才能,更好辅佐代码编写。
- 模型跨渠道开源: 一切代码和模型权重开源敞开,用作研讨用处。CodeGeeX 一起支撑昇腾和英伟达渠道,可在单张昇腾 910 或英伟达 V100/A100 上完结推理。
Falcon LLM —— 开源言语模型
「Falcon」由阿联酋阿布扎比的技能立异研讨所(TII)开发,从功用上看,Falcon比LLaMA的体现更好。TII表示,Falcon迄今为止最强壮的开源言语模型。其最大的版别,Falcon 40B,具有400亿参数,相对于具有650亿参数的LLaMA来说,规划上仍是小了一点。规划虽小,功用能打。
Vicuna —— 依据 LLaMA 的微调大言语模型
Vicuna 模型对 LLaMA 进行了微调,由加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣地亚哥分校和 MBZUAI 的学术团队进行微调练习而成,有两种巨细可供挑选:7B 和 13B。
Vicuna-13B 与 Stanford Alpaca 等其他开源模型比较展现了具有竞争力的功用。
以 GPT-4 为评判规范的初步评价显现,Vicuna-13B 到达了 OpenAI ChatGPT 和 Google Bard 90% 以上的质量,一起在 90% 以上的情况下逾越了 LLaMA 和 Stanford Alpaca 等其他模型的体现。练习 Vicuna-13B 成本约为 300 美元。练习和服务代码,以及在线演示都是揭露的,可用于非商业用处。
RedPajama —— 1.2 万亿数据集的可商用大言语模型
RedPajama 项目旨在创立一套抢先的全开源大言语模型。现在,该项目已完结了第一步,成功复制了 LLaMA 练习数据集逾越 1.2 万亿个数据 token。该项目由 Together、Ontocord.ai、ETH DS3Lab、斯坦福大学 CRFM、Hazy Research 和 MILA 魁北克 AI 研讨所联合开发。
RedPajama 包括三个主要组成部分:预练习数据、根底模型和指令调优数据与模型。
OpenAssistant —— 依据对话的大型言语模型
OpenAssistant 是一个开源项目,旨在开发免费供给给一切人运用的 AI 谈天机器人。
练习数据集 OpenAssistant Conversations 包括了逾越 60 万个涉及各种主题的交互,用于练习各种模型。现在发布了经过指令调整的 LLaMA 13B 和 30B 模型,以及其他运用相同数据集练习的模型。
StableLM —— Stability AI 开发的言语模型
StableLM 项目库房包括 Stability AI 正在进行的 StableLM 系列言语模型开发,现在 Stability AI 发布了初始的 StableLM-alpha 模型集,具有 30 亿和 70 亿参数。150 亿和 300 亿参数的模型正在开发中。
StableLM 模型可以生成文本和代码,并为一系列下游运用供给支撑。它们展现了小而高效的模型如何在恰当的练习下供给高功用。
StarCoder —— AI 编程模型
StarCoder(150 亿参数)是 Hugging Face 联合 ServiceNow 发布的免费大型言语模型,该模型经过练习主要用处是可以生成代码,目的是为了对抗 GitHub Copilot 和亚马逊 CodeWhisperer 等依据 AI 的编程东西。
SantaCoder —— 轻量级 AI 编程模型
SantaCoder 是一个言语模型,该模型具有 11 亿个参数,可以用于 Python、Java 和 JavaScript 这几种编程言语的代码生成和补全主张。
依据官方供给的信息,练习 SantaCoder 的根底是 The Stack(v1.1)数据集,SantaCoder 尽管规划相对较小,只有 11 亿个参数,在参数的肯定数量上低于 InCoder(67 亿)或 CodeGen-multi(27 亿),但 SantaCoder 的体现则是要远好于这些大型多言语模型。
MLC LLM —— 本地大言语模型
MLC LLM 是一种通用处理方案,它允许将任何言语模型本地布置在各种硬件后端和本地运用程序上。
此外,MLC LLM 还供给了一个高效的结构,供运用者依据需求进一步优化模型功用。MLC LLM 旨在让每个人都能在个人设备上本地开发、优化和布置 AI 模型,而无需服务器支撑,并经过手机和笔记本电脑上的消费级 GPU 进行加快。
Web LLM —— 浏览器大言语模型
Web LLM 是一个可将大型言语模型和依据 LLM 的谈天机器人引进 Web 浏览器的项目。一切都在浏览器内运转,无需服务器支撑,并运用 WebGPU 加快。这开辟了许多有趣的机会,可以为每个人构建 AI 帮手,并在享受 GPU 加快的一起完结隐私。
WizardLM —— 依据 LLaMA 的微调大言语模型
WizardLM 是一个经过微调的 7B LLaMA 模型。它经过很多具有不同难度的指令跟随对话进行微调。这个模型的新颖之处在于运用了 LLM 来主动生成练习数据。
WizardLM 模型运用一种名为 Evol-Instruct(是一种运用 LLM 代人类自主批生成各种难度等级和技能范围的敞开指令,以进步 LLM 才能的新办法)的新办法,经过 70k 个核算机生成的指令进行练习,该办法生成具有不同难度等级的指令。
YaLM 100B—— 千亿参数预练习言语模型
YaLM 100B是一个类似 GPT 的神经网络,用于生成和处理文本。
该模型运用了 1000 亿个参数,在 800 个 A100 显卡和 1.7 TB 在线文本、书籍以及海量其他英文和俄文资源的集群上练习该模型花了 65 天时刻。
OpenLLaMA —— LLaMA 大言语模型的开源复现版别
OpenLLaMA 是 Meta AI 的 LLaMA 大言语模型的开源复现版别,选用宽松许可证。
库房包括经过练习的 2000 亿标记的 7B OpenLLaMA 模型的公共预览版,并供给了预练习的 OpenLLaMA 模型的 PyTorch 和 Jax 权重,以及评价成果和与原始 LLaMA 模型的比较。
LLM 相关东西
LangChain —— 构建 LLM 运用的东西
LangChain 是一个用于构建依据大型言语模型(LLM)的运用程序的库。它可以协助开发者将 LLM 与其他核算或常识源结合起来,创立更强壮的运用程序。
LangChain 供给了以下几个主要模块来支撑这些运用程序的开发:
- Prompts:这包括提示管理、提示优化和提示序列化。
- LLMs:这包括一切 LLM 的通用接口,以及与 LLM 相关的常用东西。
- Document Loaders:这包括加载文档的规范接口,以及与各种文本数据源的特定集成。
- Utils:言语模型在与其他常识或核算源交互时一般更强壮。这或许包括 Python REPL、嵌入、搜索引擎等。LangChain 供给了一系列常用的东西来在运用程序中运用。
- Chains:Chains 不只仅是一个独自的 LLM 调用,而是一系列的调用(无论是对 LLM 仍是其他东西)。LangChain 供给了链的规范接口,许多与其他东西的集成,以及常见运用程序的端到端链。
- Indexes:言语模型在与自己的文本数据结合时一般更强壮 – 这个模块包括了这样做的最佳实践。
- Agents:Agents 涉及到一个 LLM 在决议采纳哪些举动、履行该举动、看到一个观察成果,并重复这个进程直到完结。LangChain 供给了署理的规范接口,可供挑选的署理,以及端到端署理的示例。
- Memory:Memory 是在链 / 署理调用之间持久化状况的概念。LangChain 供给了内存的规范接口,一系列内存完结,以及运用内存的链 / 署理示例。
- Chat:Chat 模型是一种与言语模型不同的 API – 它们不是运用原始文本,而是运用消息。LangChain 供给了一个规范接口来运用它们,并做一切上述相同的作业。
JARVIS —— 衔接 LLM 和 AI 模型的协作体系
JARVIS 是用于衔接 LLM 和 AI 模型的协作体系。该体系由 LLM(大言语模型)作为控制器和许多AI 模型作为协作履行者(来自 HuggingFace Hub)组成。
体系的作业流程包括四个阶段:
- 使命规划:运用 ChatGPT 剖析用户的请求,了解他们的目的,并将其拆解成可处理的使命。
- 模型挑选:为了处理方案的使命,ChatGPT 依据描绘挑选托管在 Hugging Face 上的 AI 模型。
- 使命履行:调用并履行每个选定的模型,并将成果返回给 ChatGPT。
- 生成呼应: 终究运用 ChatGPT 整合一切模型的猜测,生成 Response。
Semantic Kernel —— 集成 LLM 到运用程序的 SDK
Semantic Kernel 是一种轻量级 SDK,可将 AI 大言语模型 (LLM) 与传统编程言语集成。
Semantic Kernel 可扩展编程模型结合了自然言语语义功用、传统代码原生功用和依据嵌入的内存,开释新的潜力并经过 AI 为运用程序增加价值。
Semantic Kernel 旨在支撑和封装来自最新 AI 研讨的多种规划形式,以便开发人员可以为他们的运用程序注入杂乱的技能,如提示链、递归推理、总结、零 / 少样本学习、上下文回忆、长时间回忆、嵌入、语义索引、规划和访问外部常识存储以及内部数据等功用。
LMFlow —— 大言语模型的可扩展东西包
LMFlow 由香港科技大学核算和机器学习试验室团队建议,致力于树立一个全敞开的大模型研讨渠道,支撑有限机器资源下的各类试验,并且在渠道上进步现有的数据运用办法和优化算法功率,让渠道开展成一个比之前办法更高效的大模型练习体系。
LMFlow 的终究目的是协助每个人都可以用尽量少的资源来练习一个专有范畴的、个性化的大模型,以此来推动大模型的研讨和运用落地。
LMFlow 具有四大特性:可扩展、轻量级、定制化和彻底开源。
依据此,用户可以很快地练习自己的模型并继续进行二次迭代。这些模型不只限于最近流行的 LLaMA,也包括 GPT-2、Galactica 等模型。
xturing —— LLM 个性化微调东西
xturing 为 LLM 供给了快速、高效和简略的微调,如 LLaMA、GPT-J、GPT-2、OPT、Cerebras-GPT、Galactica 等。经过供给一个易于运用的界面,再依据你自己的数据和运用来个性化 LLM,xTuring 使构建和控制 LLM 变得简略。整个进程可以在你的电脑内或在你的私有云中完结,保证数据的隐私和安全。
经过 xturing,你可以:
- 从不同的来历吸取数据,并将其预处理成 LLM 可以了解的格式
- 从单个 GPU 扩展到多个 GPU,以便更快地进行微调
- 运用内存功率高的技能(即 LoRA 微调)来削减你的硬件成本,最多可削减 90% 的时刻。
- 探索不同的微调办法,并以它们为基准,找到功用最好的模型
- 在明确界说的方针上评价微调模型,进行深入剖析
Dify —— 易用的 LLMOps 渠道
Dify是一个易用的 LLMOps 渠道,旨在让更多人可以创立可继续运营的原生 AI 运用。Dify 供给多种类型运用的可视化编列,运用可开箱即用,也能以 “后端即服务” 的 API 供给服务。
“Dify” 这个姓名来历于 “Define” 和 “Modify” 这两个词。它代表了协助开发人员不断改善其 AI 运用程序的愿景。“Dify” 可以了解为 “Do it for you”。
经过 Dify 创立的运用包括了:
- 开箱即用的的 Web 站点,支撑表单形式和谈天对话形式
- 一套 API 即可包括插件、上下文增强等才能,替你省下了后端代码的编写作业
- 可视化的对运用进行数据剖析,查阅日志或进行标示
Dify 兼容 Langchain,这意味着将逐步支撑多种 LLMs ,现在已支撑:
- GPT 3 (text-davinci-003)
- GPT 3.5 Turbo(ChatGPT)
- GPT-4
Dify.AI** 中心才能**
- 可视化编列 Prompt:经过界面化编写 prompt 并调试,只需几分钟即可发布一个 AI 运用。
- 接入长上下文(数据集):全主动完结文本预处理,运用你的数据作为上下文,无需了解不流畅的概念和技能处理。
- 依据 API 开发后端即服务。你可以直接访问网页运用,也可以接入 API 集成到你的运用中,无需重视杂乱的后端架构和布置进程。
- 数据标示与改善:可视化查阅 AI 日志并对数据进行改善标示,观测 AI 的推理进程,不断进步其功用。
正在开发中的功用:
- 数据集,支撑更多的数据集,例如同步 Notion 或网页的内容。将支撑更多的数据集,包括文本、网页,乃至 Notion 内容。用户可以依据自己的数据源构建 AI 运用程序。
- 插件,推出契合 ChatGPT 规范的插件,或运用 Dify 产生的插件。将发布契合 ChatGPT 规范的插件,或许 Dify 自己的插件,以在运用程序中启用更多功用。
- 开源模型,例如选用 Llama 作为模型供给者,或进行进一步的微调 。将与优异的开源模型如 Llama 合作,经过在渠道中供给它们作为模型选项,或运用它们进行进一步的微调。
Flowise —— 轻松构建 LLM 运用程序
Flowise 是一个开源 UI 可视化东西,运用以 Node Typescript/Javascript 编写的 LangchainJS 构建自界说 LLM 流程。
- LLM Chain:带有提示模板和 LLM 模型的 LLM Chain的基本示例
- Language Translation Chain:运用带有谈天提示模板和谈天模型的 LLM Chain 进行言语翻译
- 有回忆的会话署理:谈天模型的会话署理,它运用谈天特定提示和缓冲存储器
Jigsaw Datase —— 进步大型言语模型功用的东西
Jigsaw 是微软推出的一种可以进步大型言语模型功用(如 GPT-3、Codex 等)的新东西。
Jigsaw 布置了了解程序语法和语义的后处理技能,然后运用用户反应来进步未来的功用;该东西旨在运用多形式输入为 Python Pandas API 组成代码。Pandas 是数据科学中广泛运用的 API,具有数百个用于 manipulating dataframes 或具有行和列的表的函数。
方针是使部分检查主动化,以进步运用 Codex 等大型言语模型进行代码组成的开发人员的出产力。
Jigsaw 获取英语查询并运用恰当的上下文对其进行预处理,以构建可以馈送到大型言语模型的输入。该模型被视为一个黑盒子,并且 Jigsaw 已运用 GPT-3 和 Codex 进行了评价。这种规划的优势在于它支撑即插即用最新和最好的可用型号。
微软在试验中发现,Jigsaw 可以在 30% 的时刻内创立正确的输出。如果代码失败,那么修复进程在后处理阶段开端。
GPTCache —— 为 LLM 查询创立语义缓存的库
GPTCache 是一个用于创立语义缓存以存储来自 LLM 查询的呼应的库。将你的 LLM API 成本削减 10 倍,将速度进步 100 倍。
ChatGPT 和各种大型言语模型(LLM)具有令人难以置信的多功用性,可以开发广泛的运用程序。但是,随着你的运用程序越来越受欢迎,遇到更高的流量水平,与 LLM API 调用相关的费用或许会变得很高。此外,LLM 服务或许会体现出缓慢的呼应时刻,特别是在处理很多的请求时。GPTCache 的创立便是为了应对这一挑战,这是一个致力于树立一个用于存储 LLM 呼应的语义缓存的项目。
显达 —— LLM 调用渠道
显达:一个大型言语模型调用渠道。现在支撑 chatGLM-6B、chatRWKV、chatYuan 和 chatGLM-6B 模型下自建常识库查找。
- 现在支撑模型:
chatGLM-6B
、chatRWKV
、chatYuan
。 - 常识库主动查找
- 支撑参数在线调整
- 支撑
chatGLM-6B
、chatRWKV
流式输出和输出进程中中断 - 主动保存对话历史至浏览器(多用户一起运用不会冲突)
- 对话历史管理(删除单条、清空)
- 支撑局域网、内网布置和多用户一起运用。(内网布置需手动将前段静态资源切换成本地)
- 多用户一起运用中会主动排队,并显现当时用户。
设置和预设功用
预设功用运用
MindFormers ——大模型练习/推理/布置全流程开发套件
MindSpore MindFormers 套件的方针是构建一个大模型练习、推理、布置的全流程开发套件: 供给业内干流的 Transformer 类预练习模型和 SOTA 下游使命运用,包括丰厚的并行特性。 希望协助用户轻松的完结大模型练习和立异研制。
MindSpore MindFormers 套件依据 MindSpore 内置的并行技能和组件化规划,具有如下特色:
- 一行代码完结从单卡到大规划集群练习的无缝切换。
- 供给灵活易用的个性化并行装备。
- 可以主动进行拓扑感知,高效地交融数据并行和模型并行战略。
- 一键发动恣意使命的练习、评价、推理流程。
- 支撑用户进行组件化装备恣意模块,如优化器、学习战略、网络拼装等。
- 供给 Trainer、ModelClass、ConfigClass、pipeline 等高阶易用性接口。
现在支撑的模型列表如下:
- BERT
- GPT
- OPT
- T5
- MAE
- SimMIM
- CLIP
- FILIP
- Vit
- Swin
Code as Policies —— 自然言语代码生成体系
Code as Policies 是一种以机器人为中心的言语模型生成的程序在物理体系上履行的表述。CaP 扩展了 PaLM-SayCan,使言语模型可以经过通用 Python 代码的完好表达来完结更杂乱的机器人使命。经过 CaP,Google 主张运用言语模型,经过少数的提示来直接编写机器人代码。试验证明,与直接学习机器人使命和输出自然言语动作比较,CaP 输出代码体现更好。CaP 允许单一体系履行各种杂乱多样的机器人使命,而不需要特定的使命练习。
用于控制机器人的常见办法是用代码对其进行编程,以检测物体、移动履行器的排序命令和反应回路来指定机器人应如何履行使命。但为每项新使命从头编程的或许很耗时,并且需要范畴的专业常识。
Colossal-AI —— 大模型并行练习体系
ColossalAI 是一个具有高效并行化技能的归纳大规划模型练习体系。旨在无缝整合不同的并行化技能范式,包括数据并行、管道并行、多张量并行和序列并行。
Colossal-AI 的方针是支撑人工智能社区以与他们正常编写模型相同的办法编写分布式模型。这使得他们可以专心于开发模型架构,并将分布式练习的问题从开发进程中分离出来。
ColossalAI 供给了一组并行练习组件。旨在支撑用户编写分布式深度学习模型,就像编写单 GPU 模型相同。供给友爱的东西,只需几行即可发动分布式培训。