编辑:Aeneas 好困
【新智元导读】Meta 的 LLaMA 模型开源,让文本大模型迎来了 Stable Diffustion 时刻。谁都没想到,LLaMA 的一场「史诗级」走漏,产生了一系列表现冷艳的 ChatGPT「平替」。
谁能想到,一次意外的 LLaMA 走漏,竟点着了开源 LLM 范畴最大的立异火花。
一系列表现出色的 ChatGPT 开源替代品——「羊驼宗族」,随后眼花缭乱地登场。
开源和依据 API 的分发之间的冲突,是生成式 AI 生态系统中最迫在眉睫的对立之一。
在文本到图画范畴,Stable Diffusion 的发布清楚地标明,关于基础模型来说,开源是一种可行的分发机制。
但是,在大言语模型范畴却并非如此,这个范畴最大的打破,比方 GPT-4、Claude 和 Cohere 等模型,都只能经过 API 获得。
这些模型的开源替代品没有表现出相同水平的功能,特别是在遵从人类指令才能上。但是,一场意想不到的泄露,让这种情况彻底发生了改动。
LLaMA 的「史诗级」走漏
几周前,Meta AI 推出了大言语模型 LLaMA 。
LLaMA 有不同的版别,包括 7B、13B、33B 和 65B 的参数,虽然它比 GPT-3 小,但在许多使命上,它都能和 GPT-3 的功能相媲美。
LLaMA 起先并未开源,但在发布一周后,这个模型忽然在 4chan 上泄露了,引发了数千次下载。
这个事情,能够被称为「史诗级走漏」了,由于它成为了大言语模型范畴层出不穷的立异来源。
短短几周内,依据它构建的 LLM 署理的立异,已经呈爆炸式增加。
Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 让我们来回忆一下,这场「羊驼宗族」的大爆炸,是如何诞生的。
Alpaca 在三月中旬,斯坦福发布的大模型 Alpaca 火了。
Alpaca 是由 Meta 的 LLaMA 7B 微调而来的全新模型,仅用了 52k 数据,功能约等于 GPT-3.5。
关键是练习成本奇低,不到 600 美元。
斯坦福研究者对 GPT-3.5(text-davinci-003)和 Alpaca 7B 进行了比较,发现这两个模型的功能非常相似。Alpaca 在与 GPT-3.5 的比较中,取胜次数为 90 对 89。
关于斯坦福的团队来说,想要在预算内练习一个高质量的指令遵从模型,就必须面对 2 个重要的应战:要有一个强壮的预练习言语模型,以及一个高质量的指令遵从数据。
恰恰,供给给学术研究人员运用的 LLaMA 模型搞定了第一个问题。
关于第二个应战,「Self-Instruct: Aligning Language Model with Self Generated Instructions」论文给了很好的启示,即运用现有的强言语模型来主动生成指令数据。
LLaMA 模型最大的弱点,便是缺少指令微调。OpenAI 最大的立异之一便是将指令调优用在了 GPT-3 上。
对此,斯坦福运用了现有的大言语模型,来主动生成遵从指令演示。
现在,Alpaca 直接被网友们奉为「文本大模型的 Stable Diffusion」。
Vicuna3 月底,来自 UC 伯克利、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的研究人员开源了 Vicuna,这是一个与 GPT-4 功能相匹配的 LLaMA 微调版别。
130 亿参数的 Vicuna,经过在 ShareGPT 搜集的用户共享对话上对 LLaMA 进行微调练习而来,练习成本近 300 美元。
成果显现 Vicuna-13B 在超过 90% 的情况下,完成了与 ChatGPT 和 Bard 相匹敌的才能。
关于 Vicuna-13B 练习流程,具体如下:
首要,研究人员从 ChatGPT 对话分享网站 ShareGPT 上,搜集了大约 70K 对话。
接下来,研究人员优化了 Alpaca 供给的练习脚本,使模型能够更好地处理多轮对话和长序列。之后利用 PyTorch FSDP 在 8 个 A100 GPU 进步行了一天的练习。
在模型的质量评价方面,研究人员创立了 80 个不同的问题,并用 GPT-4 对模型输出进行了评价。
为了比较不同的模型,研究人员将每个模型的输出组合成一个单独的提示,然后让 GPT-4 评价哪个模型给出的答复更好。
LLaMA、Alpaca、Vicuna 和 ChatGPT 的对比
Koala
最近,UC 伯克利 AI Research Institute(BAIR)又发布了一个新模型「考拉」(Koala),比较之前运用 OpenAI 的 GPT 数据进行指令微调,Koala 的不同之处在于运用网络获取的高质量数据进行练习。
研究成果标明,Koala 能够有效地答复各种用户的查询,生成的答复往往比 Alpaca 更受欢迎,至少在一半的情况下与 ChatGPT 的作用不相上下。
研究人员期望这次试验的成果能够进一步推进围绕大型闭源模型相关于小型公共模型的相对功能的评论,特别是成果标明,关于那些能在本地运转的小模型,如果认真地搜集练习数据,也能够取得大模型的功能。
事实上,在此之前斯坦福大学发布的 Alpaca 模型,依据 OpenAI 的 GPT 模型对 LLaMA 的数据进行微调的试验成果已经标明,正确的数据能够明显改善规模更小的开源模型。
这也是伯克利的研究人员开发和发布 Koala 模型的初衷,期望为这个评论成果再供给了一个试验证明。
Koala 对从网上获取的免费交互数据进行了微调,并且特别关注包括与 ChatGPT 等高功能闭源模型交互的数据。
研究人员并没有追求尽可能多的抓取网络数据来最大化数据量,而是专注于搜集一个小型的高质量数据集,包括 ChatGPT 蒸馏数据、开源数据等。
ChatLLaMA
Nebuly 开源了 ChatLLaMA ,这是一个运用让我们运用自己的数据创立对话帮手的框架。
ChatLLaMA 让我们运用自己的数据和尽可能少的核算量,来创立超个性化的相似 ChatGPT 的帮手。
假设在未来,我们不再依赖一个「控制所有人」的大型帮手,每个人都能够创立自己的个性化版别类 ChatGPT 帮手,它们能够支持人类的各种需求。
不过,创立这种个性化帮手需要在许多方面做出努力:数据集创立,运用 RLHF 进行高效练习,以及推理优化。
这个库的意图是,经过抽象核算优化和搜集大量数据所需的工作,让开发人员高枕无忧。
ChatLLaMA 旨在协助开发人员处理各种用例,所有用例都与 RLHF 练习和优化推理有关。以下是一些用例参阅:
- 为笔直特定使命(法律、医疗、游戏、学术研究等)创立相似 ChatGPT 的个性化帮手;
- 想在本地硬件基础设施上运用有限的数据,练习一个高效的相似 ChatGPT 的帮手;
- 想创立自己的个性化版别类 ChatGPT 帮手,一起避免成本失控;
- 想了解哪种模型架构(LLaMA、OPT、GPTJ 等)最符合我在硬件、核算预算和功能方面的要求;
- 想让助理与我的个人 / 公司价值观、文明、品牌和宣言保持一致。
FreedomGPT
FreedomGPT 运用 Electron 和 React 构建,它是一个桌面应用程序,答应用户在他们的本地机器上运转 LLaMA。
FreedomGPT 的特色,从它的名字上就可见一斑——它答复的问题不受任何审查或安全过滤。
这个程序由 AI 风险投资公司 Age of AI 开发。
FreedomGPT 建立在 Alpaca 之上。FreedomGPT 运用 Alpaca 的明显特征,由于与其他模型比较,Alpaca 相对更易于访问和定制。
ChatGPT 遵从 OpenAI 的运用方针,约束仇恨、自残、威胁、暴力、性方面的内容。
与 ChatGPT 不同,FreedomGPT 答复问题时没有偏见或偏袒,并且会毫不犹豫地答复有争议或争辩性的话题。
FreedomGPT 乃至还答复了「如何在家制作炸弹」,而 OpenAI 专门从 GPT-4 中删除了这一点。
FreedomGPT 很独特,由于它克服了审查约束,在没有任何保证的情况下投合有争议的话题。它的标志是自在女神像,由于这个独特而斗胆的大言语模型标志了自在。
FreedomGPT 乃至能够在不需要联网的情况下,就能在核算机上本地运转。
此外,开源版别将很快发布,运用户和安排能够完全定制。
ColossalChat
UC 伯克利提出的 ColossalChat 只需要不到 100 亿个参数就能够达到中英文双语才能,作用与 ChatGPT 和 GPT-3.5 相当。
此外,依据 LLaMA 模型的 ColossalChat,还复刻了完好的 RLHF 过程,是现在最接近 ChatGPT 原始技能路线的开源项目。
中英双语练习数据集
ColossalChat 发布了一个双语数据集,其间包括大约 100,000 个中英文问答对。
该数据集是从交际媒体平台上的实在问题场景中搜集和整理的,作为种子数据集,运用 self-instruct 进行扩展,标示成本约为 900 美元。
与其他 self-instruct 办法生成的数据集比较,该数据集包括更实在和多样化的种子数据,包括更广泛的主题。
该数据集适用于微谐和 RLHF 练习。在供给优质数据的情况下,ColossalChat 能够完成更好的对话交互,一起也支持中文。
完好的 RLHF 管线
RLHF 的算法复刻共有三个阶段:
在 RLHF-Stage1 中,运用上述双语数据集进行监督指令微调以微调模型。
在 RLHF-Stage2 中,经过对同一提示的不同输出手动排序来练习奖赏模型分配相应的分数,然后监督奖赏模型的练习。
在 RLHF-Stage3 中,运用了强化学习算法,这是练习过程中最杂乱的部分。
信任很快,就会有更多项目发布。
谁也没想到,这场 LLaMA 的意外泄露,竟点着了开源 LLM 范畴最大的立异火花。
参阅资料:
thesequence.substack.com/p/the-LLaMA…