文心千帆：PPT 制造、数字人主播一键开播等运用场景冷艳到我了，下面给ERNIE-Bot|BLOOMZ大模型调优、RLHF练习具体教程

1.文心千帆简介

文心千帆：PPT 制作、数字人主播等应用场景惊艳到我了，下面给ERNIE-Bot|BLOOMZ大模型调优、RLHF训练详细教程

文心千帆优势
- 根底强壮、常识丰厚文心千帆渠道依据百度智能云，选用飞桨深度学习框架作为底层支撑，并内置文心大模型技能。用户经过少量数据调整，可轻松取得高精度和高性能的大模型。
- 流程完善、发布便捷供给一站式服务，涵盖数据集办理、模型练习、服务发布与监管。经过可视化界面完结模型全生命周期办理，简化从数据到服务的大模型实施过程，易于上手与了解。
- 运转稳定、共建生态文心千帆具备完好技能栈、长时间稳定的模型开发引擎以及杰出性能。渠道低技能门槛，合适各行各业接入，助力完结职业大模型的开发建造。
- 安全可靠、一键启用文心千帆供给文心一言企业级服务，结合百度智能云安全操控机制及文心底层内容安全功用，对推理内容进行审核与灵敏词过滤，确保安全可信。

视频链接（PPT 制造、数字人主播一键开播等数十种运用场景冷艳到我了）：www.zhihu.com/zvideo/1665…

2.大模型调优

大模型调优实际上是 Fine-Tuning 的练习方法，开发者能够挑选合适自己使命场景的练习方法并加以调参练习，然后完结理想的模型效果。

登录到[文心千帆大模型操作台])，在左边功用列挑选[大模型调优]，进入大模型调优主使命界面。

创立使命

您需求在大模型调优使命界面，挑选 “创立调优使命” 按钮。

填写好使命称号后，在范围内挑选所属职业和运用场景，再进行 500 字内的事务描绘即可。

[创立并练习]直接敞开练习模型的运转装备界面；“完结创立” 仅创立使命不创立练习模型的运转。

新建运转

您能够在创立使命时挑选 “创立并练习”，或许在大模型调优使命列表中，挑选指定使命的“新建运转” 按钮。
进入模型练习的使命运转装备页，填写基本信息。

练习装备

练习装备大模型参数，调整好基本装备。

2.1 ERNIE-Bot-turbo

百度自行研制的大言语模型，掩盖海量中文数据，具有更强的对话问答、内容创造生成等能力。

练习办法	简略描绘
全量更新	全量更新在练习过程中对大模型的悉数参数进行更新

参数装备

超参数	简略描绘
迭代次序	迭代次序（epoch），操控练习过程中的迭代轮数。
批处理巨细	批处理巨细（Batchsize）表明在每次练习迭代中运用的样本数。较大的批处理巨细能够加快练习，但可能会导致内存问题。
学习率	学习率（learning_rate）是在梯度下降的过程中更新权重时的超参数，过高会导致模型难以收敛，过低则会导致模型收敛速度过慢，渠道已给出默许推荐值，可依据经历调整。

2.2 BLOOMZ-7B

闻名的大言语模型，由 HuggingFace 研制并开源，能够以 46 种言语和 13 种编程言语输出文本。

练习办法	简略描绘
全量更新	全量更新在练习过程中对大模型的悉数参数进行更新
Prompt Tuning	在固定预练习大模型自身的参数的根底上，增加 prompt embedding 参数，而且练习过程中只更新 prompt 参数。
LoRA	在固定预练习大模型自身的参数的根底上，在保存自注意力模块中原始权重矩阵的根底上，对权重矩阵进行低秩分解，练习过程中只更新低秩部分的参数。

参数装备

超参数	简略描绘
迭代次序	迭代次序（epoch），操控练习过程中的迭代轮数。
批处理巨细	批处理巨细（Batchsize）表明在每次练习迭代中运用的样本数。较大的批处理巨细能够加快练习，但可能会导致内存问题。
学习率	学习率（learning_rate）是在梯度下降的过程中更新权重时的超参数，过高会导致模型难以收敛，过低则会导致模型收敛速度过慢，渠道已给出默许推荐值，可依据经历调整。
梯度累积次数	梯度累积次数（gradient_accumulation_steps），累积几次原本的 loss 就要除以几，这是为了对多个批次的数据的梯度做累积，然后到达节约显存的意图。

数据装备

练习使命的挑选数据及相关装备，大模型调优使命需求匹配多轮对话 – 非排序类的数据集。

主张数据集总条数在 1000 条以上，练习模型愈加精准。

数据集来历可认为千帆渠道已发布的数据集版别，也可认为已有数据集的 BOS 地址，具体内容可检查[数据集]部分内容。
当预置模型挑选 BLOOMZ-7B 时，需求设置数据拆分比例。比如设置 20，则表明选定数据集版别总数的 80% 作为练习集，20% 作为验证集。

需注意：当挑选 BOS 目录导入数据集时，数据放在 jsonl 文件夹下。您需求挑选 jsonl 的父目录：

奖赏模型支撑单轮对话、多轮对话有排序数据。
RLHF 练习支撑仅 prompt 数据。
SFT 支撑单轮对话，多轮对话需求有标示数据。
BOS 目录导入数据要严格遵守其格局要求，如不契合此格局要求，练习作业无法成功敞开。概况参阅 BOS 目录导入[无标示信息格局]和 BOS 目录导入[有标示信息格局]。

百度 BOS 服务注册申请。

3.检查与办理大模型调优运转

在[大模型调优]使命界面，能够检查使命的概况、[新建运转使命]和删去整个使命（包含运转）。
在指定使命的概况页面，能够检查一切的模型练习运转使命状况及其他相关内容。

登录到[文心千帆大模型操作台]，在左边功用列挑选[大模型调优]，进入大模型调优主使命界面。

概况

在[大模型调优]的概况页，即可检查练习运转的列表。此界面可[新建运转]。

在运转使命的概况页可检查创立运转时的基本信息、练习装备和数据装备，概况数据的来历为[新建运转]时填入的内容。

发布

能够指定某个运转成功的使命，发布为模型。填写好如下参数后，将被[模型办理]所纳管。

点评陈述

能够检查指定运转中心点评陈述，包含点评信息的方针参数和 Training Loss 的曲线图。

BLEU 方针是 NLP 中机器翻译 / ⽂本摘要等使命常⽤的点评方针。它是依据准确率（Precision）来设计的。NLP 中有个重要的概念是 n-gram，指⼀个语句⾥⾯连续的 n 个单词组成的⽚段；BLEU-n 其实便是依据 n-gram 的点评方针。
rouge-N（1/2/L）-f：百分⽐。ROUGE 经过将模型⽣成的摘要或许回答与参阅答案（⼀般是⼈⼯⽣成的）进⾏⽐较核算，得到对应的得分。Rouge-N 实际上是将模型⽣成的成果和规范成果按 N-gram 拆分后，核算召回率。
Training Loss：练习集每个 batch 的损失。
练习日志

能够检查运转使命的练习情况，分为概览日志和练习日志两部分，日志内容均支撑下载（txt 格局）。

概览日志：对模型练习过程中的关键过程信息进行抽取展现。
练习日志：对模型练习过程中的全量动作以日志的方法展现。

概览日志部分内容如下所示：

4.RLHF练习

RLHF（Reinforcement Learning from Human Feedback，依据人类反应的强化学习），一种机器学习办法，它使智能体系能够从环境中学习并最大化特定方针。在 RLHF 中，经过对同一输入的多个生成成果进行人工排序，取得包含人类偏好反应的标示数据，然后练习出一个奖赏模型（Reward Model）。在强化学习的过程中，奖赏模型将对大言语模型的多个生成成果的排序进行判定。终究，强化学习经过更新大模型的参数，使得输出成果契合奖赏模型的判定要求。这种办法减轻了传统强化学习中需求很多试错的问题，也降低了完全依赖于人工对一切大模型生成成果进行排序调整反应的成本，使得智能体系愈加高效、快速地学习使命。

RLHF 已成功运用于文心千帆大模型渠道, 能够生成类似人类的文本并执行各种言语使命。RLHF 使模型能够在很多文本数据语料库上进行练习，并在杂乱的言语使命 (如言语了解和生成) 上取得令人印象深入的成果。

RLHF 的成功取决于人类供给的反应的质量，依据使命和环境，反应的质量可能是片面的和可变的。因此，开发有用且可扩展的搜集和处理反应的办法非常重要。

总的来说，RLHF 比传统的机器学习和强化学习供给了更多的辅导，能够捕捉到人类偏好的悉数内容，然后驱使人工智能体系与人类价值观相一致。即便 RLHF 不能完全处理对内部调整的担忧，它所识别的失败以及它赋予奖赏和政策模型的常识也适用于提高社会和协作环境中人工智能的安全性、可靠性和可信度。

4.1 搜集人类反应

搜集人类反应为 RHLF 的根底过程，文心千帆渠道接入多轮对话 – 排序类和 prompt 语料数据集，作为奖赏模型和强化模型练习的人类反应。这部分内容首要发生两类模型：

预练习模型：只经过语料库练习而未经过 fine-tune 的模型；
监督基线模型：在预练习模型根底上运用测试数据集的 fine-tune 模型。

在初始模型被练习之后，人类练习者供给对模型表现的反应。他们依据质量或正确性排名不同的模型生成的输出或行为。这些反应被用来创立强化学习的奖赏信号。

4.2 奖赏模型练习

奖赏模型（Reward Model, RM）练习的终究意图是描写模型的输出是否在人类看来表现不错：
输入【提示（prompt），模型生成的文本】，输出表明文本质量的标量数字。

奖赏模型接纳一系列文本并回来标量的奖赏值，数值和人类的偏好相对应。您能够选用端对端的方法用大言语模型建模，或许用模块化的体系建模（如对输出进行排名，再将排名转换为奖赏）。奖赏数值将用于接入强化模型练习中。

奖赏模型练习是一种强化学习技能，用于依据人类反应来学习怎么更好地进行决策，然后取得更高的累积奖赏值。
在强化学习中，智能体经过不断地与环境进行交互，从中取得一定的奖赏值。奖赏模型能够描绘和核算每一次交互中智能体取得的奖赏值，而且依据这些奖赏值，智能体能够学习到怎么更好地进行决策，然后取得更高的累积奖赏值。

奖赏模型是强化学习中的一个重要概念，它直接影响智能体的学习效果和行为表现。

登录到[文心千帆大模型操作台]，在左边功用列 RLHF 练习中挑选[奖赏模型练习]，进入奖赏模型练习主使命界面。

创立使命

您需求在奖赏模型练习使命界面，挑选 “创立练习使命” 按钮。

填写好使命称号后，在范围内挑选所属职业和运用场景，再进行 500 字内的事务描绘即可。

[创立并练习]直接敞开练习模型的运转装备界面；“完结创立” 仅创立使命不创立练习模型的运转。

新建运转

您能够在创立使命时挑选 “创立并练习”，或许在奖赏模型练习使命列表中，挑选指定使命的“新建运转” 按钮。
进入模型练习的使命运转装备页，填写基本信息。

数据装备

练习使命的挑选数据及相关装备，奖赏模型练习使命匹配多轮对话 – 排序类的数据集。

主张数据集总条数在 1000 条以上，练习模型愈加精准。

数据集来历可认为千帆渠道已发布的数据集版别，也可认为已有数据集的 BOS 地址，具体操作内容可检查[数据集]部分内容。

需注意：当挑选 BOS 目录导入数据集时，数据放在 jsonl 文件夹下。您需求挑选 jsonl 的父目录：

奖赏模型支撑单轮对话、多轮对话有排序数据。
RLHF 练习支撑仅 prompt 数据。
SFT 支撑单轮对话，多轮对话需求有标示数据。
BOS 目录导入数据要严格遵守其格局要求，如不契合此格局要求，练习作业无法成功敞开。概况参阅 BOS 目录导入[无标示信息格局]和 BOS 目录导入[有标示信息格局]。

在奖赏模型练习的概况页，即可检查练习运转的列表。此界面可[新建运转]。

在运转使命的概况页可检查创立运转时的基本信息和数据装备，概况数据的来历为[新建运转]时填入的内容。

强化学习

能够指定某个运转成功的使命，去强化学习。
在运转使命的概况页右上角挑选[去强化学习]敞开强化学习练习使命。

练习日志能够检查运转使命的练习情况，分为概览日志和练习日志两部分，日志内容均支撑下载（txt 格局）。
概览日志：对模型练习过程中的关键过程信息进行抽取展现。
练习日志：对模型练习过程中的全量动作以日志的方法展现。

概览日志部分内容如下所示：

4.3 强化学习练习

强化学习（Reinforcement Learning, RL）又称再励学习、点评学习或增强学习，是机器学习的范式和办法论之一，用于描绘和处理智能体（agent）在与环境的交互过程中经过学习战略以达到报答最大化或完结特定方针的问题。至少需求以下三个基本要素：

战略（policy）：依据该言语模型，接纳 prompt 作为输入，然后输出一系列文本（或文本的概率分布）。
动作空间（action space）：词表一切 token 在一切输出方位的排列组合（单个方位通常有 50k 左右的 token 候选）。
奖赏函数（reward）：依据奖赏模型核算得到初始 reward，再叠加上一个束缚项。

署理（agent）经过与环境的交互来学习战略。署理采纳举动 (含无动作举动)，这些举动会影响署理所在的环境，而环境进而转换到新的状况并回来奖赏。奖赏是使强化学习署理能够调整其举动战略的反应信号，当署理进行练习时，它会调整自己的战略，并采纳一系列举动，使其报答最大化。

强化学习（Reinforcement Learning, RL），又称再励学习、点评学习或增强学习，是机器学习的范式和办法论之一，用于描绘和处理智能署理（agent）在与环境的交互过程中经过学习战略以达到报答最大化或完结特定方针的问题。

强化学习首要是练习对象每一步怎么进行决策, 选用什么样的举动能够完结特定的意图或许使收益最大化。

登录到[文心千帆大模型操作台]，在左边功用列 RLHF 练习中挑选[强化学习练习]，进入强化学习练习主使命界面。

创立使命

您需求在强化学习练习使命界面，挑选 “创立练习使命” 按钮。

填写好使命称号后，在范围内挑选所属职业和运用场景，再进行 500 字内的事务描绘即可。

创立并练习[创立并练习])直接敞开练习模型的运转装备界面；“完结创立” 仅创立使命不创立练习模型的运转。

新建运转

您能够在创立使命时挑选 “创立并练习”，或许在强化学习练习使命列表中，挑选指定使命的“新建运转” 按钮。
进入强化学习的使命运转装备页，填写基本信息。

数据装备

挑选练习使命的数据及相关装备，强化学习练习使命匹配 query 问题集。

主张数据集总条数在 1000 条以上，练习模型愈加精准。

数据集来历可认为千帆渠道已发布的数据集版别，也可认为已有数据集的 BOS 地址，具体内容可检查[数据集]部分内容。

需注意：当挑选 BOS 目录导入数据集时，数据放在 jsonl 文件夹下。您需求挑选 jsonl 的父目录：

奖赏模型支撑单轮对话、多轮对话有排序数据。
RLHF 练习支撑仅 prompt 数据。
SFT 支撑单轮对话，多轮对话需求有标示数据。
BOS 目录导入数据要严格遵守其格局要求，如不契合此格局要求，练习作业无法成功敞开。概况参阅 BOS 目录导入[数据信息格局]。
练习装备
- 挑选大模型
  - 预置大模型：BLOOMZ-7B
    闻名的大言语模型，由 Hugging Face 研制并开源，能够以 46 种言语和 13 种编程言语输出文本。
  - 用户大模型：用户自建的调优大模型
    由大模型调优所建，强化学习更匹配私有事务场景。
- 挑选奖赏模型：渠道运转成功的奖赏模型版别
  在渠道奖赏模型的根底上，继续完结强化练习，练习出最大化靠近人类反应的模型。
参数装备

超参数	简略描绘
迭代次序	迭代次序（epoch），操控练习过程中的迭代轮数。
批处理巨细	批处理巨细（Batchsize）表明在每次练习迭代中运用的样本数。较大的批处理巨细能够加快练习，但可能会导致内存问题。
学习率	学习率（learning_rate）是在梯度下降的过程中更新权重时的超参数，过高会导致模型难以收敛，过低则会导致模型收敛速度过慢，渠道已给出默许推荐值，可依据经历调整。

以上一切操作完结后，点击 “确定”，则建议模型练习的使命。

在强化学习练习使命界面，能够检查使命的概况、新建运转使命和删去整个使命（包含运转）。
在指定使命的概况页面，能够检查一切的模型练习运转使命状况及其他相关内容。

登录到文心千帆大模型操作台，在左边功用列 RLHF 练习中挑选强化学习练习，进入强化学习练习主使命界面。

概况

在强化学习练习的概况页，即可检查练习运转的列表。此界面可[新建运转]。

在运转使命的概况页可检查创立运转时的基本信息、练习装备和数据装备，概况数据的来历为[新建运转]时填入的内容。

发布

能够指定某个运转成功的使命，发布为模型。
填写好如下参数后，将被[模型办理])所纳管。

点评陈述

能够检查指定运转中心点评陈述，检查 Training Reward 的曲线图。

练习集每个 batch 模型给出预测的奖赏值

练习日志

能够检查运转使命的练习情况，分为概览日志和练习日志两部分，日志内容均支撑下载（txt 格局）。

概览日志：对模型练习过程中的关键过程信息进行抽取展现。
练习日志：对模型练习过程中的全量动作以日志的方法展现。

概览日志部分内容如下所示：

5.总结

本文首要意图是布道：文心千帆大模型渠道(一站式企业级大模型渠道，供给先进的生成式AI出产及运用全流程开发工具链)，希望国产化大模型越来越好。更多内容请参阅官网文心千帆大模型渠道

强壮的技能能力：文心千帆大模型渠道选用了最先进的人工智能技能，具有强壮的自然言语处理和机器学习能力，可认为用户供给高质量的文本生成和语义了解服务。
丰厚的模型库：文心千帆大模型渠道具有丰厚的模型库，涵盖了多种言语和领域，能够满意不同用户的需求。
良好的用户体验：文心千帆大模型渠道的用户界面简洁明了，操作简略方便，用户能够快速上手。此外，渠道还供给了丰厚的文档和教程，协助用户更好地了解和运用渠道。
良好的安全性：文心千帆大模型渠道选用了严格的安全措施，保证了用户数据的安全性，让用户能够放心运用渠道。
参阅文献：

文心千帆大模型渠道

更多优质内容请重视公号：汀丶人工智能；会供给一些相关的资源和优质文章，免费获取阅读。

文心千帆：PPT 制作、数字人主播等应用场景惊艳到我了，下面给ERNIE-Bot|BLOOMZ大模型调优、RLHF训练详细教程

文心千帆：PPT 制造、数字人主播一键开播等运用场景冷艳到我了，下面给ERNIE-Bot|BLOOMZ大模型调优、RLHF练习具体教程

1.文心千帆简介

2.大模型调优

2.1 ERNIE-Bot-turbo

2.2 BLOOMZ-7B

3.检查与办理大模型调优运转

4.RLHF练习

4.1 搜集人类反应

4.2 奖赏模型练习

4.3 强化学习练习

5.总结

相关文章

ChatGPT明知自己写代码有漏洞，但你不问它就不说

ChatGPT 助力开发人员改进代码的5个方式

LabVIEW图形化的AI视觉开发平台（非NI Vision），大幅降低人工智能开发门槛

重磅！OpenAI 在 ChatGPT 内推出语言和图像功能

作者信息