首要先抛出一个问题,是不是所有的文本生成数据集都适合用chatglm 6B的模型进行微调。那咱们今日找到了三个数据集,分别为百科数据集、法律问答数据集、论文标题与摘要数据集、专利称号与专利摘要数据集。

官方的广告数据集是如下结构的

{
    "content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳",
    "summary": "这件衬衫的款式十分的宽松,妥当的线条能够很好的隐藏身材上的小缺陷,穿在身上有着很好的显瘦作用。领口装修了一个可爱的抽绳,美丽的绳结展示出了十足的特性,合作时髦的泡泡袖型,尽显女性香甜可爱的气味。"
}

官方的多轮对话数据集是如下结构的

{
    "prompt": "是的。上下水管都好的",
    "response": "那就要检查线路了,一般风扇继电器是由电脑操控吸合的,如果电路存在断路,或许电脑坏了的话会呈现继电器不吸合的状况!",
    "history": [
        [
            "长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线",
            "用电脑能读数据流吗?水温多少"
        ],
        [
            "95",
            "上下水管温差怎么样啊?空气是不是都排洁净了呢?"
        ]
    ]
}

今日的所有实验都是探索单轮生成chatglm-6B上的适配性。

ptuning chatglm 6B中有两个数据集作为规范的官方微调数据集事例

咱们看一下ptuning chatglm 6B中的启动参数有哪些。

PRE_SEQ_LEN=128
LR=2e-2
CUDA_VISIBLE_DEVICES=0 python3 main.py \
    --do_train \
    --do_eval \
    --train_file AdvertiseGen/patent_train.32.128.512.json \
    --validation_file AdvertiseGen/patent_dev.32.128.512.json \
    --prompt_column content \
    --response_column summary \
    --overwrite_cache \
    --model_name_or_path THUDM/chatglm-6b \
    --output_dir output/patent_dev-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \
    --overwrite_output_dir \
    --max_source_length 128 \
    --max_target_length 512 \
    --per_device_train_batch_size 4 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 16 \
    --predict_with_generate \
    --max_steps 3000 \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate $LR \
    --fp16 False\
    --pre_seq_len $PRE_SEQ_LEN

PRE_SEQ_LEN 预序列长度

LR 学习率

do_train 是否进行练习

do_eval 是否进行预测

train_file 练习文件相对地址

validation_file 验证文件相对地址

prompt_column prompt 提示信息字段

response_column 响应信息字段

overwrite_cache 重写数据集缓存。

model_name_or_path 模型称号或模型地址

output_dir 练习好的模型保存的地址

per_device_train_batch_size 每个设备上的练习批次巨细 在实践的练习过程中3090显卡能够把这个参数开到4。

模型的指令输入应该怎么拼接才能够让chatglm更好的服务。

train.sh 中的 PRE_SEQ_LENLR 分别是 soft prompt 长度和练习的学习率,能够进行调节以取得最佳的作用。P-Tuning-v2 方法会冻住全部的模型参数,可经过调整 quantization_bit 来被原始模型的量化等级,不加此选项则为 FP16 精度加载。 在默许配置 quantization_bit=4per_device_train_batch_size=1gradient_accumulation_steps=16 下,INT4 的模型参数被冻住,一次练习迭代会以 1 的批处理巨细进行 16 次累加的前后向传播,等效为 16 的总批处理巨细,此时最低只需 6.7G 显存。若想在同等批处理巨细下进步练习功率,可在二者乘积不变的状况下,加大 per_device_train_batch_size 的值,但也会带来更多的显存消耗,请依据实践状况酌情调整。

调整batch size后的学习率应该怎么调整。

chatglm的工作流程

如何能基于prompt tuning v2训练好一个垂直领域的chatglm-6b

修改切换为居中

增加图片注释,不超越 140 字(可选)

基于openbayes的3090单卡,prompt tuning v2 练习chatglm 6B模型。

练习专利prompt的数据的时分基础练习参数 修改了 per_device_train_batch_size 为 4。

 ***** Running training *****
Num examples = 3384
Num Epochs = 58
Instantaneous batch size per device = 4
Total train batch size (w. parallel, distributed & accumulation) = 64
Gradient Accumulation steps = 16
Total optimization steps = 3000
Number of trainable parameters = 29360128

其间每一个设备的batch size设定为4,总共练习的批次巨细是64。这儿的总批次是因为采用了梯度累计战略,所以总练习批次巨细是64。那如果是两张卡的话这儿是128。

练习专利prompt的数据集的时分的丢失表现

如何能基于prompt tuning v2训练好一个垂直领域的chatglm-6b

修改切换为居中

增加图片注释,不超越 140 字(可选)

我国大百科数据集

如何能基于prompt tuning v2训练好一个垂直领域的chatglm-6b

修改切换为居中

增加图片注释,不超越 140 字(可选)

PyTorch DataParallel和DDP是PyTorch供给的两个数据并行扩展。 1. PyTorch Data Parallel PyTorch Data Parallel是PyTorch框架中的一个重要组成部分,它供给了一种高效的并行计算机制,使得在GPU上运转Torch模型变得更加简单。Data Parallel运用GPU上的多线程来并行计算多个输入特征,然后进步计算功率。 Data Parallel的完成方法包含: – Data parallel器:担任将输入特征按照一定的规矩区分成一组数据 parallel,例如按照类似度、长度、形状等特征进行区分。 – 并行化操作:将数据 parallel区分为多个并行块,并履行相应的操作。 – 数据预处理:对数据parallel块进行一些预处理,例如兼并、排序、归一化等操作。 运用Data Parallel能够大大简化GPU编程,并进步模型的练习功率。 2. DDP 官方主张用新的DDP,采用all-reduce算法,原本设计首要是为了多机多卡运用,但是单机上也能用,运用方法如下:

初始化运用nccl后端

torch.distributed.init_process_group(backend="nccl")

模型并行化

model=torch.nn.parallel.DistributedDataParallel(model)

需要注意的是:DDP并不会自动shard数据 1. 如果自己写数据流,得依据torch.distributed.get_rank()去shard数据,获取自己使用的一份 2. 如果用Dataset API,则需要在定义Dataloader的时分用DistributedSampler 去shard:

sampler = DistributedSampler(dataset) # 这个sampler会自动分配数据到各个gpu上
DataLoader(dataset, batch_size=batch_size, sampler=sampler)

在chatglm 6B中练习的并行是基于transformers架构完成的

from transformers.trainer import Trainer

trainer默许是用torch.distributed的api来做多卡练习的,因此能够直接支撑多机多卡,单机多卡,单机单卡。

现在autodl没有多卡资源,所以也没办法验证多卡这个怎么能够更高功率的履行出来有用的成果。

不同的云计算平台

autodl 模型下载速度比较慢 能够经过在新建环境时分选择适宜的thuglm镜像来减少模型下载上所需要的时间。实例初始化空间为20GB系统空间+50GB数据空间,数据空间能够扩容。

openbayes 模型下载速度比较快,环境每次重启的时分都要履行一遍pip install装置步骤。启动练习是需要在命令行中加上 –fp16 False,否则会报错。实例硬盘上限只要50GB,需要注意保存战略。存储空间费用如下。

用我的专用约请链接,注册 OpenBayes,两边各获得 60 分钟 RTX 3090 运用时长,支撑累积,永久有用:

注册 – OpenBayes

要不是autodl没有卡,我也不会来openbayes租借显卡。最吐槽的问题就是硬盘空间问题。作为个人研究者还要为硬盘按月付费实在是让人不舒服。现在我付费了100GB的硬盘。一个月80多块。