优化器在大言语模型的练习中占有了大量内存资源。
现在有一种新的优化方式,在功能保持不变的情况下将内存耗费降低了一半。
该成果由新加坡国立大学打造,在ACL会议上取得了出色论文奖,并现已投入了实践使用。
随着大言语模型不断添加的参数量,练习时的内存耗费问题更为严峻。
研讨团队提出了 CAME 优化器,在削减内存耗费的同时,具有与Adam相同的功能。
CAME优化器在多个常用的大规划言语模型的预练习上取得了相同乃至超越Adam优化器的练习体现,并对大batch预练习场景显示出更强的鲁棒性。
进一步地,经过CAME优化器练习大言语模型,可以大幅度降低大模型练习的本钱。
实现方法
CAME 优化器根据 Adafactor 优化器改善而来,后者在大规划言语模型的预练习任务中往往带来练习功能的损失。
Adafactor中的非负矩阵分化操作在深度神经网络的练习中不可避免地会发生过错,对这些过错的批改便是功能损失的来历。
而经过比照发现,当起始数值mt和当时数值t相差较小时,mt的置信度更高。
受这一点启示,团队提出了一种新的优化算法。
下图中的蓝色部分便是CAME比较Adafactor添加的部分。
CAME 优化器根据模型更新的置信度进行更新量批改,同时对引进的置信度矩阵进行非负矩阵分化操作。
终究,CAME成功以Adafactor的耗费得到了Adam的作用。
相同作用仅耗费一半资源
团队运用CAME分别练习了BERT、GPT-2和T5模型。
此前常用的Adam(作用更优)和Adafactor(耗费更低)是衡量CAME体现的参照。
其中,在练习BERT的过程中,CAME仅用一半的步数就达到了和Adafaactor适当的精度。
△左边为8K规划,右侧为32K规划
关于GPT-2,从损失和困惑度两个角度看,CAME的体现和Adam十分接近。
在T5模型的练习中,CAME也出现出了相似的结果。
而关于模型的微调,CAME在精确度上的体现也不输于基准。
资源耗费方面,在运用PyTorch练习4B数据量的BERT时,CAME耗费的内存资源比基准削减了近一半。
团队简介
新加坡国立大学HPC-AI 实验室是尤洋教授领导的高功能核算与人工智能实验室。
实验室致力于高功能核算、机器学习体系和分布式并行核算的研讨和立异,并推动在大规划言语模型等领域的使用。
实验室负责人尤洋是新加坡国立大学核算机系的校长青年教授(Presidential Young Professor)。
尤洋在2021年被选入福布斯30岁以下精英榜(亚洲)并取得IEEE-CS超算出色新人奖,当时的研讨重点是大规划深度学习练习算法的分布式优化。
本文第一作者罗旸是该实验室的在读硕士生,他当时研讨重点为大模型练习的稳定性以及高效练习。
论文地址:
arxiv.org/abs/2307.02…
GitHub项目页:
github.com/huawei-noah…
—完—