花粉乐分享平台宣传视频
> 乐学堂 > > 单个GPU无法训练GPT-3,但有了这个,你能调优超参数了
单个GPU无法训练GPT-3,但有了这个,你能调优超参数了
来源:机器之心Pro
2023-04-05 17:41:25
358
管理

机器之心报道

编辑:陈萍、小舟

模型越大,超参数(HP)调优成本越高,微软联合 OpenAI 提出 HP 调优新范式,单个 GPU 上就可以调优 GPT-3 超参数。

伟大的科学成就不能仅靠反复试验取得。例如太空计划中的每一次发射都是基于数百年的空气动力学、推进和天体等基础研究。同样,在构建大规模人工智能系统时,基础研究大大减少了试错次数,效益明显。

超参数(Hyperparameter,HP)调优是深度学习的关键,但也是一个昂贵的过程,对于具有数十亿参数的神经网络来说更是如此。假如 HP 选择不当,会导致模型性能不佳、训练不稳定。当训练超大型深度学习模型时,这些问题更加严重。

最近,有研究 [54] 表明不同的神经网络参数化会导致不同的无限宽度限制(infinitewidth limits),他们提出了最大更新参数化(Maximal Update Parametrization,µP),该方法可以在限制内实现「最大」特征学习。直观地说,它确保每一层在训练期间以相同的顺序更新,而不管宽度如何。相比之下,虽然标准参数化 (standard parametrization,SP) 在初始化时保证了激活是单位顺序的,但实际上在训练 [54] 时,由于每层学习率的不平衡,导致激活在宽模型中爆炸。

来自微软和 OpenAI 的研究者首次提出了基础研究如何调优大型神经网络(这些神经网络过于庞大而无法多次训练)。他们通过展示特定参数化保留不同模型大小的最佳超参数来实现这一点。利用 µP 将 HP 从小型模型迁移到大型模型。也就是说,该研究在大型模型上获得了接近最优的 HP。

论文作者之一、来自微软的 Greg Yang 表示:「你不能在单个 GPU 上训练 GPT-3,更不用说调优它的超参数(HP)了。但是由于新的理论进步,你可以在单个 GPU 上调优 HP ?」

本文的想法非常简单,论文中引入了一种特殊参数化 µP,窄和宽的神经网络共享一组最优超参数。即使宽度→∞也是如此。

扩展初始化容易,但扩展训练难

大型神经网络很难训练,部分原因是不了解其行为如何随着规模增加而变化。在深度学习的早期工作中,研究者采用启发式算法。一般来说,启发式方法试图在模型初始化时保持激活扩展一致。然而,随着训练的开始,这种一致性会在不同的模型宽度处中断,如图 1 左侧所示。

与随机初始化不同,模型训练期间的行为更难进行数学分析。该研究用 µP 解决,如图 1 右侧所示,该图显示了网络激活扩展(activation scales)在模型宽度增加的最初几个训练步骤中的稳定性。

图 4:在 µP 中参数化并在 Wikitext-2 上训练的不同大小的 transformer。如图 3 所示,最优学习率不仅可以跨宽度迁移,还可在测试范围内实验性地跨其他扩展维度迁移,例如深度、批大小和序列长度。这意味着可以将理论上的跨宽度迁移与实验验证的跨其他扩展维度迁移相结合,以获得能在小模型上间接调整超参数并迁移到大模型的 µTransfer。

除了学习率,其他超参数的情况如下图所示:

测试 µTransfer

在验证完单个超参数的迁移之后,研究者试图将它们组合到更现实的场景中。下图 5 对比了两种情况,一种是 µTransfer 从一个小型 proxy 模型迁移调整过的超参数,另一种是直接调整大型目标模型。在这两种情况下,调整都是通过随机搜索完成的。

图 5:µTransfer 大约将计算效率提高了一个数量级。

由于 proxy 模型即使很小也能有意义地预测最佳超参数(如图 3、图 4 所示),因此随着该研究用数十亿个参数训练更大的目标模型,研究者预计性能差距会扩大。

未来方向:µP GPT-3

在这项工作之前,模型越大,调优成本越高,预计调优效果就越差。研究者预计 µTransfer 将给最大的模型带来最大的增益,因此该研究与 OpenAI 合作,在 GPT-3 上评估 µTransfer。

使用 µP 中的相对注意力对 GPT-3 的一个版本进行参数化后,该研究调整了一个具有 4000 万个参数的小型 proxy 模型,然后按照 µTransfer 的方法将最佳超参数组合复制到 GPT-3 的 67 亿参数变体中。在此调整阶段使用的总计算量仅为 67 亿模型预训练使用计算量的 7%。如下图 6 所示,这个使用 µTransfer 的模型优于 GPT-3 论文中相同大小的模型(绝对注意力),它的性能与 GPT-3 论文中参数数量翻倍的模型(绝对注意力)相当。

理论意义

µP 给出了一个扩展规则,该规则在训练损失方面唯一地保留了跨不同宽度模型的最佳超参数组合。相反,其他扩展规则(如 PyTorch 中的默认初始化或 NTK 参数化),随着网络变得越来越宽,超参数空间中的最优值却越来越远。研究者认为:实际使用特征学习神经网络时,为了获得适用的见解,µP 的特征学习限制会比 NTK 限制更自然。因此,过参数化神经网络应该在大型宽度设置中重现 µP 的特征学习限制。

过去几年开发的张量程序 (TP) 理论使这项进展成为可能。TP 理论使研究人员能够计算任何通用计算图在其矩阵维数变大时的极限。TP 方法产生了基本的理论结果,例如神经网络 - 高斯过程对应的架构普遍性和动态二分定理,并通过推导 µP 和特征学习限制形成了 µTransfer。研究者认为将 TP 理论扩展到深度、批大小等扩展维度是大型模型在宽度之外可靠扩展的关键。

研究者表示:基础研究是对反复试错的一种高成本效益补充,该研究将继续推导出更具原则性的大规模机器学习方法。

参考链接:https://www.microsoft.com/en-us/research/blog/µtransfer-a-technique-for-hyperparameter-tuning-of-enormous-neural-networks/

花粉社群VIP加油站

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
lulu(花粉渠道)
文章
467
主题
0
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索