丰色 发自 凹非寺
量子位 | 公众号 QbitAI
“一个GPU没法训练GPT-3,更别提在上面调整超参数了。”
不不不,现在情况有变——
在单个GPU上完全可以调整大规模模型的超参数。
怎么说?
原来有人发现了一种新的调参方法,无论模型规模怎么变化,所得的最优超参数都能保持性能稳定。
由此一来,我们可以先训练一个小版本的模型,在上面间接调整好超参,然后以零样本的方式直接将它们复制到全尺寸模型上,就能获得相当不错的性能。
这对手里GPU资源不够的人来说简直不要太好了吧。
目前,相关帖子也在Reddit上引起热议,得到了300 的点赞支持。
在一个GPU上调参GPT-3大模型方法名叫muP (Maximal Update Parametrization),作者分别来自微软和OpenAI。
想法很简单,利用的是他们在之前的工作中发现的一个叫做µP的特殊参数化思路:
窄神经网络和宽神经网络共享同一组最优超参数,即使宽度无限大(width->∞)时也一样。
具体原理可以参见论文《Feature Learning in Infinite-Width Neural Networks》。
可共享的超参数包括学习率learning rate、learning rate schedule、initialization、parameter multipliers……甚至可以单独针对每个参数张量。
作者在宽度高达4096的Transformer以及ResNet上验证了这一结论。
因此,资源匮乏的炼丹er就可以在单张GPU上对一个小版本的GPT-3模型进行超参数调整:
如果在这个小模型上得到的参数接近最优,那么在大模型上也可以得到一样的结果。
ps. 这种调参方式又被命名为“µ迁移(µTransfer)”。
关于作者一作名叫Greg Yang,微软高级研究员。
通讯作者为微软研究院深度学习技术中心合伙人研究经理、IEEE Fellow高剑峰。
还有两位华人作者分别为来自微软的Liu Xiaodong(北京邮电大学校友)和Chen Weizhu (已在微软工作16年)。
他们的这篇成果已被NeurIPS 2021接收。
GitHub链接:https://github.com/microsoft/mup
论文地址:https://arxiv.org/abs/2203.03466
官方博客链接:https://www.microsoft.com/en-us/research/blog/µtransfer-a-technique-for-hyperparameter-tuning-of-enormous-neural-networks/
花粉社群VIP加油站
猜你喜欢