花粉乐分享平台宣传视频
> 乐学堂 > > 低成本复制 ChatGPT 训练流程,仅需 1.68GB GPU 即可使用,方法现已开源!
低成本复制 ChatGPT 训练流程,仅需 1.68GB GPU 即可使用,方法现已开源!
来源:CSDN
2023-05-24 16:05:46
480
管理

编译 | 屠敏

出品 | CSDN(ID:CSDNnews)

当昨日我们还在讨论从大厂以及个人创业的角度来看,复制一家 OpenAI 和一款强大的 ChatGPT 可行性究竟有几成之际,苦于 OpenAI 并未将 ChatGPT 开源出来,所以这趟水究竟有多深,众人并不知。

不过,2 月 14 日情人节这一天,来自加州大学伯克利分校的教授 James Demmel 和新加坡国立大学计算机系的校长青年教授尤洋及其背后的研究团队悄悄提供了一些答案,其率先呈现了一个开源的低成本 ChatGPT 等效实现流程,瞬间吸引无数 AI 爱好者的目光。

话不多说,简单来看,只需实现如下图所示的三步走,便能实现:

在单台多 GPU 服务器上,即使使用最高端的 A100 80GB GPU,由于 ChatGPT 的复杂性和内存碎片化,PyTorch 也只能启动基于 GPT-L(774M)等小模型的 ChatGPT。因此,用 PyTorch 的 DistributedDataParallel(DDP) 将多 GPU 并行扩展到 4 或 8 个 GPU,结果性能提升有限。

根据研究团队介绍,Colossal-AI 不仅在单 GPU 上有明显的训练和推理速度优势,而且可以随着并行规模的扩大而进一步提高,单服务器训练速度可达 7.73 倍,单 GPU 推理速度可达 1.42 倍,并且能够继续扩大到大规模的平行度,大大降低 ChatGPT 复制的成本。

为了最大限度地降低训练成本和易用性,Colossal-AI 还提供了一个可以在单GPU 上试用的 ChatGPT 训练过程。与 PyTorch 相比,在 14999 美元的 A100 80GB 上最多只能启动 7.8 亿个参数模型,Colossal-AI 将单个 GPU 的容量提高了 10.3 倍,达到 80 亿参数。对于基于 1.2 亿个参数的小模型的 ChatGPT 训练,至少需要 1.62GB 的 GPU 内存,任何单一消费级 GPU 都可以满足。

底层优化

低成本的 LoRA 微调

复制 ChatGPT 的实现过程通常依赖于 Colossal-AI。Colossal-AI 支持通过低秩矩阵微调(LoRA,Low-Rank Adaptation)方法进行高效微调。该方法假设大型语言模型是过度参数化的,微调过程中的参数变量是一个低秩矩阵,它可以分解为两个小矩阵的乘积:

由于大型语言模型的参数是固定的,在微调过程中只有调整矩阵的参数,从而减少训练参数的数量。在进行部署推理时,将矩阵的乘积加回到原始矩阵中,如,不影响推理延迟。

LoRA 结构,只训练 A、B

Zero Gemini 来减少内存冗余

与传统的数据并行策略相比,Colossal-AI 使用零冗余优化器(ZeRO)来消除内存冗余,并在不影响计算粒度和通信效率的情况下,提高内存使用率。此外,为进一步提高了 ZeRO 的性能,Colossal-AI 还提出了基于 Chunk 的内存管理机制,它可以将连续的参数集按操作顺序存储在一个连续的、均匀分割的内存空间中,由此更能有效地利用网络带宽(PCI-e 和 GPU 之间),减少通信成本,并避免潜在的内存碎片。

此外,Colossal-AI 的异构内存管理器 Gemini 通过将优化器状态卸载到 CPU ,以此减少 GPU 内存占用,允许同时使用 GPU 内存和 CPU 内存(包括 CPU DRAM 或 NVMe SSD 内存)来训练超出单个 GPU 内存限制的大规模模型。

写在最后

目前,该研究团队已经开源了完整的算法和软件设计来复制 ChatGPT 的实现过程:https://github.com/hpcaitech/ColossalAI

不过,同样是基于成本考虑,他们表示,「对于这样一个巨型的人工智能模型,它需要更多的数据和计算资源来实际生效和部署。毕竟,用 1750 亿个参数训练一个 GPT-3 需要价值数百万美元的计算能力。因此,大型预训练模型长期以来只为少数大科技公司所拥有。」

因此,他们也希望能够以开源的方式,吸引更多的研究人员、机构共同参与进来,仅以上文中所复制 ChatGPT 训练流程的实践探索为起点,未来可以向大模型的时代做出努力。

更多详情内容可查阅官方公告:https://www.hpc-ai.tech/blog/colossal-ai-chatgpt

参考资料:

https://twitter.com/ArtificialAva/status/1623346998928723971

https://finance.yahoo.com/news/chatgpt-on-track-to-surpass-100-million-users-faster-than-tiktok-or-instagram-ubs-214423357.html

https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/

https://arxiv.org/abs/2106.09685

https://arxiv.org/pdf/2203.02155

https://openai.com/blog/chatgpt/

https://en.wikipedia.org/wiki/ChatGPT

https://www.benzinga.com/news/23/02/30850547/bill-gates-says-chatgpt-as-big-an-invention-as-the-internet-will-make-many-office-jobs

花粉社群VIP加油站

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
黛末(采蜜高手)
文章
534
主题
0
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索