训练ChatGPT的必备资源：语料、模型和代码库完全指南-花粉乐享

> 乐学堂 > > 训练ChatGPT的必备资源：语料、模型和代码库完全指南

训练ChatGPT的必备资源：语料、模型和代码库完全指南

来源：大数据文摘

2023-04-11 10:19:55

161

管理

上图中，标黄的模型均为开源模型。

语料

训练大规模语言模型，训练语料不可或缺。主要的开源语料可以分成5类：书籍、网页爬取、社交媒体平台、百科、代码。

书籍语料包括：BookCorpus[16] 和 Project Gutenberg[17]，分别包含1.1万和7万本书籍。前者在GPT-2等小模型中使用较多，而MT-NLG 和 LLaMA等大模型均使用了后者作为训练语料。

最常用的网页爬取语料是CommonCrawl[18]。不过该语料虽然很大，但质量较差。大模型大多采用从其中筛选得到的子集用于训练。常用的4个子集包括：C4[19], CC-Stories, CC-News[20], 和 RealNews[21]。

CC-Stories的原版现在已不提供下载，一个替代选项是CC-Stories-R[22]。

社交媒体平台语料主要获取自Reddit平台。WebText包含了Reddit平台上的高赞内容，然而现在已经不提供下载，现在可以用OpenWebText[23]替代。此外，PushShift.io[24]提供了一个实时更新的Reddit的全部内容。

百科语料就是维基百科（Wikipedia[25]）的下载数据。该语料被广泛地用于多种大语言模型（GPT-3, LaMDA, LLaMA 等），且提供多种语言版本，可用于支持跨语言模型训练。

代码语料主要来自于GitHub中的项目，或代码问答社区。开源的代码语料有谷歌的BigQuery[26]。大语言模型CodeGen在训练时就使用了BigQuery的一个子集。

除了这些单一内容来源的语料，还有一些语料集。比如 the Pile[27]合并了22个子集，构建了800GB规模的混合语料。而 ROOTS[28]整合了59种语言的语料，包含1.61TB的文本内容。

花粉社群VIP加油站

1

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

收评：ChatGPT概念大跌，沪指止步6连阳，主板注册制新股全线收涨，中电港涨221.5%

2023-04-11 10:21

ChatGPT火爆催化垂直应用发展，数字医疗创新落地加速

2023-04-11 10:18