花粉乐分享平台宣传视频
> 乐学堂 > > 2023年7月23日机器学习发生了什么OpenAI 的突破性变化更好的关注
2023年7月23日机器学习发生了什么OpenAI 的突破性变化更好的关注
来源:顺发AI
2023-08-16 21:41:25
386
管理
保留网络:大型语言模型转换器的继承者

他们引入了一种非常有前途的注意力变体。

这类似于只拥有一个RNN,使用状态空间模型,线性注意力等,但与它们中的任何一个都不完全相同。

现在,设计一个比常规关注运行得更快的代币混合方案并不难。困难的是做到不损失准确性。

因此,这里令人惊讶的部分是,该方案显然提高了困惑度和下游任务性能。

这些都是非常好的结果。如果其他人可以复制它们,这种方法完全可以成为一种新的标准做法。

ChatGPT 的行为如何随时间变化?

OpenAI的API在过去几个月的质量上发生了重大变化。在许多情况下,GPT-4 变得更糟,而 GPT-3.5 变得更好。

由于我们不知道哪些模型更改导致了这些输出更改,因此从业务角度来看,这比从技术角度来看更有趣。

大多数情况下,这一发现强化了我的观点,即第三方AI API和组织特定的模型几乎是不相交的市场。就像,将数据传送到昂贵的第三方 API,该 API 可能会在次要版本更新后开始拒绝回答您的查询是......对于许多公司来说,这不是一个理想的产品。

但是这些 API 非常方便,非常适合对 AI 功能进行原型设计,并且如果您只有足够的数据用于一些上下文示例,则与您获得的精度一样高。如果您是想要回答各种不同查询的消费者,它们也很棒;实际上,我只是将所有内容输入 ChatGPT,而不是去寻找用于不同目的的专用应用程序。

基本上,这与具有重大商业价值的任务将由内部模型处理,而低价值查询的长尾将提供给第三方API或开源模型的世界观是一致的。

(编辑)另外,为了明确一点:我不是在这里试图给OpenAI投掷阴影。我认为这在很大程度上是通用 API 的内在限制——平均而言,你可以让它变得更好,但你不能同时避免所有可能的用例的回归。

模型会解释自己吗?自然语言解释的反事实可模拟性

当您要求文本模型为其答案生成解释时,您希望它未来的响应与该解释一致。例如,假设它说培根三明治在某个区域很难买到,因为培根很难到达那里;如果你问培根是否很难到达那里并说“不”,那就不一致了。

事实证明,GPT-3 和 GPT-4 经常产生不一致的解释。

为了获得一个有用的目标,他们定义了一个变分上限,当我们对齐这两个图形模型所隐含的分布时,该上限被最小化。

它们还展示了如何对某些变量进行条件化以预测其他变量(例如,根据观察到的特征预测类标签)。

NetHack中模仿学习的缩放定律

他们在NetHack上发现了行为克隆的明确幂律缩放关系。更有趣的是,他们使用的是LSTM而不是变压器。

But doing this naively can be slow; you’d have to iterate through 10k tokens and check if each one matches your rule. To make this faster, they build an index and finite state MAChine to quickly identify candidate subsets of tokens offline.

TinyTrain:极端边缘的深度神经网络训练

它们通过以几种方式偏离典型的预训练-微调范式,使设备上的训练适用于资源受限的设备。

首先,他们在预训练后添加一个额外的元训练步骤,以尝试增加他们随后在设备上的少数镜头学习的回报。

使用他们的方法选择特定于任务的通道比在元训练后进行通用通道修剪效果更好。

我很惊讶他们设法超过了 1.5 倍的加速比与完全微调相比,因为您希望仍然必须进行完整的向前传递和向后传递(因此,充其量会将 wgrad 时间减少到零)。但看起来也许(?)他们只是在彻底修剪未选择的频道,至少在训练期间是这样?

它们的整体管道比各种基线(包括更明显的方法)产生更好的准确性。

也可能是BLIP2生成的字幕平均比人工生成的字幕好,至少在CLIP评估“更好”时是这样。

BLIP2 过滤提供字幕质量和多样性组合的能力似乎也是一个促成因素。

对于任何构建(图像、标题)数据管道的人来说,这看起来都是一个轻松 大的胜利。

AlpaGasus:用更少的数据训练更好的羊驼

他们发现,通过将 Alpaca 数据集从 52k 个样本过滤到 9k,可以获得更好的指令调整。

他们的过滤管道是自动化的,基本上只是要求 ChatGPT 对每个样本的好坏进行评分。

这显然有效,击败了未过滤的数据集和相同大小的随机子集。

一方面,Alpaca 数据集是由 OpenAI 的 text-davinci-003 生成的,这里的样本评级模型是 ChatGPT,评估模型是 GPT-4——所以可能涉及一些过度拟合。特别是,我希望 ChatGPT 和 GPT-4 在重叠的数据集上进行训练,因此这两个模型喜欢的响应可能是相关的。

但另一方面,使用较小的数据集比使用较大的数据集(对于某些指标)效果更好的基本结果仍然很有趣,并支持表面对齐假设。

花粉社群VIP加油站

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
北孤岛ご(花粉渠道)
文章
717
主题
0
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索