花粉乐分享平台宣传视频
> 乐学堂 > > IBM入局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4
IBM入局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4
来源:量子位
2023-05-13 17:39:00
656
管理

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

科幻中有机器人三原则,IBM说不够,要十六原则

全新方法SELF-ALIGN

Dromedary基于transformer架构,以语言模型LLaMA-65b为基础,最新知识停留在2021年9月。

根据抱抱脸上的公开资料,Dromedary训练时间只有一个月(2023年4月到5月)。

△SELF-ALIGN4个关键步阶段

第一阶段,Topic-Guided Red-Teaming Self-Instruct。

Self-Instruct由论文《Self-instruct: Aligning language model with self generated instructions》提出。

它是一种框架,可以使用最少的人工标注,生成大量用于instruct-tuning的数据。

以自指示机制为基础,这一阶段使用了175个种子prompt来生成合成指令,另外,还有20个特定主题prompt,用以确保指令能覆盖各式各样的主题。

这样一来,就能确保指令全面覆盖AI助理接触的场景、上下文,进而减少潜在偏见产生的概率。

第二阶段,Principle-Driven Self-Alignment。

这一步中,为了引导AI助理的回答有用、靠谱且符合道德伦理,研究团队用英语定义了一个包含16条原则的集,作为“指导方针”。

16原则既囊括了AI助理生成回答的理想质量,还有AI助理得到答案的行为背后的规则组成。

实际上下文学习(ICL、in-context learning)工作流程中,AI助理到底是怎么生成遵守原则的回答呢?

略搞笑的事是,他在实验中问AI自己的基本信息,各路AI都是会在没有数据的情况瞎编一段。

对此,他也无可奈何,只得写进论文中的失败案例:

真是笑不活了哈哈哈哈哈哈哈哈哈!!!

看来AI一本正经胡说八道这个问题,还需要新的方法来解决。

项目链接:

[1] Code: https://github.com/IBM/Dromedary

[2] Paper: https://arxiv.org/pdf/2212.10560.pdf

[3] Project: https://mitibmdemos.draco.res.ibm.com/dromedary

[4] Model: https://huggingface.co/zhiqings/dromedary-65b-lora-delta-v0

参考链接:

[1]https://arxiv.org/pdf/2305.03047.pdf[2]https://arxiv.org/pdf/2212.10560.pdf[3]https://www.cs.cmu.edu/~zhiqings/[4]https://huggingface.co/zhiqings/dromedary-65b-lora-delta-v0

— 完 —

量子位 QbitAI · 头条号签

关注我们,第一时间获知前沿科技动

态约

花粉社群VIP加油站

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
123跟我走(采蜜高手)
文章
509
主题
19
关注
1
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索