衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
科幻中有机器人三原则,IBM说不够,要十六原则
全新方法SELF-ALIGNDromedary基于transformer架构,以语言模型LLaMA-65b为基础,最新知识停留在2021年9月。
根据抱抱脸上的公开资料,Dromedary训练时间只有一个月(2023年4月到5月)。
△SELF-ALIGN4个关键步阶段第一阶段,Topic-Guided Red-Teaming Self-Instruct。
Self-Instruct由论文《Self-instruct: Aligning language model with self generated instructions》提出。
它是一种框架,可以使用最少的人工标注,生成大量用于instruct-tuning的数据。
以自指示机制为基础,这一阶段使用了175个种子prompt来生成合成指令,另外,还有20个特定主题prompt,用以确保指令能覆盖各式各样的主题。
这样一来,就能确保指令全面覆盖AI助理接触的场景、上下文,进而减少潜在偏见产生的概率。
第二阶段,Principle-Driven Self-Alignment。
这一步中,为了引导AI助理的回答有用、靠谱且符合道德伦理,研究团队用英语定义了一个包含16条原则的集,作为“指导方针”。
16原则既囊括了AI助理生成回答的理想质量,还有AI助理得到答案的行为背后的规则组成。
实际上下文学习(ICL、in-context learning)工作流程中,AI助理到底是怎么生成遵守原则的回答呢?
略搞笑的事是,他在实验中问AI自己的基本信息,各路AI都是会在没有数据的情况瞎编一段。
对此,他也无可奈何,只得写进论文中的失败案例:
真是笑不活了哈哈哈哈哈哈哈哈哈!!!
看来AI一本正经胡说八道这个问题,还需要新的方法来解决。
项目链接:
[1] Code: https://github.com/IBM/Dromedary
[2] Paper: https://arxiv.org/pdf/2212.10560.pdf
[3] Project: https://mitibmdemos.draco.res.ibm.com/dromedary
[4] Model: https://huggingface.co/zhiqings/dromedary-65b-lora-delta-v0
参考链接:
[1]https://arxiv.org/pdf/2305.03047.pdf[2]https://arxiv.org/pdf/2212.10560.pdf[3]https://www.cs.cmu.edu/~zhiqings/[4]https://huggingface.co/zhiqings/dromedary-65b-lora-delta-v0
— 完 —
量子位 QbitAI · 头条号签
关注我们,第一时间获知前沿科技动
态约
花粉社群VIP加油站
猜你喜欢