花粉乐分享平台宣传视频
> 乐学堂 > > 担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
来源:量子位
2023-04-10 15:08:48
355
管理

萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI

还在担心大语言模型“啥都吃”,结果被用假信息训练了?

放在以前,这确实是训练NLP模型时值得担心的一个难题。

现在,谷歌从根本上解决了这个问题。

他们做了个名为TEKGEN的AI模型,直接将知识图谱用“人话”再描述一遍,生成语料库,再喂给NLP模型训练。

如何让AI用“人话”描述知识图谱?

谷歌用来描述知识图谱的TEKGEN模型,全名Text from KG Generator(知识图谱文本生成器)。

它会读取一个知识图谱中的所有词语,捋清它们之间的关系,再用“人话”说出来。

从下图中来看,转换语句分为2步:

首先,将关系图谱中的词语,按逻辑进行排列;然后,再添加一些词语、并调整语句间的逻辑关系,将它们变成一段完整的话。

为了实现这个功能,TEKGEN包含4个部分:

三元组(包含主语、宾语、关系词)生成器。将维基百科的知识图谱、和维基百科文本描述进行对应,生成训练数据集。T5的文本-文本生成器,用于将三元组转换成文本信息。实体子图创建器。用于将三元组中的文本信息转换成语句。语义质量滤波器。这部分用来处理低质量的输出,保证生成的语句质量。

整体来看,用TEKGEN生成语句的流程是这样的:

当然,这里面也用LAMA(LAnguage Model Analysis) probe,来对用这个语料库训练的模型进行了评估。

在Google-RE和TREx两个数据集上,经过预训练的模型,在各项任务上均取得了非常好的效果。

说不定,将来真能让AI去试试高考语文的“图文转换”题:

作者介绍

论文一作小姐姐Oshin Agarwal,是宾夕法尼亚大学的计算机系在读博士生,研究方向是自然语言处理中的信息抽取。

这篇论文,是她在谷歌实习期间完成的。

来自谷歌的Heming Ge、Siamak Shakeri和Rami Al-Rfou也参与了这项工作。

目前,作者们已经将这个用知识图谱生成的语料库放了出来。

想要训练NLP模型的小伙伴,可以用起来了~

论文地址:https://arxiv.org/abs/2010.12688

用知识图谱生成的语料库:https://github.com/google-research-datasets/KELM-corpus

参考链接:https://ai.googleblog.com/2021/05/kelm-integrating-knowledge-graphs-with.html

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

花粉社群VIP加油站

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
不吃点心会饿..(小蜜蜂)
文章
472
主题
0
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索