现在团队在实践的就是将「听说读写」四个模块都放到 UCLAI 这个多模态单一通用模型上跑。但因为声音、图像、文本对于机器来说,都是不一样的信号,要做到各种模态能被理解、转换、表示仍是不小的挑战。
「现在用一个通用模型去处理,能达到的效率只是原来多个专用模型加起来的效率的六到七成。」林士翔说,「对于我们这种创业公司来说,假设我们之前要给每个模型配 3 个人,4 个模型就是 12 个人,那为什么我们不让这 12 个人集中精力就做一个通用的模型?这样的话,我们的研发成果可以相互积累,而且可以相互共用。另外,如何让这大模型可以更轻量化或更可控的工业化落地也是我们未来一个重要的研发方向。」
追求实用之外,他们还做了一些好玩的项目怎么把自然语言模型的魅力展示给普通大众,林士翔说做文本分类和情感分析「大众比较无感」,但用 AI 赋能古文却是每个人中国人都能共情的。
现有互联网上带有白话文翻读的古诗词大约在几千到几万篇,数十万篇诗词只有本文没任何白话翻译,更遑论其他中国经典古文,不是四散在互联网上不同平台网站里,就是以纸本方式存在,不能像互联网一样能让知识快速传播。
随着计算机科技的进步,互联网上开始出现利用计算机进行古文翻译的服务,但大多数的方法不外乎:根据汉语词典或规则查表进行逐词翻译;或是利用数据库进行片段信息检索的方式翻译,这些方法往往忽略了文章里上下文的信息,因此翻译出来的结果跟原文的意思南辕北辙,或是翻译完的文章跟原文一模一样,没做任何改变。
于是,出门问问在 UCLAI 模型的基础上数百 G 互联网上的中文语料收集及清洗,以及利用数百张英伟达 V-100GPU 显卡,完成了百亿级参数量的模型训练。
得益于模型对语言知识的建模能力,古文宝不仅能将文言文翻译成白话文,甚至是其他外语,对白话文翻译成文言文的能力也是不在话下。出门问问还针对 GPT-3 底层的 Transfomer 架构进一步改造优化,让模型除了可以处理文本信息外,也具备生成图像与声音的能力,古文宝除了自动翻译出对应的古文外,还会跟据内容自动生成一张古画。
古文宝翻译效果展示|出门问问
「古文宝的发布只是一个开始,我们也乐见更多对中文有研究的机构或学者能和我们一起合作,大家协力让语言智能黑科技做得更好,能将中国传统文化以更多元的方式普惠大众。」李志飞说。
但目前,古文宝目前也还有一些问题待解决?比如,诗句与生成古画之间的内在关联度、古画的解析度、文言文转白话文的翻译质量等还需继续提升。
团队还透露,除了古文宝之外,团队还在做一个用 AI 合成音乐的项目,「你给我一个音乐的前奏,给我一段歌词,系统可以自动生成出一首歌来,而且是可以唱出来的。它会是一首全新的歌。」让 AI 为中国传统文化的传承赋能,同时也让中国人更多才多艺,是 UCLAI 的实用愿景。
技术驱动「先飞起来」1903 年 12 月 17 日,莱特兄弟首次试飞了完全受控、依靠自身动力、机身比空气重、持续滞空不落地的飞机,也就是世界上第一架飞机「飞行者一号」。
「他们当时并不完全理解空气动力学,但却知道了飞机飞起来这种可能性,」李志飞说,飞机和 GPT-3 的探索很像,都是一种「先求其然,再求其所以然」的方法论,「当我们知道了它的极限情况,知道了它能干嘛,再去琢磨它实现的原理。」
当然,模型越复杂,它的不可解释性就越高。李志飞也坦言现在还不是在「破译」GPT-3 其所以然的阶段,「我们知道了 GPT-3 可行后,它模型太大了,训练成本太高了,那就先把成本降下来。」
先顺应科技发展的趋势,再对其优化,落地,产生商业价值,这是出门问问的「实用主义」。
今年 2 月,出门问问推出了全球首个面向产品和工业界的端到端语音识别开源工具——WeNet。在正式发布后短短六个月的时间里,WeNet 在世界最大的代码托管平台 Github 上获得超过 1000 个 star,成为当前最流行的产品级端到端语音识别框架。
李志飞解释道,「之前,如果你想训练一个语音识别器,用 Pipeline 实现步骤复杂,需要分好几个步骤推进,而且在每一步里都要有专门做语言模型、声学模型、信号处理……但用 WeNet 是很简单了,因为它端到端的特性,只有输入和输出,没有中间那些步骤。」
WeNet 专注在语音识别这个任务上,这和支持语音任务类型更多的工具(比如 EspNet 和 SpeechBrain)不同,WeNet 追求小而美,小而精。WeNet 的出现解决了目前主流语音开源工具之痛点,且各项性能指标达到业界最优,成为世界级技术领先的开源工具。因为其非常易于产品化,在工业界和高校已有广泛的应用,被誉为「产品化集成度最好的框架」。同时,出门问问也为企业使用 WeNet 部署语音识别提供商业化和技术支持。若确有非常好的其他语音任务可以拓展,WeNet 会单独组建其他项目来支持。
这和出门问问「复制」GPT-3 的思路其实是一致的,都是「产品优化」的思路,离 AI 通用还有距离,先思考如何更好地解决业内现有的问题。
「端到端的基于 Transformer 的深度学习的模型能有最好的效果,这是有目共睹的,WeNet 能这么受欢迎,不是我们厉害,是我们相信端到端的基于 Transformer 的深度学习。」李志飞说。
从出门问问对 GPT-3 和其他技术趋势的理解和实践,都能看出他们是「实用主义」的信徒。飞机先飞起来了,在还没能完全理解它之所以能起飞的原理之前,先学着飞是积极的探索。
本文作者:biu
花粉社群VIP加油站
猜你喜欢