ChatGPT的出现,让人们从科技和人文的角度都开始重新思考人类与机械、人类与科技、人类与人工智能之间的关系。作为一个大型人工智能语言模型,ChatGPT是怎样理解人类的逻辑的?我们要怎么看它,它又如何观照这个世界?一起来看看这篇文章,希望能为你带来启发。
图片来自《深度学习的数学》一书。
以上原理,用计算模拟和解释,就是:神经元在信号之和超过阈值时点火,不超过阈值时不点火。
20世纪五六十年代,奥利弗·塞弗里奇创造了名为“鬼域”的概念。这是一个图案识别设备,其中进行特征检测的“恶魔”通过互相竞争,来争取代表图像中对象的权利。
“鬼域”是生动的关于深度学习的隐喻,如下图:
第二步:隐藏层
这一层,负责特征提取。假设有如下三种主要特征,分为为模式A、B、C。如下图。
不同的模式对应着相应的数字格子的组合。如下图。模式A对应的是数字4和7,B对应5和8,C对应6和9。
第三步:输出层
这一层,从隐藏层那里获得信息。
如上图,最下面是AI要识别的图像。
首先,输入层的2、5、8、11点火;
然后,隐藏层5和8所对应的特征被提取,“模式B”点火;
最后,输出层的1被对应的“模式B”点火。
所以,“大恶魔”识别出图像为数字1。
在上面的例子里,AI可以精确地识别出0和1,但它并不懂0和1,它的眼里只有像素。
可这么说,似乎过于拟人化了。人类又如何懂0和1呢?
人类不也是通过双眼输入,通过迄今仍是宇宙间最大谜团的大脑神经元网络(更加复杂、强大且节能的隐藏层)提取特征,然后通过大脑的某个部位再进行自我解释的吗?
辛顿曾在采访中提及,认知科学领域两个学派关于“大脑处理视觉图像”的不同理念:
一派认为,当大脑处理视觉图像时,你拥有的是一组正在移动的像素。如同上面的演示;
另一学派偏向于老派的人工智能,认为是分层、结构性的描述,脑内处理的是符号结构。
辛顿自己则认为以上两派都不对,“实际上大脑内部是多个神经活动的大向量。”而符号只是存在于外部世界。
不管怎样,神经网络的模型有用,并且非常有用。
不愿意和外行分享专业话题的辛顿,用如下这段话生动介绍了“神经网络”:
首先是相对简单的处理元素,也就是松散的神经元模型。然后神经元会连接起来,每一个连接都有其权值,这种权值通过学习可以改变。神经元要做的事就是将连接的活动量与权值相乘,然后累加,再决定是否发送结果。如果得到的数字足够大,就会发送一个结果。如果数字是负的,就不会发送任何信息。
你要做的事就是将无数的活动与无数的权重联系起来,然后搞清如何改变权重,那样就行了。问题的关键就是如何改变权重。
八神经网络和深度学习经历了并不算短暂的黑暗期。
从上世纪80年代开始的整整30年间,只有很少一部分相关研究者义无反顾地投身其间,他们饱受怀疑,也几乎拿不到科研经费。
也许是由于这个原因,深度学习三巨头辛顿(Hinton)、本吉奥(Bengio)、杨立昆(LeCun)似乎都和加拿大有些关系,他们退守在那里研究、教学、读书。这倒是很符合那个“傻国家”的气质。
一个让人“心酸”的细节是,2012年辛顿带着学生在ImageNet 图像识别比赛上拿了冠军,商业公司蜂拥而至。辛顿教授开出的商业报价,只是区区一百万美元。(后来谷歌以4400万美元“中标”。)
“老派”AI,使用明确的一步步指令指引计算机,而深度学习则使用学习算法从数据中提取输入数据与期望输出的关联模式,正如上一节的演示。
众所周知,漫漫长夜之后,随着人类计算机算力和数据的指数级增长,深度学习一飞冲天,从阿尔法狗一战封神,再到ChatGPT征服全球。
为什么是Open AI,而不是DeepMInd?我对此略有好奇。
OpenAI的联合创始人兼首席科学家伊利亚·萨特斯基弗,是辛顿在多伦多大学带的学生。
他似乎延续了辛顿对深度学习的信仰,并且勇于全力下注。
辛顿认为“深度学习足以复制人类所有的智力”,将无所不能,只要有更多概念上的突破。例如“transformers”利用向量来表示词义的概念性突破。
此外,还要大幅度增加规模,包括神经网络规模和数据规模。例如,人脑大约有100万亿个参数,是真正的巨大模型。而GPT-3有1750亿个参数,约比大脑小一千倍。
神经网络模仿了人类的优势:处理有大量参数的少量数据。但人类在这方面做得更好,而且节能许多倍。
先行一步的DeepMInd,其发展方向和速度,除了陷入与谷歌的“商业VS科研”的两难纠缠,还不可避免地受到哈萨比斯的AI哲学观的影响。
哈萨比斯认为不管是ChatGPT,还是自家的Gopher,尽管可以帮你写作,为你绘画,“有一些令人印象深刻的模仿”,但AI“仍然不能真正理解它在说什么”。
所以,他说:“(这些)不是真正的意义上的(智能)。”
哈萨比斯的老师,MIT的Poggio教授更尖锐地指出:深度学习有点像这个时代的“炼金术”,但是需要从“炼金术”转化为真正的化学。
杨立昆反对炼金术的提法,但他也认为要探究智能与学习的本质。人工神经元受到脑神经元的直接启发,不能仅仅复制大自然。
他的观点大概是,工程学实现了的东西,也只有通过科学打开黑盒子,才能走得更远。
“我认为,我们必须探究智能和学习的基础原理,不管这些原理是以生物学的形式还是以电子的形式存在。正如空气动力学解释了飞机、鸟类、蝙蝠和昆虫的飞行原理,热力学解释了热机和生化过程中的能量转换一样,智能理论也必须考虑到各种形式的智能。”
几年前,巅峰时刻的哈萨比斯就表达过,仅靠神经网络和强化学习,无法令人工智能走得更远。
类似的反思,也发生于贝叶斯网络之父 Judea Pearl。
他说,机器学习不过是在拟合数据和概率分布曲线。变量的内在因果关系不仅没有被重视,反而被刻意忽略和简化。
简单来说,就是:重视相关,忽视因果。
在Pearl看来,如果要真正解决科学问题,甚至开发具有真正意义智能的机器,因果关系是必然要迈过的一道坎。
不少科学家有类似的观点,认为应该给人工智能加上常识,加上因果推理的能力,加上了解世界事实的能力。所以,解决方案也许是“混合模式”–用神经网络结合老式的手工编码逻辑。
辛顿对此颇为不屑,一方面他坚信神经网络完全可以有推理能力,毕竟大脑就是类似的神经网络。另一方面,他认为加入手工编码的逻辑很蠢:
它会遇到所有专家系统的问题,那就是你永远无法预测你想要给机器的所有常识。
AI真的需要那些人类概念吗?阿尔法狗早已证明,所谓棋理和定式只是多余的夹层解释而已。
关于AI是否真正“理解”,真正“懂得”,真正有“判断力”,辛顿以“昆虫识别花朵”为例:
“昆虫可以看到紫外线,而人类不能,所以在人类看来一模一样的两朵花,在昆虫眼中却可能截然不同。那么能不能说昆虫判断错误了呢?昆虫通过不同的紫外线信号识别出这是两朵不同的花,显然昆虫没有错,只是人类看不到紫外线,所以不知道有区别而已。”
我们说AI“不懂”什么,会不会是过于以人类为中心了?
假如我们认为AI没有可解释性,算不上智能,可会不会是即使AI解释了,我们也不懂?就像“人类只有借助机器检测,看到两朵花的颜色信号在电磁波谱上分属不同区域,才能确信两朵花确有不同。”
从十几岁开始,就相信“模仿大脑神经网络”的辛顿,仿佛有某种宗教式的坚定。
于是,在某个路口,哈萨比斯略有迟疑,而伊利亚·萨特斯基弗则和辛顿一路向前,豪赌到底。
辛顿的人生哲学是“基于信仰的差异化”,他的确也是如此实践的。
如今,尽管哈萨比斯认为ChatGPT仅仅是更多的计算能力和数据的蛮力,但他也不得不承认,这是目前获得最佳结果的有效方式。
九对AI路线的分歧,不过是一百多年来某类科学暗涌的延续。
相当长的岁月里,在大雪纷飞的多伦多,辛顿几乎是深度学习唯一的守夜人。
他本科在剑桥大学读生理学和物理学,其间转向哲学,拿的是心理学学士学位,后来再读了人工智能博士学位。
辛顿等人在统计力学中得到灵感,于1986 年提出的神经网络结构玻尔兹曼机,向有隐藏单元的网络引入了玻尔兹曼机器学习算法。
如下图,所有节点之间的连线都是双向的。所以玻尔兹曼机具有负反馈机制,节点向相邻节点输出的值会再次反馈到节点本身。
玻尔兹曼机在神经元状态变化中引入了统计概率,网络的平衡状态服从玻尔兹曼分布,网络运行机制基于模拟退火算法。
玻尔兹曼机 图片来自《图解人工智能》一书。
从香农,再到辛顿,他们都从玻尔兹曼那里获得了巨大的灵感。将“概率”引入物理学,看起来非常奇怪。人类直到19世纪之后,才知道“热”是物体内部大量分子的无规则运动的表现。那么,为什么热量总从热的物体传到冷的物体?玻
尔兹曼说,原子(分子)完全是随机运动的。并非是热量无法从冷的物体传到热的物体,只是因为:
从统计学的角度看,一个快速运动的热物体的原子更有可能撞上一个冷物体的原子,传递给它一部分能量;而相反过程发生的概率则很小。在碰撞的过程中能量是守恒的,但当发生大量偶然碰撞时,能量倾向于平均分布。
这其中,没有物理定律,只有统计概率。这看起来非常荒谬。坚定的科学主义者费曼,后来也提出“概率振幅”,用来描述物理世界的本质。
对此,费曼解释道:这是不是意味着物理学——一门极精确的学科——已经退化到“只能计算事件的概率,而不能精确地预言究竟将要发生什么”的地步了呢?是的!这是一个退却!但事情本身就是这样的:自然界允许我们计算的只是概率,不过科学并没就此垮台。
也许是因为都持有“自下而上”的世界观,玻尔兹曼喜欢达尔文,他在一次讲座中宣称:
“如果你问我内心深处的信念,我们的世纪将被称为钢铁世纪还是蒸汽或电的世纪呢?我会毫不犹豫地回答:它将被称为机械自然观的世纪,达尔文的世纪。”
对达尔文的自然选择理论,玻尔兹曼认识到,生物之间通过资源竞争展开“一种使熵最小化的战斗”,生命是通过捕获尽可能多的可用能量来使熵降低的斗争。
和生命系统一样,人工智能也是能够自动化实现“熵减”的系统。生命以“负熵”为食,人工智能系统则消耗算力和数据。杨立昆估算,需要10万个GPU才能接近大脑的运算能力。一个GPU的功率约为250瓦,而人类大脑的功率大约仅为25瓦。这意味着硅基智能的效率是碳基智能的一百万分之一。
所以,辛顿相信克服人工智能局限性的关键,在于搭建“一个连接计算机科学和生物学的桥梁”。
十达·芬奇曾说过:“简单是终极的复杂。”牛顿那一代相信上帝的科学家,认为神创造这个世界时,一定运用了规则。
他们只管去发现规则,而不必在意暂时的不可理解。例如,万有引力公式为什么长成那样?为什么要和距离的平方成反比?
另一方面,牛顿们信奉奥卡姆剃刀的原则,认为世界的模型基于某些简洁的公式。他们至少相信存在某个这样的公式,从爱因斯坦到霍金,莫不如是。
然而在不确定性时代,概率似乎比决定论派更能解释这个世界。牛顿式的确定退缩到了有限的领域。
也许费曼是对的,科学家是在用一个筛网检验这个世界,某些时刻似乎所有的现象都能通过筛孔,但如今我们知道多么完备的科学都只是暂时的解释,只是暂时未被证伪的筛网。但这并不影响我们向前。
还有一种哲学认为,世界本身就是在为自己建模。试图用一个大一统理论解释世界几乎是不可能的,更何况宇宙还在继续膨胀。
从以上有趣但略显含混的角度看,ChatGPT是用一种反爱因斯坦的方式为世界建模。它有如下特点:
是概率的,而非因果的;尽可能地去模拟人类世界这一“大模型”,从经验中学习和进化,而非去探寻第一原理;它信奉(至少暂时如此)“复杂是终极的简单”;它驱逐了神。因为它自己越来越像一个神。AI和人类别的热闹事物一样,经常会有周期性的热潮。上一波是2016年,热起来,然后又慢慢静下来。
七年过去了,AI再次热起。Open AI照例没有打开“黑盒子”,却带来了影响力更为广泛的浪潮。
这一次,广泛性似乎战胜了专业性。人们似乎更关注那个会画画的、可能替代自己摸鱼的AI,而不是那个能战胜世界冠军、能研究蛋白质折叠解决人类顶尖难题的AI。
这其中有多少是工程的突破和技术的飞跃?有多少是商业驱动下的大力出奇迹?有多少是人类社会惯常的泡沫?
毋庸置疑,人类过往的伟大突破,不少都是在多种理性和非理性力量的交织之下实现的。
这里面的机会是:
卖水者。如英伟达;新平台的出现;新平台既有通过生产力的提升创造的新价值空间,如各种全新的产品和服务,也有对旧有价值空间的掠夺;AI会成为基础设施。但是,水和电成为基础设施,互联网成为基础设施,与AI成为基础设施,绝非简单的类比或升级。大概的趋势也许是,商业上的垄断与两极分化会更加残酷。职业上,或许中间阶层会更加无望;“场景”和“应用”会有机遇。尤其是那些能够较好地利用AI平台实现人机结合的场景与应用。对个体而言,我们要问的是,AI还需要人类充当新基础设施和新系统的类似于“操作员、司机、程序员、快递员”的新时代角色吗?十一哈耶克说:“一个秩序之所以可取,不是因为它让其中的要素各就其位,而是在这个秩序上能够生长出其他情况下不能生长出的新力量。”迄今为止,我们尚不能定义什么是智能,什么是意识。
然而,却有一个黑乎乎的盒子,告诉我们可能会超越人类的智能,甚至涌现出人类的意识。
微软的报告中这样写道:
我们没有解决为什么以及如何实现如此卓越的智能的基本问题。它是如何推理、计划和创造的?当它的核心只是简单的算法组件–梯度下降和大规模变换器与极其大量的数据的结合时,它为什么会表现出如此普遍和灵活的智能?
AI研究人员承认,智能是否可以在没有任何代理或内在动机的情况下实现,是一个重要的哲学问题。
在2023年的这个并不容易的春天,我对ChatGPT的态度坦然而期待:
我希望见到它所具备的可能性,为这个混乱的世界带来某些“熵减”。
在所有预测中,我期待Kurzweil的那个“2030 年技术将使人类享受永生”的预言。
我自己对永生没兴趣,但不想失去身边的人们。我对世俗的依赖大过对“超人类主义”的担忧。
我不太相信意识的上传,因为一旦上传,就可以复制,就不是唯一的,就失去了自由意志,又谈何“意识”呢?
人类会洞察大脑最深层次的秘密吗?汤姆·斯托帕警告过:
“当我们发现了所有的奥秘,并失去了所有的意义时,我们将会在空荡荡的海边孤身一人。”
哥德尔的“不完备性定理”告诉我们,不确定性是人类认识的形式逻辑思维本身所固有的。
“一个计算机可以修改自身的程序,但不能违背自身的指令——充其量只能通过服从自身的指令来改变自身的某些部分。”
哥德尔算是为AI,为人类划定了边界吗?否则,人类制造超级AI,然后拜其为神,何尝不是自我奴役?
哥德尔又告诉我们,人类永远可以在“实在主义”中通过“直观和直觉”引入构成高一级形式系统的新东西,建立新公理系统,如此推进以至无穷。
这就是彭罗斯所持的那种“人心超过计算机”的观念。
上一次,七年前,在阿尔法狗面前,人类曾经哭泣过;
这一次,无人哭泣,却有万众狂欢。
在两次AI高潮之间的7年里,我们经历了许多,失去了许多。
人们渴望拥抱某些希望,某些确定性,即使那些确定性来自一些不确定性的智慧。
就我自己而言,也遭遇了一些前所未有的艰难时刻。所谓艰难,并非指一些困难的抉择,也并非说没有选项。
恰恰相反,依照最优决策原理,我很容易通过期望值计算,得出最佳选项,获得所谓最大化的收益。
然而,我追溯到内心的源头,重新定义了自己的期望效用,然后据此做出了有点儿辛顿风格的“基于信仰的差异化”选择。
对任何一个人而言,不管是难是易,是聪明是愚蠢,是理性是任性,这种事儿在技术层面都只算小菜一碟。
可对AI来说,自己去定义期望效用,暂时难于登天。
所以,研究人员称,为“大型语言模型”配备代理权和内在动机是未来工作的一个迷人的重要方向。
而“代理权”与“内在动机”这两点,一个普通人类只需要一秒钟或者几个不眠之夜即可实现。
或许关键不在于得失,不在于效用函数,而在于“存在”。
如伊塔洛·卡尔维诺所言:
“随着时光流逝,我慢慢地明白了,只有存在的东西才会消失,不管是城市,爱情,还是父母。”
大概是人类自作多情吧,在斯皮尔伯格的电影《A.I.》里,机器舞男被抓去销毁前,最后对小男孩深情地说:
“I am,I was!”
“我存在,我曾经存在!”
作者:孤独大脑,公众号:孤独大脑(ID:lonelybrain)
本文由 @孤独大脑 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
花粉社群VIP加油站
猜你喜欢