摘要:继计算主义、联结主义和具身认知之后,近十年来,心智的预测加工进路有望发展成为统合心智各个领域和诸多特征的新范式。围绕“预测”这个概念,本文从观念层面、功能层面和实现层面阐释三个问题:第一,心智为何(why)会做预测?第二,心智如何(how)做预测?第三,何谓(what)“预测”?尤其是“先验”、“预设”、“预期”这几个近似概念在预测加工进路中有何关联?与以往三种范式不同,该范式从根本上颠覆我们关于心智的传统理解。
王球:复旦大学哲学学院副教授,研究方向为心智哲学、认知科学哲学、知识论和形而上学。
本文修订版发表于《福建论坛(人文社会科学版)》2021年第9期,第5-15页。原文注释今略。
关于人类心智的一般性理解,20世纪60年代到80年代是计算主义的天下,80年代到21世纪初,一方面人工神经网络模型(联结主义)再度复兴,另一方面广义的具身认知观念备受推崇。近十年来,心智的预测加工进路(predictive approaches to the mind,简称预测心智)汲取各家之长,有望发展成为一种统合心智各个领域和诸多现象的新范式。
这一新范式颇有康德式“哥白尼革命”的意味。至少对知觉而言,“经典的感知加工理论把大脑视为被动的、刺激驱动的装置。相反,该研究进路强调知觉的本质是建构式的,把知觉视为主动的、具有高度选择性的过程…并对即将发生的感知事件不断地提出预测。”不仅知觉是预测加工的,这套建构主义方案还覆盖了包括认知、注意、情绪、行动、意识、自我意识和精神病理学在内的心智现象的方方面面,因而备受认知科学家和哲学家的关注。然而,该进路的思想资源五花八门,神经科学、哲学、生物学、统计学、机器学习和信息论均有介入,对预测心智中的“预测”概念进行全面梳理因而是必要的。我们将从“为何问题”、“如何问题”与“何谓问题”三个方面展开阐述。
一
心智为何会做预测?
都说预测心智带有康德色彩,这一点也不假。在《纯粹理性批判》第二版序言里,康德坦言:“如果直观必须依照对象的性状,那么我就看不出,我们如何能先天地对对象有所认识;但如果对象(作为感官的客体)必须依照我们直观能力的性状,那么我倒是完全可以想象这种可能性。”换言之,若使得知觉和知识得以可能,认知主体关于世界的先天形式,也就是时空直观和知性范畴,必须自上而下地去统摄和建构由感知系统提供的散乱的感官杂多。虽说康德的这一论断是通过他独特的先验论证达成的,大致的思路在预测心智进路里表现得很明显。预测心智主张,一个心智系统(大脑)若要感知和表征世界,必须不断地在无意识的(亚人格)层面上对感知输入的诱因(外部世界的对象和事实)提出猜想或预测(先天要素)。通过被给予的感知信息流(感官杂多)去检验和修正这些预测,从而最大程度上消除预测误差(predictive error),以此生成知觉内容或引发行动。
不难看出,预测心智的“康德色彩”至少体现在三个方面:第一,若无先天要素(预测),便无从感知和认识世界;第二,“思维无内容则空,直观无概念则盲”,若自上而下的先天要素无法与自下而上的感知信息持续产生动态结合,知觉和知识同样不可能;第三,康德先验哲学的后果之一就是需要在主体与世界之间引入“表征纱帘”(representational veil),这甚至进一步导致现象与“物自体”的分离,而预测心智的理论后果也遭到了知觉经验乃是“受控的幻觉”的指控。
其实,在观念史上,从康德先验哲学到预测心智进路确实有思想传承,这中间还经历了新康德主义者亥姆霍兹(Hermann von Helmholtz)所做的自然化贡献。作为生物物理学家,亥姆霍兹将知觉描述为概率性的、知识驱动的、从身体感知效应推断其现实诱因的过程。这个溯因推理问题的求解,经由20世纪末21世纪初的心理学、计算神经科学和机器学习等研究领域的推进,最终发展成为当下的形态。在今天,预测心智明确指出,心智系统就是一台层级化的贝叶斯预测机,它具有内生的、层级化的预测模型,这些模型是关于世界规律的概率分布预测。借助这些模型,作为身处不确定的世界中的有机体,就无需总是被动地以“随机应变”的方式来应对不断涌入的种种信息。预测模型“自上而下”地对即将接收到的信号提出预设,继而与实际输入进来的信息进行差值比对,由此得到的预测误差“自下而上”地从低阶层级反馈给高阶层级。这种反馈本身将不断修正各层级先前的预测模型,以便在这些层级迭代的信息加工动力学系统中,把预测误差降低到最小化,由此实现让预测模型尽可能地符合世界的真实样貌。这样的观点无疑秉承了康德洞见,也将相应的先验哲学进路给彻底自然化了。
我们当下要回答的问题是心智为何会做预测,然而仅仅说这是受到了康德先验哲学洞见的启发,本身算不上是个好答案。一个恰当的回答是:关于心智工作模式的总体设想,从被动加工的“自然之镜”(罗蒂语)转变为主动做出先天加工的“预测引擎”,是一种最佳解释推理。一个解释是最佳解释推理,当且仅当针对特定的观察事实提出一个合理的解释,并且相比之下没有其它假说比该解释更加合理。在这里,观察事实指的是有机体的各种心智现象(包括非人类的动物)、行为表现以及它们所处的物理和社会环境。
以人类知觉为例,一个简单例子有助于理解预测心智的优势。我们有过这样的体验:当火车进站停稳后,一度以为自己乘坐的火车再次出发了,实际上是相邻的火车朝相反的方向开动。然而当我们走路时眼睛盯着一棵树,却不会有“到底是树从视野前移动,还是视野从树上略过”的歧义体验。亥姆霍兹发现,当你用手指拨弄眼球从而引起眼球运动,视野中的物体看起来就好像从一边跳跃到另一边。但是为什么当我们以正常方式转动眼球看一个物体时,却没有这种体验呢?亥姆霍兹认为,自然状态下,在眼球移动之前大脑就已经有了相应的无意识的预判。大脑事先已将信号发送到引起眼睛移动的眼部肌肉上,这些信号能用来准确预测一个眼部动作发生时,我们的视觉经验大致将会产生怎样的变化,所以正常情况下我们不会有类似于火车倒开的错觉体验。对于这个观察事实,尽管亥姆霍兹的解释在今天的神经科学家看来并不完美,然而大体上没有更好的其它假说(尤其是传统的计算表征主义假说)能够实质性地挫败它。
类似的案例还很多。例如当我身处人声嘈杂的酒吧,很容易把“网球”误听成“王球”(笔者的名字);或者“研表究明,汉字的序顺并不定一能影阅响读,比如当你看完这句话后,才发这现里的字全是都乱的”;或者在双目竞争实验中,当你一只眼睛看到房子另一个眼睛看到人脸,你便无法同时看到两个图像。诉诸预测加工是关于这类事实最合理的解释,这种解释大体上承诺,外部世界的感知输入并不会如实呈现给主体。除此之外,从理论的简单性、解释范围的广度、解释方法的一致性,以及能否得到实证科学的支持等方面综合考量,关于心智的工作模式,预测加工比其它理论更胜一筹。
除了说预测心智是一种在功能层面上的最佳解释推理之外,弗利斯顿(Karl Friston)关于有机体遵循“自由能(最小化)原理”(Free Energy Principle)的阐释,同样可以推导出心智系统的基本工作机制应当遵循预测加工原理。根据热力学第二定律,有机体的肉身大概率地将会处于死亡或功能失调的状态,然而进化将有机体“设计为”顽强存活、拒斥混乱或抵抗熵增的样态。有机体的肉身也相应地需要保持在一个容易预测的范围里。根据自由能原理,有机体要保持这个稳定的状态就得抑制自由能,也就是一种在信息论上等同于长线均值(long-term average)的预测误差。不妨说,生物学层面上的生存(survive),物理学层面上的抵抗熵增,生理学层面上的保持内稳态,信息论层面上的抑制自由能(或降低惊异度),以及认知层面上的降低预测误差(优化模型适宜度),它们是一些不同的表达,但在我们的语境里,就实现层面上来说都是等价的。简言之,包括我们人类在内的动物,要想存活下去,必须根据内在的生成模型,以做预测的方式,通过降低预测误差来感知、表征和行动于世。
二
心智如何做预测?
要使得“心智会做预测”这个论断更加可信,离不开回答“心智如何做预测”。很多人会觉得,在个体认知层面上,确实会有一些相关经验印证“心智会做预测”这个说法。比如过马路时你会预测行人前进的方向,或者在球场上你会预测进攻队员的下一个动作。要预测就得依赖既有的知识,例如行人通常不会走Z字形,或者当进攻队员观察到位置更好的队友时通常会传球。话虽这样说,然而本文讲的预测,几乎都是亚人格层面上大脑无意识的信息加工。为了便于理解,不妨看看现实生活中怎样才能理性地做预测,这就牵涉到贝叶斯定理。
设想你去新疆旅行,不幸迷失在一片酷热难耐的沙漠里,随身携带的淡水几乎饮尽。此刻你抬头望见天边有一片云,试问这片云带来降雨的概率是多少?在这里,关于是否会下雨的预测很重要,因为它事关你能否赢得救援时间。这种情况下,你需要计算的是,给定“有云”这个证据前提下,“降雨”假说成立的概率,我们将此记作P(降雨|云)。根据贝叶斯公式P(H|E)= P(E|H)P(H)/ P(E),你还需要知道:P(云朵|降雨),即沙漠下雨的那天出现云朵的概率,我们设之为80%;并且P(云),也就是沙漠中有云的概率,我们设为10%;以及P(降雨),若沙漠中一百天才下一次雨,其概率可设为1%。将这些概率值代入公式,可以计算出P(降雨|云)= 0.8 ×0.01/0.1,得出结果为8%,很可惜,此时你虽然看到有云,但降雨概率还是很低。同样很可惜,也许在公布答案之前你也算错了。不过,尽管我们多数人并不擅长做贝叶斯推理,这并不妨碍我们的大脑可以无意识地以近似贝叶斯的方式在做预测加工。正如蚂蚁不懂高斯分布和帕累托分布,但不妨碍蚁群根据信息素来选择最佳行军路线。
大脑做贝叶斯推理,推的是什么呢?之前已提到,亥姆霍兹的重大贡献是把知觉看作是溯因推理:我们接收到的感知信息是结果(证据E),需要利用它来推导外部世界的诱因(或关于这个诱因的假设H)。一方面,这种知觉的溯因推理通常不是一一对应的。譬如一只猫作为外部世界的诱因,可以导致主体接收到视觉信息(看到猫)、声音信息(听到猫叫)或触觉信息(摸到那只猫)等不同的感知输入结果;或者一个结果(看到猫)也可能是由别的诱因(一只真实的猫或一个猫形公仔)导致的。另一方面,感知系统的信息输入通常会携带情境信息或信息噪音,例如当一只猫躲在栅栏后面时,感知主体的视觉经验只是一些被栅栏分割成条块状的似猫(cat-like)的图像。这种情况下(以及其它一切情形下),由于大脑动用了内在模型当中既有的“先天知识”做预测,我们才能形成“那里有只猫”知觉判断。有了这些准备,接下来还需追问三个问题:第一,为什么大脑会有内生的“先天知识”?第二,这些“先天知识”拥有怎样的架构?第三,整个预测加工过程是如何进行的?先看第一个问题。
有机体生活其中的世界虽有诸多的不确定性,但万事万物大体上不会突然发生剧变(自然的齐一性),总有大量稳定的规律可循——打雷下雨,虫鸣鸟啼,日升月落,冬去春来——这为大脑提供了建立内在模型的机会。这些模型基于物种的种系发生学历史以及个体成长史上既有的信息输入,它们作为先天知识,对即将出现的知觉输入提出猜想或预测。一个简单的类比有助于理解这个意义上的模型与世界之间的关系。我们不妨将动物的身体视为一组适应器(adaptations),适应器与环境之所以形成了适应关系,正是因为身体所处的环境有着较为稳定的因果规律和变化节奏,进化过程将之塑造成与环境匹配的样态。适应器的性状(phenotypes)反过来将自身身体约束在惊异度(surprisal)较小的环境当中,这便形成了某种意义上的预测关系。举例来说,成体树蛙四肢末端的吸盘是自然选择出来的适应器,吸盘的性状又约束了(同时作为预测)树蛙通常应该生活在树上——如果树蛙过多暴露在它并不熟悉的地面则是危险的。需要注意的是,在预测心智那里,心智模型当中的先天知识既非康德意义上的时空直观或知性范畴,也不能简单地视为是概念化或命题式的真信念。本质上讲,这类先天知识是关于外部事物的概率密度分布,而模型自身可被视为概率函数。
但问题是,我们身处自然环境和社会环境,充盈着种种时空尺度不一的复杂规律,如此多的规律如何能够“内化”到心智当中,这便需要回应问题二:是怎样的心智架构让大脑灵活地建立起关于世界的模型?如果诉诸于计算表征主义进路,功能模块分区或许是解决方案。但该方案或许不仅要设定概念化的表征属性,也难以刻画出预测属性。因此,这里的解决方案受益于预测编码(predictive coding)和人工神经网络模型层级化信息加工的启发,预测心智的架构是一套层级化的预测编码系统(hierarchical predictive coding system)。
先说预测编码,它本是一个数据压缩策略。例如在图像传输中,你要传输一行白鹭上青天的视频,只需对意料之外的特征进行编码即可。在这里,远山青天是可预期、规律稳定的画面,一行白鹭的移动轨迹则是例外情形,这些例外情形通常也是图像的重要特征。真实值与预测值的偏离,可被量化为实际信号与预测信号之间的差异。这种通过预测编码检测预测误差的方式,在数据压缩时可以大大节约带宽,这便对应了信息论层面上的自由能原理。再看层级化加工。以视觉为例,得益于马尔(David Marr)将大脑视觉信息加工过程分为三个阶段,分别是二维基元图、2.5维要素图和三维模型图。从时空尺度上讲,三个阶段可由三个层级来表达。例如零交叉点(zero-crossings)、边缘端(edge segment)和透明度这类信息的时空尺度非常小,属于低阶层级;区域表面轮廓和初级景深信息,时空尺度相比而言略大,所属层级稍高;而以物体为中心坐标系的形状识别及其空间构造信息,则属于更高的层级。每个层级都有一些模型携带相应的先天知识,不同层级的先天知识可被视为关于不同时空尺度的规律的预设。越是空间上小尺度、瞬时变动的(variant)信息,抽象化程度就越低,负责对之加工的层级也越低;时空尺度上相对较为恒定(invariant)的信息抽象化程度较高,则由高阶层级负责加工。至于各层级之间的信息如何关联互动,整个预测过程如何进行,构成了对第三个问题的回答。
首先,层级化架构的信息流大致有两种:自下而上的输入(前馈)和自上而下(反馈)的预测。当有机体的感知接收器采集了外部世界或自身身体的信号,信息流便会从低阶层级往高阶层级层层输送。我们将该信号视为贝叶斯公式里的证据E,L1层级输入进来的证据E,会接受来自上一层级L2的预设H1的检验。作为检验结果的预测误差E*,一方面可用以调整L1的预测模型(相当于后验概率对先验概率的修正),另一方面E*倘若尚未被H1“解释消除”(explained away)或最小化(minimized),则会进一步输送给上一个层级L2,进而受到来自更高一个层级L3的预设H2的检验。依此行进,心智的信息加工过程,就是层级化的预测模型将预测误差降至最小化的过程。只有那些对应于认知所期待的最有价值的“意外信息”,才能被我们知觉到。一些有趣的研究表明,这也是为什么我们无法给自己挠痒痒的原因——不过精神分裂症患者倒是更容易做到这一点。值得提醒的是,并非所有的双向动态交互的信息流都需要贯通全部的预测层级。譬如那些与知觉和行动不产生直接关联的离线认知(offline cognition),就是自上而下的预测信息没能输送到最低阶层级引发的效果。
其次,上述过程是理想化的刻画。既然感知信号所表达的是外部世界的隐藏诱因,但世界的因果网络内部不仅有复杂的互动,作为隐藏诱因的感知信息还伴随着信息噪声以及不确定性,它们一同被感知系统所采样。若要使得这些信息所揭示的隐藏诱因足够凸显,层级化的预测加工系统还需要对概率分布的精度进行二阶预期。这便是“预期精度”(expected precision)的过程,它对自上而下的预设H和自下而上的感知输入E(包括预测误差E*)同样起作用。举例而言,当你住在自己家里需要起夜时,不用开灯就能顺利绕过障碍物。在这种情况下,由于光照条件非常差,感知信息E的预测精度很低,但你对家里的空间布局非常熟悉,因而相关预设H的预期精度就很高。相反,如果当你住进一间陌生的酒店,夜里要上洗手间,通过打开夜灯来提高感知信息E的预测精度,而非让大脑盲目猜测房间的空间布局,则是避免磕碰的最好办法。
最后,以上两点都是以静态的视角来说明的,然而预测误差最小化的过程不仅有大脑的参与,具备行动能力的身体也扮演了重要角色。如果说知觉是溯因推理,那么这样的推理是被动的;有了行动的介入,这种推理还能以“积极推理”(active inference)或“预测控制”(predictive control)的方式来实现。举例来说,当你在黄昏的暮色下,似是而非地看到远处草丛里有一只猫。此刻你的视觉感知信号E的预期精度并不高(光照不良),但是你的H或许也不太确定,譬如你不太肯定在这个小区的草丛里会有猫出现。为了消除这个预测误差,你还可以选择通过移动身体走近那片草丛一探究竟。这个身体运动过程,可被视为你的感知接收器对原有的感知信息E进行重新采样。通过采样到预期精度更高的新的信息样本E’同样也是降低预测误差的有效方式。甚至更准确地说,与行动产生关联的是身体的本体感觉(proprioception)信号,精确的本体感觉预测会直接引发行动,因此可以将行动视为一种“自我实现的预言”:神经回路会预测系统选择的行动所对应的感知后果,然而系统并不能直接得到这些感知后果,因此就产生了预测误差。要消除这些误差,系统就必须移动身体从而产生符合预测的感知序列。譬如你之所以在口渴时会实施一个拿起杯子喝水的行动,是因为大脑关于身体的内感知有一诸如“体内水份平衡”的预期(expectation),同时你的本体感知得到的信号则是血液的晶体渗透压和血容量方面显示“体内水份不足”的预测误差,这就触发了感知运动系统通过喝水的行动来消除这个预测误差。
以上说明大体上还是在计算层面和算法层面上刻画的。不同与联结主义以人工神经网络模型作为认知机制的类比描述,预测心智在神经实现层面上有大量的(同时也是歧义重重的)实证研究。弗里斯(Chris D. Frith)和弗利斯顿等人的工作堪称该领域的代表。
三
概念区分:先验、预设与预期
在康德哲学中,先天(a priori)与先验(transcendental)是一组重要的近似概念。在预测加工进路里,先验(prior)、预设(hypothesis)、预期(expectation)与预测(prediction)这些概念有时会交替使用,却有精微的区分。我们通过厘清它们之间的关联和区别,以“何谓问题”补充说明“为何问题”与“如何问题”。
受统计学专业术语翻译影响,“prior”通常译作“先验”,例如“prior probability”就是“先验概率”,不过这里的“先验”与康德哲学没有什么关联。回想上一节关于贝叶斯公式的例子,我们不妨把先验概率理解为对某一件事情发生可能性的预先估算。起先预设的沙漠中降雨的概率P(降雨)是先验概率。后验概率可理解为事情发生是由某个特定诱因引起的概率。给定了有云的证据,由这片云导致降雨的概率P(降雨|云)就是后验概率。根据新的信息输入,后验概率修正了之前的先验概率,从而得到了更接近事实的概率推断。贝叶斯推理,就是结合了证据的似然性(likelihood)对先验概率进行修正。需要注意的是,先验概率和后验概率是相对的。如果新的信息更新了当下的后验概率从而得到了新的概率值,那么这个新的概率值就成了后验概率。先验概率和后验概率都是针对预设(hypothesis)而言的。
我们反复强调,当感知系统接收到感知信号时,大脑需要推断是什么隐藏诱因引起的。这个溯因推理过程要求大脑必须提出可能性或预设。例如H1:一只真实的猫,或者H2:一只猫形公仔,或者H3:一群蜜蜂聚集在一起随机形成了猫的图案……这样的预设可以是无穷多的,正如科学家面对实验数据需要提出一个好的预设一样,大脑提出一个尽可能接近真实诱因的好预设非常重要。这里所谓好的预设,可以理解为先验概率最高的那个预设。针对特定的预设项,预测心智的各个层级将根据内在模型(也就是概率密度函数),给不同的预设指派不同的先验概率。例如在这里,先验概率从高到低的排列若为H1>H2>H3,那么H1便从中胜出。这样一来,它将形成一个“是一只猫”预设。除了先验概率,预测加工也常提到先验信念。先验信念在层级化的预测架构中之所以有用,是因为它比随机猜测更加精准可靠,从而在消除预测误差过程中让输入信息来拟合预测。一些长时效的先验信念(long-term prior)内嵌在预期(expectation)中,自上而下地引导知觉推理。例如我们都知道,物体在运动中通常会持续存在,或者两个不同的物体不能出现在同一时空坐标中。正是这些一般化的先验信念(general prior)层层下行,对感知信息和预测误差进行“修正调整”,我们才会在特定的实验情境下产生双目竞争的知觉体验。由于感知系统能够不断摄入新的感知信息,各个层级的先验概率因此得以不断地调整更新。“自上而下的先验概率规导了知觉推理,知觉推理塑造了先验概率”。不难发现,以贝叶斯推理机制作为大脑预测系统的宏观功能描绘,既契合知觉推理的本质特征,又具有从自然化的描述性当中生成出规范性维度的跨越。这也是预测加工受到当代自然主义心智哲学家推崇的重要理由。
至于“预期”(expectation)这个概念,和“预测”一样,通常是在人格层面上而言的。例如你有一个预期,其内容是新冠疫情在今年夏季可以得到控制。预期可以得到满足或不满足。在预测加工进路文本中,“预期”与“预测”有时会替换使用,但仍有一些语义和语境区分。首先,“预测”侧重于概率性的功能刻画,有时用于指称本文所讨论的那种贝叶斯推理式的神经加工过程,有时特指预估(estimate)的确定性函数。相比之下,“预期”侧重于刻画预测的内容,这样的内容本质上无非是概率密度分布,但有时也被赋予人格层面上的涵义。我们知道,传统的心智哲学有印象与概念(percept/concept)、知觉与认知(perception/cognition)、信念与欲望(belief/desire)之类的范畴划分。但在层级化的预测心智进路里,心智的架构无需像计算主义那样设置功能化的“信念箱”或“欲望箱”。既然心智中的一切事物都是预测加工最小化过程的结果,那么这些范畴并没有楚河汉界般的区别。因此在霍伊等人看来,印象、概念、信念、欲望、经验等等,从根本上讲都是“预期”。差别在于,具有感知特征的印象是短时效的(short-term)预期,其信息加工处在心智架构的低阶层级当中;具有认知特征的概念属于长时效的预期,相应的加工层级更高;至于信念或思想,则属于更为抽象的预期。从这个角度来看,“预期”与“预测”,一个偏重于内容描述,一个偏重形式、功能或信息加工过程刻画。
其次,“预期”还与之前提到的“预期精度”相关。外部世界输入给感知系统的信号具有噪声和不确定性,这些噪声和不确定性基于世界的状态以及有机体自身的状态,预测加工系统因此还需对这些信号的精度进行二阶评估。换言之,为消除预测误差,系统就得对信号精度进行学习和预测。例如在光照条件良好时,视知觉信息的精度就高,反之精度则低。对同一个预测信号来说,自下而上的感知输入信号精度预期与自上而下的预设(hypothesis)信号精度预期,在概率密度分布上是零和的。也就是说,如果我们对感知信号精度赋予更高的置信度,那么相应的预设信息的精度便会随之降低,反之亦然。例如在预测加工与精神病理学交叉研究领域当中,学者们经常援引的案例就是妄想症与自闭症。前者对高阶预设的预期精度赋予的权重远远高于感知输入信号,后者恰恰相反。
最后,在一些计算神经科学家那里,“预期”的涵义更接近于“先天知识”。神经科学家在这方面关注的一个争论是,预期在神经实现层面上是如何影响知觉的?目前有两种解释进路:“抑制解释”认为,感知输入当中那些合乎预期的信号会受到自上而下的预期的抑制;“锐化解释”认为,是感知输入当中那些超出预期的(unexpected)信号得到了锐化增强,从而让这部分的预测误差得以加工。尽管两种解释是竞争性的,但没有任何证据表明两种进路是不可相容的。
四
结语
回到本文开篇,我们之前提到,经过了计算主义、联结主义和具身认知,预测加工进路博采众长,有望成为一种理解心智的新范式。这里有两个问题需要澄清:第一,预测心智在什么意义上“博采”之前三种范式的“众长”?第二,预测心智在什么意义上可以说是一种新的范式?
从发展史的角度来看,预测加工进路(更宽泛地说,多层贝叶斯模型)就是从联结主义系统的庞大家族中演化而来的。然而“标准的联结主义方法(反向传播训练)在两个方面碰了钉子:一是它需要提供足够数量的、已经预先分类的训练数据,以此驱动监督式学习;二是数据训练难以在多层网络架构中展开”。不过,“适用于多层架构的预测驱动学习恰好同时解决了这两个难题”。一方面,区别于作为理想模型的联结主义,得益于预测心智系统拥有身体,“世界慷慨而可靠地为我们提供海量的训练信号,以资匹配当下做出的预测和实际感知的传入刺激”,因而预测驱动的学习是一种自我监督式学习。这使得预测心智通过具身认知弥补了联结主义作为静态的理想化模型的不足之处。另一方面,在福多(Jerry Fodor)等人看来,联结主义难以实现计算主义所具备的语义性、生产性和系统性特征,但在预测心智那里,由于层级化的模型对应了结构化的世界,“世界本身就是高度结构化的,对应不同时空尺度的一系列规模和模式,同时充斥着各类彼此交互的、复杂嵌套的远因”。如此一来,生成模型可以自行分派和整合隐藏的数据结构。当这些隐藏诱因的组合形成一个连贯的整体,系统就使用其先天知识储备生成感知数据,借此知觉到一个有意义、结构化的场景。这使得预测心智通过层级化模型弥补了联结主义相比于计算主义的不足之处。
综合这两点,我们说预测心智博采三种范式之所长并不夸张,那么在“范式”和“转向”话术滥觞的当下,它又在什么意义上堪当心智的新范式呢?首先,从学科纲领的变革性角度看,预测心智有着鲜明的康德式“哥白尼革命”色彩,将心智的工作模式由被动的“表征-计算模型”,扭转为主动的、预测优先的“贝叶斯推理引擎”。其次,在科学共同体的意义上讲,这种关于心智工作模式的观念转变不仅在认知科学哲学家当中达成了共识,也同样引起了机器学习、心理学和计算神经科学等不同领域学者的持续关注与合力推进。最后,从范式的科学哲学特征来说,预测心智作为新范式,一方面相关的细节分歧有待平息(例如克拉克与霍伊的争论),另一方面预测心智绝非局限于解决“知觉难题”。从知觉到意识,从行动到情绪,从社会认知到精神疾病,从离线认知到能动性的解释,人类认知到动物心智,许多学者开始致力于用预测心智来重新理解心智的各个方面和种种现象,俨然具备常规科学的“解谜”气候。根据以上三点理由,我们不能简单地将预测心智视为联结主义的升级或扬弃。无论如何,若想批判、修正或者加入这一新范式,无疑要从理解预测心智的“预测”概念入手。
END
虬江江畔 双子楼中
身体锻炼 思想活动