The Neurocognitive Basis of Multisensory Processing
-
摘要:
多感觉模态信息处理是人类基本的心智功能,是漫长进化塑造而成的稳健、灵活、高效的信息加工方式,是贯穿感知、注意、记忆、语言、学习的重要特性。解析人脑多模态信息处理的认知神经和计算机制,对理解大脑功能组织原则有重要理论意义,对启发多模态人工智能发展有重要实践价值。然而,人脑的多模态信息处理机制异常复杂,来自神经科学、认知科学等领域的研究者从多种问题视角开展研究,分别提出了不同的多模态信息处理原则、理论、计算模型。系统回顾、梳理人脑多模态信息处理机制,对于准确把握该领域的前沿进展、启发后续研究非常关键。以“视听感知”这一重要多模态信息处理功能为切入点,在神经元、皮层、大脑通路等层面综述了人脑多模态信息处理的认知神经机制。首先,介绍了人脑多感觉神经元的功能特性和响应原则;其次,讨论了初级皮层间跨模态信息调制的关键机制;再次,分析了以多感觉脑区为核心的视听加工大脑网络的主要功能和计算机制;最后,讨论了人脑多模态信息处理机制对多模态人工智能系统开发的启示。
Abstract:Multisensory processing is a fundamental cognitive function that underlies perception, attention, memory, language, and learning. Understanding the neurocognitive mechanisms of this function is of great theoretical and practical significance for understanding the principles of the human mind and for guiding the development of multisensory artificial intelligence. However, the mechanisms of multisensory information processing are extremely complex, and systematic review is essential for accurately understanding the cutting-edge progress in this field and inspiring future research. In this review paper, we first introduced the functional characteristics and response principles of multisensory neurons in the brain. Then, we discussed the mechanisms of cross-modal modulation between primary cortical areas. After that, we focused on the functions and computational mechanisms of multisensory areas and hierarchical multisensory brain networks. Lately, we discussed how studying human multisensory processing can inform the development of multisensory artificial intelligence.
-
一. 引言
感知是人类心智之开端,是由多种感觉模态(如视觉、听觉、触觉、味觉等)组成的复杂信息加工系统。感觉系统各司其职,彼此交互,支撑着注意、记忆、语言、学习等高级心智功能发展[1]。多感觉模态信息处理(Multisensory processing)是漫长进化塑造而成的稳健、灵活、高效的信息加工方式。相比于对单一感觉系统运作规律的认识,对多模态信息处理机制的了解仍有待深化[2]。
然而,人脑的多模态信息处理机制异常复杂,来自神经科学、认知科学等领域研究者从不同的问题视角开展研究,分别在神经元、感觉特异脑区、多模态脑区、大脑通路等层面,提出了多模态信息整合原则、理论见解、计算模型。这些研究证据和观点丰富了人们对多模态信息处理机制的认识,但对统合不同领域的研究知识、系统把握多模态信息处理的关键机理造成了一定的困难。因此,综合多层面的研究成果,系统回顾、梳理人脑多模态信息处理机制,对于厘清多模态信息处理的关键机制、准确把握该领域的前沿进展、启发后续研究非常关键。
听觉和视觉负责人类近90%的信息加工。高效处理同时接收的视觉、听觉信号是个体与环境交互的关键途径,这种功能被称为视听感知(Audiovisual perception)[3]。在视听感知过程中,个体通过整合、分离纷繁复杂的视觉和听觉信号,形成统一、稳定和连贯的知觉体验,建构抽象的内在表征[4-6]。具体而言,视听整合(Audiovisual integration)指从视听信号中提取共同特征,提高信号处理效率;视听分离(Audiovisual segregation)指将无关的视听信号进行区分,聚焦当前任务关注的信号。简而言之,视听感知是在整合与分离间权衡最优选择,整合关联信号,分离无关信号[7]。
从认知系统信息加工角度看,视听感知贯穿个体认知加工的多个方面,是视听信号物理特性、感知系统加工特点和其他认知功能复杂交互的产物,支撑着时间感知、空间定位、客体识别、场景记忆、语言交流等日常功能[8-10]。在信号物理特性层面,视听信号信噪比直接影响知觉系统整合信号时赋予它们的权重[11]。视听信号间的关系在很大程度上决定了个体是否将二者进行整合或分离[12-13],其中既包括自下而上的物理属性关系,如时间同步性(Temporal synchrony)[14-15]、空间一致性(Spatial congruency)[16]和特征对应性(Feature correspondence)[17],也包括自上而下的抽象关系,如语义一致性(Semantic congruency) [18]。此外,注意[19]、预期[20-21]和先验知识[22]等也会从不同层面调节视听感知。例如,注意分配调节视听感知中哪个模态为主导,即知觉系统更依赖哪个模态的信号[23],客体注意与跨模态特征捆绑密切相关[24];对先验知识的预期影响视听信号的整合[25],如基于先验知识,狗的画面和狗的声音属于同一客体,更倾向于将它们整合[26]。
就信息处理的大脑基础而言,视听感知涉及复杂、层级大脑环路。不同感觉模态偏好的神经元分别对单模态、多模态信号产生响应。由神经元集群构成的感觉特异性、多感觉的脑区在更大尺度上处理复杂的多模态信号,超模态脑区表征抽象信息并经反馈通路调节感觉脑区活动,共同构成了人脑视听信息加工通路。在视听加工通路中,通过跨模态相位重置、神经节律同步化、预期编码机制、最大似然估计(Maximum likelihood estimation, MLE)、贝叶斯因果推断模型[27]等潜在计算模型,大脑在多个层面高效整合、分离视听信号,逐步实现从模态特异的光学、声学信号,到超越模态的、抽象的心智表征的转化。因此,视听感知是贯穿心智加工的基本功能,也是复杂、多层级的大脑通路交互的过程。
解析人脑视听感知的认知神经基础,揭示视听感知系统的运作机理,以及其与记忆、语言、学习的复杂交互机制,对于揭示人脑信息处理的基本规律、大脑功能区域组织的关键原则有重要理论意义。此外,人类的多模态信号处理系统,实现了从模态特异物理信号到超模态抽象概念表征的编码,以及基于超模态表征到模态特异物理信号的生成,为人工智能系统的开发提供了重要启示。通过借鉴人脑多模态信息加工环路的架构、多模态信号处理的核心原则,有望推动多模态人工智能系统(Artificial intelligence, AI)的发展,推动“以人为中心”人工智能的实现。
下文将从神经元、功能区和大脑通路三个层面对视听感知的认知神经机制展开评述。首先,在神经元层面,系统回顾了大脑中广泛存在的、多感觉神经元的活动模式与原则;其次,聚焦感觉特异性脑区的跨模态加工机制;再次,介绍了以多模态整合脑区为核心的视听感知大脑通路;最后,讨论了人脑视听信息处理机制对开发、完善多模态人工智能系统的启示。
二. 多模态神经元的视听感知特性
人类多感觉模态信息处理依赖大脑广泛分布的多感觉神经元(Multisensory neurons),它们对多种感觉输入产生响应[28-30],有多样的多模态整合活动特性。部分神经元对听觉和视觉信号均产生响应;还有神经元对特定模态(如视觉)的信号产生响应,但其响应强度受另一个模态(如听觉)的信号调节[29]。具体来讲,不同的多模态神经元对视听信号有不同的响应方式:其一是对视听信号的响应高于对视觉、听觉信号响应之和(超级叠加效应,Super-additive effect);其二是对视听信号的响应与对视觉、听觉信号响应之和相当(叠加效应,Additive effect);其三是对视听信号的响应低于对视觉、听觉信号响应之和,但高于对单一模态信号的响应(次叠加效应,Sub-additive effect); 其四是对视听信号的响应低于对单一模态信号的响应(抑制效应,Depression effect)。多样化的多模态响应特性,赋予了大脑整合多模态信号较大的灵活性[14, 31-32]。
更重要的是,多感觉神经元的响应特性与视听信号的时空关系和信号强度密切相关。例如,多感觉神经元对同一空间方位的视听信号的响应大于对单模态信号的响应,并且空间方位越临近的视听信号所引发的响应越强,这与神经元对不同模态刺激感受野的重叠有关,被称为空间原则(Spatial principle)。在时间维度,多感觉神经元对时间上同步的视听信号表现出更强的响应,被称为时间原则(Temporal principle)。此外,多感觉神经元对强度较弱的视听信号表现出更大的视听增强效应[33],即相比于单模态信号表现出更强的响应增益,被称为逆反应原则(Inverse effectiveness)[31-32]。这些原则不仅调控多模态神经元的活动特性,也在脑区、知觉、行为层面影响着人的多感觉信号处理表现[34-35]。
不同功能特性的多模态神经元以拓扑组织的方式集聚为多感觉模态脑区[36],其对多模态信号的响应模式也是脑成像研究中定义多感觉脑区的参照标准[37]。某个脑区对多模态信号的响应强度显著大于对单一模态信号响应强度之和,即符合超级叠加效应(标准一);小于对两个模态响应强度之和,但大于对单个模态信号响应的最大强度(标准二);对视觉和听觉模态信号的响应均大于特定基线(标准三)。值得注意的是,超级叠加效应并非多感觉神经元最常见的响应模式。因此,功能磁共振成像(Functional magnetic resonance imaging, fMRI)研究往往根据“标准三”定义多感觉脑区,根据“标准二”判别多感觉脑区是否表现出视听增强效应[37-38]。
简而言之,人类多感觉模态信息处理能力与大脑中广泛存在的多感觉神经元密不可分。这些神经元具有灵活多样的响应模式,基于多模态信号的时空关系和信号强度对信号进行整合。多感觉神经元以拓扑组织的方式集聚为多感觉区域,位于如上丘(Superior colliculus,SC)、后侧颞上沟(Posterior superior temporal sulcus,pSTS)、外侧枕叶(Lateral occipital cortex,LOC)和顶内沟(Intraparietal sulcus,IPS)等的多模态加工区[31, 39],遵循与多感觉神经元相似的响应模式和活动原则。除此之外,传统上认为的“感觉特异脑区”也存在具有多模态特性的神经元,支撑大脑信号加工初期的跨模态信息整合[40-41]。
三. 感觉特异脑区的视听加工通路
多模态信息处理并非多感觉模态脑区的独有功能,在信号加工初期的感觉特异皮层,例如初级的视觉皮层、听觉皮层、体感皮层等也具有多模态信号加工特性[16, 40, 42-43],表现为跨模态间神经活动的相互调制,例如相位重置、节律同步化等。因此,甚至有观点认为大脑皮层本质上是由多模态整合特性主导[44]。
一 初级皮层的跨模态加工通路
初级皮层的视听跨模态加工通过何种大脑通路来实现是该领域研究的重要争议之一。有观点认为,初级皮层之间的直接连接通路是早期跨模态加工的基础。例如,初级听觉皮层的神经活动直接调制初级视觉皮层的活动。与此一致,在猫[32]、猴子[45]和人类大脑[16, 40]中,都发现了初级感觉皮层间的解剖连接。fMRI表征相似性分析(Representational similarity analysis,RSA)发现,初级听觉皮层和视觉皮层之间存在共享情绪信息表征[46]。还有观点认为,初级皮层的跨模态加工经由多感觉皮层实现,即信号从特定初级皮层传递到多感觉皮层,再经由此处反馈调制另一初级皮层的活动[47-48]。此外,初级皮层间的直接通路可能与低水平刺激特征(如时间、空间、运动朝向等)的整合更加密切[47],而经由多模态脑区的反馈通路可能与更复杂的多模态信息(如情绪、语音等)整合相关[49]。
二 初级皮层的跨模态加工机制
初级皮层之间如何实现跨模态加工也是该领域关注的核心问题。现有证据表明,至少存在两种早期的跨模态信息整合机制:神经振荡的相位重置(Phase resetting)和神经节律同步化(Neural entrainment)[50]。
神经振荡的相位重置是指某一感觉皮层神经振荡的相位被其他感觉皮层的神经活动重置,使得被重置的感觉区活动表现出特定的活动相位[48, 51-52]。例如,当同时呈现体感刺激和听觉刺激时,体感刺激会先于听觉刺激传导至初级听觉皮层,并对听觉皮层神经元振荡的相位产生调制,使其对随后特定觉输入的响应增强[16, 53-55]。在听觉语音信息产生之前,视觉信号引发颞上回后部(Posterior superior temporal gyrus,pSTG)的gamma活动增强,颞上回中部(Middle temporal gyrus, mSTG)的beta活动下降;在听觉语音信息呈现之后,视觉信号引发mSTG和pSTG的theta频段活动下降,反映了前馈听觉加工的下降[56]。听觉区可在delta和theta频段(2—7Hz)追踪言语信号的动态变化,匹配的视听信息引发更强的theta活动[57-58]。神经振荡的相位重置与个体的感知密切相关。例如,听觉刺激对视觉区α振荡的相位重置与声音诱发闪光错觉存在关联[59]。颞叶后部和枕叶的theta活动可预测是视觉信号还是听觉信号主导视听感知加工[60]。
神经节律同步化是指神经振荡的节律逐渐与刺激的节律同步,在视听加工中则表现为视觉区和听觉区神经振荡相位与视听输入的相位耦合[48, 50]。相位重置强调瞬时的跨通道刺激对神经振荡的相位调制,节律同步则侧重在有节律的跨通道刺激中神经振荡的相位耦合。例如,当视觉闪光和听觉声音强度的变化一致时,视觉输入能够调制听觉皮层的活动,使得听觉皮层对声音刺激的表征增强,且这种增强能够泛化到这一声音的其他维度[24, 61-62]。在视听语音感知中,听觉皮层的神经元集群能够追踪视觉语音的时间动态性,通过对神经振荡相位的调整形成对视觉语音流的表征[62]。
基于皮层间神经振荡研究发现,视听感知可能涉及至少三种加工机制[63]:前馈-反馈加工(Feedforward-feedback processing)、自上而下的跨通道注意调控(Attention modulation)和预测编码(Predictive coding)。初级皮层与高级皮层的前馈-反馈加工强调视觉和听觉信息在感觉特异脑区加工后,通过前馈机制传递到多感觉区域进行整合(gamma频段,>30Hz),一致的视听信号再经由特定通路反馈至感觉特异脑区(beta频段,13—30Hz),不同脑区的加工通过delta(3—4Hz)和theta(4—8Hz)频段相位重置而相互影响。跨通道注意调控主要反映为注意调节多感觉皮层和感觉特异皮层的兴奋性(alpha和beta频段的活动),以及从初级皮层到前额多个脑区的功能连通性(theta频段)。预期编码机制强调特定感觉通道加工形成的预期信息动态影响其余感觉通道加工。三种机制基于任务需求和刺激属性,动态参与视听信号处理。
简而言之,在不同模态的信号到达初级皮层时,已经存在跨模态的信息处理。经由初级皮层间的直接通路、多模态皮层(或皮层下核团)反馈通路,通过神经振荡相位重置和神经节律同步化等操作,实现在信息处理早期的跨感觉模态加工调制,提高对感觉信号探测、追踪、识别的效率。除此之外,人脑广泛分布的多模态皮层也深度参与视听信息处理,被视为大脑多模态信息整合网络的核心。
四. 以多模态皮层为核心的视听感知大脑通路
除发生于初级皮层间的跨模态调制外,广泛分布的多模态脑区在更高的信息加工水平上支撑着多模态信息的处理。这些脑区的活动与特定的多模态感知功能间存在密切关联[31],例如,LOC[64]和IPS[65]参与视触觉信息处理,pSTS则在视听语言、交流信息处理中发挥关键作用[38]。下文将聚焦pSTS这一关键视听整合脑区,讨论pSTS多感觉区功能组织、活动特性,以及以该脑区为核心的视听加工脑网络如何处理多模态信号。
一 后侧颞上沟多感觉区功能组织
pSTS是位于大脑双侧颞上回和颞中回之间的一条较长的脑沟,其后部靠近枕叶和顶叶的皮层区域。pSTS存在对多模态信号响应的神经元[66],表现出多模态信号整合特性。pSTS多感觉区的神经元遵循拓扑分布,功能相似的神经元在空间上更加聚集,功能不同的神经元在空间上距离较远[66],存在具有不同感觉模态偏好的功能亚区[38, 67]。
pSTS多模态脑区功能组织有较大的个体差异,脑区位置有较大的个体间变异,其内部感觉亚区分布也存在个体差异[34, 38, 67]。有研究者对不同实验参与者的pSTS进行了定位,发现有些被试的pSTS只出现在单侧大脑,而有些被试的pSTS则出现在双侧大脑[34],不同猴子pSTS内部神经元组织模式也存在较大差异[66]。这种较大的功能分布差异凸显了考察pSTS多模态信息处理特性时,基于个体水平功能定位的必要性。
二 后侧颞上沟多感觉区功能活动特性
pSTS多感觉区在视听整合中的具体功能是多模态研究的重要主题之一。该区域及其解剖上的临近区域参与多种复杂认知功能[68-69],例如,视听语音[70]、情绪[71]、物体[35, 38]、个体身份[72]、面孔感知[73-75]、生物运动感知[76-77]、心理理论[78-80]和社交意图[81]。
在上述功能中,关注较多的是对动态视听交流信号,特别是面孔、人声信号的处理[82]。例如,pSTS对所有的面孔、人声和语音的激活显著强于对手、音乐和物体的激活[73],对语音和面孔发声运动不一致信号(例如,听觉为音节ga的声音,视觉为音节ba的发声运动画面)的激活强于对语音和面孔发声运动一致信号(例如,听觉为音节ba的声音,视觉为音节ba的发声运动画面)的激活。但是,pSTS具体处理面孔-声音信号的哪些信息仍存争议。
比较集中的证据显示,pSTS参与对视听语言信号的处理[70],其中最直接的证据是pSTS与McGurk错觉之间的因果关系[83-85]。McGurk效应是一种经典的视听语音错觉,它是指当视觉信号为音节ga的发声运动画面,而听觉信号为音节ba时,个体往往将声音信号知觉为音节da[86-87]。相比呈现一致视听信号,呈现错觉信号时的pSTS激活更强[88];相比未知觉到错觉,被试知觉到错觉时的pSTS激活更强[89];无论在儿童[89]还是成年人[90-91]中,错觉强的被试比错觉弱的被试pSTS激活更强[92]。采用经颅磁刺激(Transcranial magnetic stimulation,TMS)抑制pSTS的活动,会降低个体的错觉体验[83];损伤左侧pSTS后,个体依旧能够知觉到McGurk错觉,但其右侧pSTS激活比对照组更强[92]。脑磁图(Magnetoencephalography,MEG)研究发现,与视听一致信号相比,在加工早期(100ms)STS对错觉和视听不一致信号均表现出较强响应,并可后解码出错觉刺激(170ms)与视听不一致刺激(380ms)[93]。
然而,还有研究证据提示,pSTS可能存在具有不同多模态加工特性或具有一定功能灵活性的亚区。例如,pSTS对视听语音(或工具)信号的激活均强于单通道语音(或工具)信号[38],存在多个独立区域分别加工视听语音、视听工具[35]和视听一致性[69]。从pSTS前部到后部分别表现出对视听身份、情绪、语音内容的敏感性梯度变化[73]。然而,动物研究显示,猴子的pSTS对猴子面孔和声音、其他动物面孔和声音、人造光点和声音均存在响应,不同的神经元偏好不同的信号类型,但未表现出基于刺激的拓扑分布模式[66]。因此,pSTS多感觉区在视听处理中的具体功能仍需更系统、深入地考察。
三 后侧颞上沟为核心的视听信息加工网络
pSTS位于颞叶、枕叶、顶叶的相邻区,这些脑区有大量解剖和功能连接,其如何构成人脑视听信息处理通路备受关注。现有研究显示,这一通路至少涉及两个方面:pSTS与感觉特异性脑区组成的感觉信息加工网络,以及与其他认知功能相关的脑区组成的认知经验调控网络。
pSTS与感觉特异性脑区(如初级视觉区、听觉区)组成感觉信息加工网络。有研究者通过给听觉刺激添加掩蔽噪音和模糊视觉刺激来操纵两个通道语音信息的可靠性。结果显示,当听觉通道更可靠时,pSTS和听觉联合区的功能连接增强;当视觉通道更可靠时,pSTS和视觉纹状区的功能连接增强[90]。据此,研究者提出,外侧视觉纹状区加工说话者面孔运动携带的运动信息,形成视觉语音表征;听觉联合区加工形成听觉语音表征所需的复杂听觉信息;pSTS多感觉区域整合视觉和听觉语音表征产生语音知觉[70, 94]。还有研究者采用适应性范式,考察被试对McGurk刺激和非McGurk视听不一致刺激的响应。结果发现,包括初级听觉皮层、初级视觉皮层、STS、脑岛和IPS在内的广泛的脑区组成的大脑网络与视听整合错觉的感知有关[95]。
pSTS与其他认知功能相关的脑区,如额下回(Inferior frontal gyrus, IFG)、前扣带回(Anterior cingulate cortex, ACC)和前额叶(Prefrontal cortex,PFC)联结组成认知经验调控网络[96-97]。Gau等人通过操纵情境的一致性发现,IFG在视听整合和分离中发挥重要作用,当被试分离视听信息时,IFS激活增强[21]。Cao等人采用MEG发现了从初级皮层到颞叶-顶叶交界处,再到额叶的动态视听加工网络;即早期分离的单感觉表征在颞叶-顶叶区域发生融合,在额叶基于先验知识进行因果推断,产生最终的知觉输出[98]。Erickson等人对22项视听整合研究进行了元分析。结果显示,不一致视听加工涉及双侧后部STS、双侧IFG和ACC等;一致视听加工则涉及感觉特异脑区,如双侧颞中回、双侧梭状回、左下枕叶等脑区,两种加工仅在左后侧STS有少量的重叠。研究者认为,一致视听信息的整合更多涉及不同感觉特异区域的整合,而不一致视听信息的分离则更多涉及对视听信息的比较、冲突解决和决策[96]。
还有研究者从更广的视角出发,指出STS是社交信息加工的核心区域[70, 79],分别涉及语言(前部)、声音(中部)、面孔(中后部)、生物运动(后部)和心理理论(后部背侧)等多种社交的功能。Pitcher和Ungerleider提出,以STS为核心的视觉加工第三通路(社交通路)视觉从初级视觉区出发,经MT(运动加工)、pSTS(不同通道动态线索整合)到aSTS(社交意图表征),实现从感觉信号到社交意义的加工与表征[99]。
四 后侧颞上沟为核心的视听因果推断机制
另一个关键的问题是,以pSTS为核心的视听信息结构网络,通过何种计算原理实现视听信号处理?近年来,多项研究证据提示,多模态的层级贝叶斯推断过程,也被称为贝叶斯因果推断(Bayesian causal inference, BCI)模型,在其中发挥重要作用[7, 100-102]。该模型的提出者认为,视听感知涉及将输入的视听信号与关于信号的先验知识结合并进行知觉推断的过程。具体而言,BCI模型对视听感知过程提出了两个基本假设:其一,视听感知过程涉及从混杂外界噪音的视觉和听觉信号推断环境信息[7];其二,视听推断的过程需将感知估计与关于信号的先验结合,其中最重要的是关于信号来源的知识。个体可根据视听信号间的跨模态对应、语义一致性等衡量视听信号是否属于同一来源,进而整合同一来源的信号,分离不同来源信号[103]。因此,视听感知的结果是结合感觉估计和先验知识,在整合和分离选择中形成的最优推断。这一模型在视听时间、空间、言语等任务中,均表现出较好的解释力[7]。
在神经层面,研究者也发现了与BCI相对应的层级大脑加工通路。初级皮层主要涉及模态特异的、相对独立的信号估计,位于pSTS、IPS的多模态区表现出对多模态信号的整合效应,顶叶和前额脑区与因果关系推断密切相关。例如,在视听空间定位任务中[102],BCI推断与多个层级大脑区域活动相关,在最低层级(听觉、视觉区域),位置信息是基于两个信号来自独立源头的假设来表示的(即分离);在中间层级(即IPS多模态区),位置信息是基于两个信号来自共同源头的假设来估计的(即强制整合);在最高层级(前顶内沟),考虑了关于世界因果结构的不确定性,并根据贝叶斯因果推断来整合感觉信号。此外,针对视听时间序列感知研究也发现 [98],视听信号在加工的早期独立表征于模态特异脑区,随后在颞叶-顶叶区域形成多模态融合表征,最后在顶叶、额叶产生对视听因果关系的推断。尽管因实验任务不同,具体脑区位置有一定差异,但上述研究均较为一致支持大脑中存在层级的视听信息处理网络。
简而言之,以多模态脑区为核心的多模态信息加工网络,在更复杂视听信息处理中发挥重要作用。尽管大量研究较为一致地界定了多感觉模态脑区及其网络连接,但是这些脑区的具体功能特性、计算操作仍存争议。BCI模型从计算视角,为澄清多模态加工网络中主要脑区的计算操作提供了重要见解。
五. 人类多感觉整合机制启发多模态人工智能开发
人类高效、灵活、稳健的多感觉模态信息整合机制对于多模态AI的开发有重要启发价值。多模态AI是指可处理多种模态数据(如图像、音频)的机器学习模型(如LLaVa、ImageBind、SeamlessM4T和GPT4等)[104-107]。多模态AI在感知、理解和交流方面相比单模态AI有巨大优势,在机器人开发、医疗保健、自动驾驶等领域有广泛应用前景[108]。对于人类而言,多模态信息整合是“默认”设置;但对于多模态AI系统而言,利用不同模态信号优势处理、整合多模态信号,面临诸多挑战。
如何高效对齐不同模态输入的信号?以视听感知为例,多模态AI处理的图像和音频信号具有不同的数据结构和格式,准确地将图像像素数据和音频数字信号对齐并同步进而提取信号间的关系,仍然是较大的挑战。尽管跨模态嵌入和注意力机制等技术可在一定程度上解决该问题,但与人类多模态信号对齐功能仍有较大差距[109-110]。对于人类而言,面对环境中输入的光信号和声波信号,通过视网膜感光细胞和耳蜗毛细胞将其转换为神经元动作电位信号,并沿着相对独立的神经通路高速传导。这些信号经由皮层下核团(如丘脑)、感觉特异脑区、多模态脑区,在时空分布、知觉特征、语义概念等多层级[111-115],通过跨模态神经节律同步化、神经振荡相位重置等机制[116-117]实现跨模态信号对齐。此外,跨模态的注意调控、预期编码机制通过前馈-反馈通路,进一步提高信号对齐效率与精确性[63]。
如何将对齐的多模态信号融合为统一的超模态信息?这也是多模态AI面临的挑战之一。与人类相似,多模态AI也存在多阶段数据融合,例如多模态数据特征在模型输入阶段融合(早期融合)、多模态数据在独立的特征学习阶段后融合(中期融合),以及对各模态独立生成的输出进行融合(晚期融合)[118-119]。然而,在融合中如何调整不同模态信息的权重,在保证各模态信息独特性的同时降低信息的冗余性仍有待解决。对于人类而言,视听信号整合过程涉及在信号整合与分离间的灵活切换。一方面,在信号层面,人脑对各模态信号形成具有不同精确性(或可靠性)的感知估计,通过加权的方式,形成比单一模态更精确的多模态估计,如MLE模型[120]。这种基于信号精确性的加权方式,使得大脑在面对具有较大噪音的信号时,能够通过赋予相对精确的通道较高权重,实现感知估计和信号整合。另一方面,通过利用关于视听信号关系的先验知识,自下而上动态调节信号整合的程度。例如,在贝叶斯因果推断模型中,个体整合同一来源的视听信号,分离不同来源的视听信号[101]。从感觉特异皮层到多感觉皮层,再到顶下皮层/前额皮层的神经信号分别与信号分离、信号整合、因果推断等过程密切相关[103]。
如何实现跨模态之间的泛化与迁移?除信号对齐、融合之外,如何通过在特定模态中预训练模型并将其微调,以适应其他模态?这也是多模态AI需要解决的问题[121-122]。人类具有优异的跨模态迁移能力,例如, 视觉学习的语法规则可迁移到听觉语言学习中[123]。跨模态迁移能力,使人在失去特定感觉模态后(如听觉)仍然可通过完好感觉模态实现代偿,表现出优异的多模态稳健性[124-125]。这种跨模态的迁移能力源于以下两方面。其一是多模态学习过程,即通过具有一定关联的多模态信号,学习输入信息的超模态特征,并形成多条通达超模态表征的通路[9]。其二是神经可塑性,即神经元功能可根据外界环境、经验或神经网络的变化进行调整和适应。例如,失去听觉后,听觉区神经元对视觉信号产生响应[125]。
简而言之,经过上万年生物进化和文化塑造,人类发展出了复杂、精妙的多感觉模态信号处理机制,实现了从模态特异物理信号到超模态抽象概念表征的编码,以及基于超模态表征到模态特异物理信号的生成。这种高效、稳健的多模态信号处理能力远胜于现有的多模态AI,揭示了人脑多模态信号整合的计算原则、生物架构,对于多模态AI的开发具有巨大启发价值。
六. 总结
尽管经典认知科学、神经科学研究倾向于独立解析各感觉系统的运作机理,但人类感官系统的多模态设计与人脑中广泛存在的多模态信息处理机制揭示,多感觉模态信息处理的原则是系统理解心智运作机制、人与环境交互规律的关键路径。近半个世纪来,神经科学、认知科学研究从不同问题视角出发,揭示了以多感觉神经元为基础,从初级皮层间的跨模态调制,到多感觉皮层的信息整合,再到更高级皮层抽象表征的层级多模态信息处理网络。在层级多模态信息处理网络中,人脑通过基于最大似然估计、贝叶斯因果推断、跨模态预期编码等计算,实现了灵活、准确、稳健的时间感知、空间定位、物体识别、言语理解、社会交互等功能,发展为地球上最为智能、精妙、优化的多模态信号处理系统。
这些研究发现令人振奋,但也引发诸多待解之谜。首先,如何有效统合不同尺度(神经元、特定脑区、大脑通路)的研究发现?例如,神经元所采用的视听信号整合机制是否以及如何解释初级皮层间的跨模态信号调制?其次,如何有效统合不同理论模型?例如,跨模态预期编码模型中自上而下的预期信息与因果推断模型中自上而下的先验知识,是否可由更通用的模型进行统合?再次,人脑的层级多模态信息整合系统表现出何种毕生发展规律?神经发育疾病、感觉老化或丧失如何影响大脑多模态信息处理系统以及人的多模态感知能力?最后,哪些人脑多模态信息加工结构和计算原理可迁移到多模态AI的搭建,促进可感同身受、高效交流的多模态人工智能系统开发?这些问题的解答,有待深度融合多学科研究视角,综合应用认知科学经典范式、神经科学技术手段、计算机科学前沿方法,建立从神经元、功能柱,到大脑皮层、通路,最终到人与人工智能的认知、行为表现的系统理论与计算模型。
-
[1] JAMES W. The principles of psychology[M]. New York: Henry Holt and Company, 1890: 15-27.
[2] SPENCE C. Multisensory perception[J]. Stevens' handbook of experimental psychology and cognitive neuroscience, 2018, 2: 1-56.
[3] BARTH F G. Sensory perception: adaptation to lifestyle and habitat[M]//Sensory perception: mind and matter. Vienna: Springer Vienna, 2012: 89-107. [4] COLAVITA F B. Human sensory dominance[J]. Perception and psychophysics, 1974, 16(2): 409-412. doi: 10.3758/BF03203962
[5] ERNST M O, BÜLTHOFF H H. Merging the senses into a robust percept[J]. Trends in cognitive sciences, 2004, 8(4): 162-169. doi: 10.1016/j.tics.2004.02.002
[6] 文小辉, 李国强, 刘强. 视听整合加工及其神经机制[J]. 心理科学进展, 2011, 19(7): 976-982. [7] SHAMS L, BEIERHOLM U. Bayesian causal inference: a unifying neuroscience theory[J]. Neuroscience and biobehavioral reviews, 2022, 137: 104619. doi: 10.1016/j.neubiorev.2022.104619
[8] SHAMS L, KIM R. Bayesian priors and multisensory integration at multiple levels of visual processing: reply to comments on "crossmodal influences on visual perception"[J]. Physics of life reviews, 2010, 7(3): 295-298. doi: 10.1016/j.plrev.2010.07.006
[9] SHAMS L, BEIERHOLM U R. Humans'multisensory perception, from integration to segregation, follows bayesian inference: sensory cue integration[M]. Oxford: Oxford University Press, 2011: 251-262.
[10] 康冠兰, 罗霄骁. 视听跨通道信息的整合与冲突控制[J]. 心理科学, 2020 (5): 1072-1078. [11] ANGELAKI D E, GU Y, DEANGELIS G C. Multisensory integration: psychophysics, neurophysiology, and computation[J]. Current opinion in neurobiology, 2009, 19(4): 452-458. doi: 10.1016/j.conb.2009.06.008
[12] WELCH R B, WARREN D H. Immediate perceptual response to intersensory discrepancy[J]. Psychological bulletin, 1980, 88(3): 638-667. doi: 10.1037/0033-2909.88.3.638
[13] MURRAY M M, LEWKOWICZ D J, AMEDI A, et al. Multisensory processes: a balancing act across the lifespan[J]. Trends in neurosciences, 2016, 39(8): 567-579. doi: 10.1016/j.tins.2016.05.003
[14] HOLMES N P, SPENCE C. Multisensory integration: space, time and superadditivity[J]. Currentbiology, 2005, 15(18): R762-R764. http://www.ncbi.nlm.nih.gov/pubmed/15988597
[15] VROOMEN J, KEETELS M. Perception of intersensory synchrony: a tutorial review[J]. Attention, perception, and psychophysics, 2010, 72(4): 871-884. doi: 10.3758/APP.72.4.871
[16] MURRAY M M, THELEN A, THUT G, et al. The multisensory function of the human primary visual cortex[J]. Neuropsychologia, 2016, 83: 161-169. doi: 10.1016/j.neuropsychologia.2015.08.011
[17] SPENCE C, SATHIAN K. Audiovisual crossmodal correspondences: behavioral consequences and neural underpinnings[M]//Multisensory perception: from laboratory to clinic. Amsterdam: Elsevier/Academic Press, 2020: 239-258. [18] CHEN Y C, SPENCE C. Crossmodal semantic priming by naturalistic sounds and spoken words enhances visual sensitivity[J]. Journal of experimental psychology: human perception and performance, 2011, 37(5): 1554-1568. doi: 10.1037/a0024329
[19] TALSMA D, SENKOWSKI D, SOTO-FARACO S, et al. The multifaceted interplay between attention and multisensory integration[J]. Trends in cognitive sciences, 2010, 14(9): 400-410. doi: 10.1016/j.tics.2010.06.008
[20] DEROY O, SPENCE C, NOPPENEY U. Metacognition in multisensory perception[J]. Trends in cognitive sciences, 2016, 20(10): 736-747. doi: 10.1016/j.tics.2016.08.006
[21] GAU R, NOPPENEY U. How prior expectations shape multisensory perception[J]. Neuroimage, 2016, 124: 876-886. doi: 10.1016/j.neuroimage.2015.09.045
[22] CHEN Y C, SPENCE C. Assessing the role of the 'unity assumption' on multisensory integration: a review[J]. Frontiers in psychology, 2017, 8: 445. doi: 10.3389/fpsyg.2017.00445/pdf
[23] CANON L K. Intermodality inconsistency of input and directed attention as determinants of the nature of adaptation[J]. Journal of experimental psychology, 1970, 84(1): 141-147. doi: 10.1037/h0028925
[24] BIZLEY J K, MADDOX R K, LEE A K C. Defining auditory-visual objects: behavioral tests and physiological mechanisms[J]. Trends in neurosciences, 2016, 39(2): 74-85. doi: 10.1016/j.tins.2015.12.007
[25] WANG A, SANG H, HE J, et al. Effects of cognitive expectation on sound-induced flash illusion[J]. Perception, 2019, 48(12): 1214-1234. doi: 10.1177/0301006619885796
[26] CHEN Y C, SPENCE C. When hearing the bark helps to identify the dog: semantically-congruent sounds modulate the identification of masked pictures[J]. Cognition, 2010, 114(3): 389-404. doi: 10.1016/j.cognition.2009.10.012
[27] SHAMS L, BEIERHOLM U R. Causal inference in perception[J]. Trends in cognitive sciences, 2010, 14(9): 425-432. doi: 10.1016/j.tics.2010.07.001
[28] 俞黎平. 猫上丘神经元经验—依赖性多感觉整合可塑性[D]. 上海: 华东师范大学, 2010: 73-80. [29] MURRAY M M, WALLACE M T. Arebimodal neurons the same throughout the brain? [M]// The neural bases of multisensory processes. Boca Raton, FL: CRC Press/Taylor and Francis, 2011: 48-62.
[30] CLEMO H R, KENISTON L P, MEREDITH M A. Structural basis of multisensory processing[M]//The neural bases of multisensory processes. Boca Raton, FL: CRC Press/Taylor and Francis, 2012: 1-12.
[31] STEIN B E, STANFORD T R. Multisensory integration: current issues from the perspective of the single neuron[J]. Nature reviews neuroscience, 2008, 9(4): 255-266. doi: 10.1038/nrn2331
[32] STEIN B E, ROWLAND B A. Neural development of multisensory integration[M]//Multisensory perception. Winston-Salem, NC: Academic Press, 2020: 57-87.
[33] CHOI I, LEE J Y, LEE S H. Bottom-up and top-down modulation of multisensory integration[J]. Current opinion in neurobiology, 2018, 52: 115-122. doi: 10.1016/j.conb.2018.05.002
[34] GENTILE F, VAN ATTEVELDT N, DE MARTINO F, et al. Approaching the ground truth: revealing the functional organization of human multisensory STC using ultra-high field fMRI[J]. Journal of neuroscience, 2017, 37(42): 10104-10113. doi: 10.1523/JNEUROSCI.0146-17.2017
[35] STEVENSON R A, JAMES T W. Audiovisual integration in human superior temporal sulcus: inverse effectiveness and the neural processing of speech and object recognition[J]. Neuroimage, 2009, 44(3): 1210-1223. doi: 10.1016/j.neuroimage.2008.09.034
[36] BEAUCHAMP M S, NATH A R, PASALAR S. FMRI-guided transcranial magnetic stimulation reveals that the superior temporal sulcus is a cortical locus of the McGurk effect[J]. Journal of neuroscience, 2010, 30(7): 2414-2417. doi: 10.1523/JNEUROSCI.4865-09.2010
[37] NOPPENEY U. Characterization of multisensory integration with fMRI: experimental design, statistical analysis, and interpretation[M]//The neural bases of multisensory processes. Boca Raton, FL: CRC Press/Taylor and Francis, 2012: 302-322.
[38] BEAUCHAMP M S, ARGALL B D, BODURKA J, et al. Unraveling multisensory integration: patchy organization within human STS multisensory cortex[J]. Nature neuroscience, 2004, 7(11): 1190-1192. doi: 10.1038/nn1333
[39] 刘强. 多感觉整合脑机制研究[D]. 重庆: 西南大学, 2010: 4-32. [40] MARTUZZI R, MURRAY M M, MICHEL C M, et al. Multisensory interactions within human primary cortices revealed by BOLD dynamics[J]. Cerebral cortex, 2007, 17(7): 1672-1679. doi: 10.1093/cercor/bhl077
[41] LOMBER S G, MEREDITH M A, KRAL A. Cross-modal plasticity in specific auditory cortices underlies visual compensations in the deaf[J]. Nature neuroscience, 2010, 13(11): 1421-1427. doi: 10.1038/nn.2653
[42] ALAIS D, NEWELL F, MAMASSIAN P. Multisensory processing in review: from physiology to behaviour[J]. Seeing and perceiving, 2010, 23(1): 3-38. doi: 10.1163/187847510X488603
[43] DRIVER J, NOESSELT T. Multisensory interplay reveals crossmodal influences on 'sensory-specific'brain regions, neural responses, and judgments[J]. Neuron, 2008, 57(1): 11-23. doi: 10.1016/j.neuron.2007.12.013
[44] GHAZANFAR A A, SCHROEDER C E. Is neocortex essentially multisensory?[J]. Trends in cognitive sciences, 2006, 10(6): 278-285. doi: 10.1016/j.tics.2006.04.008
[45] ROCKLAND K S, OJIMA H. Multisensory convergence in calcarine visual areas in macaque monkey[J]. International journal of psychophysiology, 2003, 50(1-2): 19-26. doi: 10.1016/S0167-8760(03)00121-1
[46] SIEVERS B, PARKINSON C, KOHLER P J, et al. Visual and auditory brain areas share a representational structure that supports emotion perception[J]. Current biology, 2021, 31(23): 5192-5203. doi: 10.1016/j.cub.2021.09.043
[47] CAPPE C, ROUILLER E M, BARONE P. Cortical and thalamic pathways for multisensory and sensorimotor interplay[M]//The neural bases of multisensory processes. Boca Raton, FL: CRC Press/Taylor and Francis, 2012: 12-28.
[48] BAUER A K R, DEBENER S, NOBRE A C. Synchronisation of neural oscillations and cross-modal influences[J]. Trends in cognitive sciences, 2020, 24(6): 481-495. doi: 10.1016/j.tics.2020.03.003
[49] VETTER P, BOLA Ł, REICH L, et al. Decoding natural sounds in early "visual" cortex of congenitally blind individuals[J]. Current biology, 2020, 30(15): 3039-3044. doi: 10.1016/j.cub.2020.05.071
[50] SENKOWSKI D, ENGEL A K. Multi-timescale neural dynamics for multisensory integration[J]. Nature reviews neuroscience, 2024, 25(9): 625-642. doi: 10.1038/s41583-024-00845-7
[51] SENKOWSKI D, SCHNEIDER T R, FOXE J J, et al. Crossmodal binding through neural coherence: implications for multisensory processing[J]. Trends in neurosciences, 2008, 31(8): 401-409. doi: 10.1016/j.tins.2008.05.002
[52] 张雪, 袁佩君, 王莹, 等. 知觉相关的神经振荡鄄外界节律同步化现象[J]. Progress inbiochemistry and biophysics, 2016, 43(4): 308-315. [53] WATKINS S, SHAMS L, JOSEPHS O, et al. Activity in human V1 follows multisensory perception[J]. Neuroimage, 2007, 37(2): 572-578. doi: 10.1016/j.neuroimage.2007.05.027
[54] GETZMANN S, LEWALD J. Modulation of auditory motion processing by visual motion[J]. Journal of psychophysiology, 2014, 28: 82-100. doi: 10.1027/0269-8803/a000113
[55] CECERE R, REES G, ROMEI V. Individual differences in alpha frequency drive crossmodal illusory perception[J]. Current biology, 2015, 25(2): 231-235. doi: 10.1016/j.cub.2014.11.034
[56] KARTHIK G, PLASS J, BELTZ A M, et al. Visual speech differentially modulates beta, theta, and high gamma bands in auditory cortex[J]. European journal of neuroscience, 2021, 54(9): 7301-7317. doi: 10.1111/ejn.15482
[57] MÉGEVAND P, MERCIER M R, GROPPE D M, et al. Crossmodal phase reset and evoked responses provide complementary mechanisms for the influence of visual speech in auditory cortex[J]. Journal of neuroscience, 2020, 40(44): 8530-8542. doi: 10.1523/JNEUROSCI.0555-20.2020
[58] LUO H, LIU Z, POEPPEL D. Auditory cortex tracks both auditory and visual stimulus dynamics using low-frequency neuronal phase modulation[J]. PLoS biology, 2010, 8(8): e1000445. doi: 10.1371/journal.pbio.1000445
[59] LAKATOS P, CHEN C M, O'CONNELL M N, et al. Neuronal oscillations and multisensory interaction in primary auditory cortex[J]. Neuron, 2007, 53(2): 279-292. doi: 10.1016/j.neuron.2006.12.011
[60] THÉZÉ R, GIRAUD A L, MÉGEVAND P. The phase of cortical oscillations determines the perceptual fate of visual cues in naturalistic audiovisual speech[J]. Science advances, 2020, 6(45): eabc6348. doi: 10.1126/sciadv.abc6348
[61] MISHRA J, MARTINEZ A, HILLYARD S A. Audition influences color processing in the sound-induced visual flash illusion[J]. Vision research, 2013, 93: 74-79. doi: 10.1016/j.visres.2013.10.013
[62] MÉGEVAND P, MERCIER M R, GROPPE D M, et al. Phase resetting in human auditory cortex to visual speech[J]. BioRxiv, 2018: 405597.
[63] KEIL J, MÜLLER N, IHSSEN N, et al. On the variability of the McGurk effect: audiovisual integration depends on prestimulus brain states[J]. Cerebral cortex, 2012, 22(1): 221-231. doi: 10.1093/cercor/bhr125
[64] AMEDI A, MALACH R, HENDLER T, et al. Visuo-haptic object-related activation in the ventral visual pathway[J]. Nature neuroscience, 2001, 4(3): 324-330. doi: 10.1038/85201
[65] KIM S, JAMES T W. Enhanced effectiveness in visuo-haptic object-selective brain regions with increasing stimulus salience[J]. Human brain mapping, 2010, 31(5): 678-693. doi: 10.1002/hbm.20897
[66] DAHL C D, LOGOTHETIS N K, KAYSER C. Spatial organization of multisensory responses in temporal association cortex[J]. Journal of neuroscience, 2009, 29(38): 11924-11932. doi: 10.1523/JNEUROSCI.3437-09.2009
[67] STEVENSON R A, ALTIERI N A, KIM S, et al. Neural processing of asynchronous audiovisual speech perception[J]. Neuroimage, 2010, 49(4): 3308-3318. doi: 10.1016/j.neuroimage.2009.12.001
[68] YOUNG A W, FRVHHOLZ S, SCHWEINBERGER S R. Face and voice perception: understanding commonalities and differences[J]. Trends in cognitive sciences, 2020, 24(5): 398-410. doi: 10.1016/j.tics.2020.02.001
[69] CSONKA M, MARDMOMEN N, WEBSTER P J, et al. Meta-analyses support a taxonomic model for representations of different categories of audio-visual interaction events in the human brain[J]. Cerebral cortex communications, 2021, 2(1): tgab002. doi: 10.1093/texcom/tgab002
[70] BEAUCHAMP M S. Audiovisual speech integration: neural substrates and behavior[M]//Neurobiology of language. Houston, TX: Academic Press, 2016: 515-526.
[71] DAVIES-THOMPSON J, ELLI G V, REZK M, et al. Hierarchical brain network for face and voice integration of emotion expression[J]. Cerebral cortex, 2019, 29(9): 3590-3605. doi: 10.1093/cercor/bhy240
[72] TSANTANI M, KRIEGESKORTE N, MCGETTIGAN C, et al. Faces and voices in the brain: a modality-general person-identity representation in superior temporal sulcus[J]. Neuroimage, 2019, 201: 116004. doi: 10.1016/j.neuroimage.2019.07.017
[73] DEEN B, SAXE R, KANWISHER N. Processing communicative facial and vocal cues in the superior temporal sulcus[J]. Neuroimage, 2020, 221: 117191. doi: 10.1016/j.neuroimage.2020.117191
[74] GRILL-SPECTOR K, WEINER K S, KAY K, et al. The functional neuroanatomy of human face perception[J]. Annual review of vision science, 2017, 3(1): 167-196. doi: 10.1146/annurev-vision-102016-061214
[75] PITCHER D, PILKINGTON A, RAUTH L, et al. The human posterior superior temporal sulcus samples visual space differently from other face-selective regions[J]. Cerebral cortex, 2020, 30(2): 778-785. doi: 10.1093/cercor/bhz125
[76] SAITO H, YUKIE M, TANAKA K, et al. Integration of direction signals of image motion in the superior temporal sulcus of the macaque monkey[J]. Journal of neuroscience, 1986, 6(1): 145-157. doi: 10.1523/JNEUROSCI.06-01-00145.1986
[77] THOMPSON K G, BISCOE K L, SATO T R. Neuronal basis of covert spatial attention in the frontal eye field[J]. Journal of neuroscience, 2005, 25(41): 9479-9487. doi: 10.1523/JNEUROSCI.0741-05.2005
[78] SAXE R, CAREY S, KANWISHER N. Understanding other minds: linking developmental psychology and functional neuroimaging[J]. Annual review of psychology, 2004, 55(1): 87-124. doi: 10.1146/annurev.psych.55.090902.142044
[79] HEIN G, KNIGHT R T. Superior temporal sulcus—it's my area: or is it?[J]. Journal of cognitive neuroscience, 2008, 20(12): 2125-2136. doi: 10.1162/jocn.2008.20148
[80] DEEN B, KOLDEWYN K, KANWISHER N, et al. Functional organization of social perception and cognition in the superior temporal sulcus[J]. Cerebral cortex, 2015, 25(11): 4596-4609. doi: 10.1093/cercor/bhv111
[81] ISIK C, DOGRU T, TURK E S. A nexus of linear and non-linear relationships between tourism demand, renewable energy consumption, and economic growth: theory and evidence[J]. International journal of tourism research, 2018, 20(1): 38-49. doi: 10.1002/jtr.2151
[82] ZHU L L, BEAUCHAMP M S. Mouth and voice: a relationship between visual and auditory preference in the human superior temporal sulcus[J]. Journal of neuroscience, 2017, 37(10): 2697-2708. doi: 10.1523/JNEUROSCI.2914-16.2017
[83] BEAUCHAMP M S. See me, hear me, touch me: multisensory integration in lateral occipital-temporal cortex[J]. Current opinion in neurobiology, 2005, 15(2): 145-153. doi: 10.1016/j.conb.2005.03.011
[84] ALSIUS A, PARÉ M, MUNHALL K G. Forty years after hearing lips and seeing voices: the McGurk effect revisited[J]. Multisensory research, 2018, 31(1-2): 111-144. doi: 10.1163/22134808-00002565
[85] 韩海宾, 许萍萍, 屈青青, 等. 语言加工过程中的视听跨通道整合[J]. 心理科学进展, 2019, 27(3): 475-489. [86] MCGURK H, MACDONALD J. Hearing lips and seeing voices[J]. Nature, 1976, 264(5588): 746-748. doi: 10.1038/264746a0
[87] 罗霄骁, 康冠兰, 周晓林. McGurk效应的影响因素与神经基础[J]. 心理科学进展, 2018, 26(11): 1935-1951. [88] JONES J A, CALLAN D E. Brain activity during audiovisual speech perception: an fMRI study of the McGurk effect[J]. Neuroreport, 2003, 14(8): 1129-1133. doi: 10.1097/00001756-200306110-00006
[89] SZYCIK G R, STADLER J, TEMPELMANN C, et al. Examining the McGurk illusion using high-field 7 Tesla functional MRI[J]. Frontiers in human neuroscience, 2012, 6: Article 95.
[90] NATH A R, BEAUCHAMP M S. Dynamic changes in superior temporal sulcus connectivity during perception of noisy audiovisual speech[J]. Journal of neuroscience, 2011, 31(5): 1704-1714. doi: 10.1523/JNEUROSCI.4853-10.2011
[91] NATH A R, BEAUCHAMP M S. A neural basis for interindividual differences in the McGurk effect, a multisensory speech illusion[J]. Neuroimage, 2012, 59(1): 781-787. doi: 10.1016/j.neuroimage.2011.07.024
[92] BAUM S H, MARTIN R C, HAMILTON A C, et al. Multisensory speech perception without the left superior temporal sulcus[J]. Neuroimage, 2012, 62(3): 1825-1832. doi: 10.1016/j.neuroimage.2012.05.034
[93] BOUTON S, DELGADO-SAA J, OLASAGASTI I, et al. Audio-visual combination of syllables involves time-sensitive dynamics following from fusion failure[J]. Scientific reports, 2020, 10(1): 18009. http://www.xueshufan.com/publication/2973388311
[94] RAIJ T, UUTELA K, HARI R. Audiovisual integration of letters in the human brain[J]. Neuron, 2000, 28(2): 617-625.
[95] BENOIT M M K, RAIJ T, LIN F H, et al. Primary and multisensory cortical activity is correlated with audiovisual percepts[J]. Human brain mapping, 2010, 31(4): 526-538. doi: 10.1002/hbm.20884
[96] ERICKSON L C, HEEG E, RAUSCHECKER J P, et al. An ALE meta-analysis on the audiovisual integration of speech signals[J]. Human brain mapping, 2014, 35(11): 5587-5605. http://www.onacademic.com/detail/journal_1000039163214010_bf46.html
[97] LI Y, SEGER C, CHEN Q, et al. Left inferior frontal gyrus integrates multisensory information in category learning[J]. Cerebral cortex, 2020, 30(8): 4410-4423.
[98] CAO Y, SUMMERFIELD C, PARK H, et al. Causal inference in the multisensory brain[J]. Neuron, 2019, 102(5): 1076-1087.
[99] PITCHER D, UNGERLEIDER L G. Evidence for a third visual pathway specialized for social perception[J]. Trends in cognitive sciences, 2021, 25(2): 100-110. http://pubmed.ncbi.nlm.nih.gov/33334693/
[100] SHAMS L, BEIERHOLM U R. Causal inference in perception[J]. Trends in cognitive sciences, 2010, 14(9): 425-432.
[101] KAYSER C, SHAMS L. Multisensory causal inference in the brain[J]. PLoS biology, 2015, 13(2): e1002075.
[102] MIHALIK A, NOPPENEY U. Causal inference in audiovisual perception[J]. Journal of neuroscience, 2020, 40(34): 6600-6612.
[103] ROHE T, NOPPENEY U. Cortical hierarchies perform Bayesian causal inference in multisensory perception[J]. PLoS biology, 2015, 13(2): e1002073. http://pubmedcentralcanada.ca/pmcc/articles/PMC4339735/?report=abstract
[104] LIU H, LI C, LI Y, et al. Improved baselines with visual instruction tuning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA: IEEE, 2024: 26296-26306.
[105] GIRDHAR R, EL-NOUBY A, LIU Z, et al. Imagebind: one embedding space to bind them all[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, BC: IEEE, 2023: 15180-15190.
[106] BARRAULT L, CHUNG Y A, MEGLIOLI M C, et al. SeamlessM4T-massively multilingual and multimodal machine translation[J]. 2023, ArXiv preprint arXiv: 2308.11596.
[107] ACHIAM J, ADLER S, AGARWAL S, et al. Gpt-4 technical report[J]. 2023, ArXiv preprint arXiv: 2303.08774.
[108] YIN S, FU C, ZHAO S, et al. A survey on multimodal large language models[J]. National science review, 2024: nwae403.
[109] WEI Y, HU D, TIAN Y, et al. Learning in audio-visual context: a review, analysis, and new perspective[J]. 2022, ArXiv preprint arXiv: 2208.09579.
[110] SONG S, LI X, LI S, et al. How to bridge the gap between modalities: a comprehensive survey on multimodal large language model[J]. 2023, ArXiv preprint arXiv: 2311.07594.
[111] WANG Y. Formal models and cognitive mechanisms of the human sensory system[J]. International journal of software science and computational intelligence, 2013, 5(3): 55-75.
[112] ROHE T, ZEISE M L. Inputs, outputs, and multisensory processing[M]//Neuroscience for psychologists: an introduction. Switzerland: Springer Cham, 2021: 153-192. [113] BARCZAK A, O'CONNELL M N, SCHROEDER C E. Thalamic contributions to multisensory convergence[M]//The cerebral cortex and thalamus. New York: Oxford University Press, 2024: 305-315.
[114] PESNOT LEROUSSEAU J, PARISE C V, ERNST M O, et al. Multisensory correlation computations in the human brain identified by a time-resolved encoding model[J]. Nature communications, 2022, 13(1): 2489.
[115] TSILIONIS E, VATAKIS A. Multisensory binding: is the contribution of synchrony and semantic congruency obligatory?[J]. Current opinion in behavioral sciences, 2016, 8: 7-13.
[116] MERCIER M R, MOLHOLM S, FIEBELKORN I C, et al. Neuro-oscillatory phase alignment drives speeded multisensory response times: an electro-corticographic investigation[J]. Journal of neuroscience, 2015, 35(22): 8546-8557.
[117] ENGEL A K, SENKOWSKI D, SCHNEIDER T R. Multisensory integration through neural coherence[M]//The neural bases of multisensory processes. Boca Raton, FL: CRC Press/Taylor and Francis, 2012: 112-128.
[118] ATREY P K, HOSSAIN M A, EL SADDIK A, et al. Multimodal fusion for multimedia analysis: a survey[J]. Multimedia systems, 2010, 16: 345-379.
[119] ZHANG X, HUANG H, JIA X, et al. Multi-stage fusion for event-based multimodal tracker[C]//2024 IEEE International Conference on Multimedia and Expo (ICME). San Jose, CA: IEEE, 2024: 1-6.
[120] ERNST M O, BANKS M S. Humans integrate visual and haptic information in a statistically optimal fashion[J]. Nature, 2002, 415(6870): 429-433
[121] QI D, SU L, SONG J, et al. Imagebert: cross-modal pre-training with large-scale weak-supervised image-text data[J]. 2020, ArXiv preprint arXiv: 2001.07966.
[122] YE H, HUANG D A, LU Y, et al. X-VILA: cross-modality alignment for large language model[J]. 2024, ArXiv preprint arXiv: 2405.19335.
[123] YILDIRIM I, JACOBS R A. Learning multisensory representations for auditory-visual transfer of sequence category knowledge: a probabilistic language of thought approach[J]. Psychonomic bulletin and review, 2015, 22: 673-686.
[124] SADATO N, OKADA T, HONDA M, et al. Cross-modal integration and plastic changes revealed by lip movement, random-dot motion and sign languages in the hearing and deaf[J]. Cerebral cortex, 2005, 15(8): 1113-1122.
[125] BENETTI S, VAN ACKEREN M J, RABINI G, et al. Functional selectivity for face processing in the temporal voice area of early deaf individuals[J]. Proceedings of the national academy of sciences, 2017, 114(31): E6437-E6446.
计量
- 文章访问数: 19
- HTML全文浏览量: 13
- PDF下载量: 4