这篇文章深度解析了美国自然科学领域的一篇论文,The development of embodied cognition: six lessons from babies ,其中的定义被 Meta 认为是目前火热的 "Embodied AI" (具身智能) 的官方定义。有趣的是,最近我还看到另一篇文章描述了人类的经验并不一定适用于机器,也就是 OpenAI 推崇的 The Bitter Lesson 。这两种观点都很值得参考借鉴。

“Embodied AI”的定义:

一种先进的人工智能类型,它通过与周围环境的互动来实现学习。这种AI不依赖于静态数据集(如ImageNet、COCO、VQA等),而是涉及具有物理或虚拟实体的智能系统(例如robots or trained assistants)的研究。

“Embodied AI”和“Internet AI”的区别:

  1. Embodied AI(实体化人工智能):
    • 实体化AI指的是那些具有物理实体的AI系统,比如机器人或者具有传感器和执行器的智能设备。
    • 这类AI通过与现实世界直接互动来学习和适应。它们依赖于对物理环境的感知(通过摄像头、触觉传感器等)和对环境的物理作用(通过机械手臂、移动机构等)。
    • 实体化AI的一个核心概念是智能不仅来源于信息处理,还来自于身体与环境的动态互动。
    • 应用示例包括自主驾驶汽车、工业机器人、服务机器人等。
  2. Internet AI(互联网人工智能):
    • 互联网AI主要指的是在互联网环境中运行的AI系统,如搜索引擎、推荐系统、语音助手等。
    • 这类AI通常处理大量的数字数据(如文本、图像、用户行为数据),并在云计算环境中执行复杂的数据分析和模式识别任务。
    • 互联网AI更多地关注信息处理、数据挖掘、用户行为分析等,而不涉及物理世界的直接交互。
    • 应用示例包括搜索引擎优化、个性化内容推荐、社交媒体分析等。

Embodied AI的基础-具身假设(Embodiment Hypothesis)

The embodiment hypothesis is the idea that intelligence emerges in the interaction of an agent with an environment and as a result of sensorimotor activity.

Habitat的Tutorial提到了具身假设的定义:智能是在主体与环境的相互作用中产生的,并且是感觉运动活动的结果。

这个定义来自2005年Indiana University的一篇论文,The development of embodied cognition: six lessons from babies,作者出自心理学系和计算机系,感觉二十年前的发现现在看也毫不过时,并且很有启发性,因此记录如下。文中的lesson我这里翻译为启发,【】中的内容是我自己的理解和笔记。

Overview—这六个启发是什么?

  1. 多模态体验(Be multi-modal):婴儿通过感知和行动来学习,他们的感官系统协同工作。【多模态对任务表现有促进作用】
  2. 渐进式发展(Be incremental):婴儿逐渐发展,从不断变化的环境中学习。【模态的训练顺序很重要,应该由易到难学习】
  3. 与物理世界的互动(Be physical):与物理世界的互动帮助婴儿组织感知、行动和思考。【可以通过我们与环境的位置、朝向等交互信息,省去大量推理过程】
  4. 探索(Explore):通过非目标导向的探索,婴儿发现新的问题和解决方案。【探索试错的过程有助于催发新的解决方案】
  5. 社会学习(Be social):在成熟伙伴的指导和支持下进行的社会环境中学习。【与能够引导和帮助它们的成熟代理进行有效社会互动】
  6. 语言学习(Learn a language):语言作为一种符号系统,改变了儿童的思维方式和与世界的互动。【可通过某种语言系统,补充给机器人体验之外的知识,对场景、对象的语义进行监督学习,赋予象征性推理的思维能力】

以下是论文全文解读,为了方便理解,笔者改成了由浅入深的Q&A逻辑,并且略去表述模糊的图6。

一、多模态体验

原文描述

Babies’ experience of the world is profoundly multimodal. We propose that multiple overlapping and time-locked sensory systems enable the developing system to educate itself—without defined external tasks or teachers—just by perceiving and acting in the world.

婴儿体验世界的方式深刻地多模态。作者提出,多种重叠且时间锁定的感觉系统,使得发展中的系统能够在没有明确外部任务或教师的情况下,通过感知和行动在世界中自我教育。这意味着婴儿能够通过同时使用多种感觉通道来理解和学习环境,而这种能力对他们的认知发展至关重要。

Multiple overlapping and time-locked sensory systems具体是什么意思?

指的是婴儿的不同感觉系统(如视觉、听觉、触觉)在他们处理信息时是相互重叠和时间上同步的。例如,婴儿看到一个物体的同时,可能会触摸它,从而同时获取视觉和触觉信息。这种多感官的同步加强了他们对环境的理解。

人们为什么需要这么多感觉系统—视觉、听觉、触觉、嗅觉、本体感觉、平衡?

原因在于神经结构中的"简并性"。

  • 简并性意味着单一功能可能由多种神经信号配置执行,并且不同神经簇参与多种功能。这导致系统即使失去某个组件也能正常运行。例如,失明的人通过其他感官仍能形成空间概念。
  • 此外,简并性还使得感觉系统能够相互教育,无需外部老师。这一点在婴儿如何观察和学习自己行为的描述中得到体现。这些多模态体验是时间限制的且相互关联。

第二个特点,被Edelman称为“再入”。这是一个涉及跨模态的多个同时表现形式的明确的相互关系。例如,当一个人体验一个苹果时,这种体验是视觉的,但也会唤起苹果的气味、味道、触感、重量,以及与苹果相关的一系列动作的感觉和运动。重要的是,这些多模态体验是有时间限制且彼此相关的。当手移动苹果时感觉到的变化与看到苹果移动时的变化是同步的。这种时间上锁定的相关性创造了一个强大的学习机制。

图1展示了四种相关的映射。其中一个是苹果的物理属性与视觉系统中的神经活动之间的映射。另一个映射是苹果的物理属性与触觉系统中的神经活动之间的映射。第三个和第四个映射是Edelman所说的再入映射:视觉系统的活动映射到触觉系统,触觉系统的活动映射到视觉系统。因此,刺激的两个独立映射——视觉和触觉——提供了对世界的不同解释,并且通过实时相关联,它们相互教育。同时,视觉系统通过苹果上的阴影和纹理的变化以及点的共线运动被激活,而触觉系统则通过压力和纹理的同步变化被激活。在实时的每一步中,这些异质过程中的活动都相互映射,使系统能够在其自身活动中发现超越特定模态的高阶规律。

那么婴儿给了我们什么启发?

这个实验由Diamond进行,研究了婴儿如何从不同类型的盒子中取出隐藏的玩具。在实验中,玩具被藏在有一个开口的盒子下,这些盒子要么是不透明的(遮盖玩具),要么是透明的(婴儿可以看到盒子下的玩具)。关键的发现是,9个月大的婴儿更容易从不透明容器中取出玩具,而不是从透明容器中取出。透明容器的问题在于,婴儿会直接尝试通过透明表面去够玩具,而不是寻找并找到开口。

然而,如果婴儿有使用透明容器的经验,他们能够很快解决这个问题。Titzer、Thelen和Smith的研究提供了8个月大的婴儿一些不透明或透明的桶在家中玩耍。家长的唯一指示是把这些容器放在玩具箱中,让婴儿在玩耍时可以使用。这些婴儿在9个月大时接受了Diamond的任务测试。那些玩过不透明容器的婴儿无法从透明容器中取出物体,就像在原始的Diamond研究中一样。然而,那些玩过透明容器的婴儿则迅速找到了开口,并从透明盒子中取出了物体。

对embodied ai的启示?

人类认知的许多概念、过程本质上是多模态的。即使在被明确设计为单模态的任务中,多种感觉模态也会对表现有所贡献。例如,视觉对象识别似乎会自动激活与该对象相关的动作。

在以上实验中,向成年人展示了一张水壶的图片,任务很简单:通过按按钮来指示所展示的对象是否为水壶(“是或否”)。Metrics是反应时间。尽管这是一项纯视觉对象识别任务。然而,如果按下按钮表示“是”的反应与投手的把手在同一侧,参与者识别物体的速度要快得多,就好像看到把手启动了(并准备好了)到达那一侧的运动反应一样。在使用几种不同方法的各种对象和任务中也报告了类似的结果。

一般来说,当做出的反应与物体上的真实动作相兼容时,人们在视觉识别任务中会更快。这些结果告诉我们,视觉识别与动作是一体的,用同样的内部语言。在可重入映射(reentrant mappings)的思想下,视觉识别就是这样建立起来的,并通过其与对象上的动作的时间锁定连接来进行教育。

二、渐进式发展

原文描述

Babies develop incrementally, and they are not smart at the start. We propose that their initial prematurity and the particular path they take to development are crucial to their eventual outpacing of the world's smartest AI programs.

婴儿起初并不聪明,他们是逐步发展的。作者认为,婴儿最初的不成熟和他们特定的发展路径对他们最终超越世界上最聪明的人工智能程序至关重要。

这段话或者这个观点想表达什么?

这意味着婴儿的早期经历,尽管看似不完善,但实际上是他们认知发展的基础,使他们能够通过逐步学习和适应来理解复杂的概念和任务。这种渐进式的发展方式为他们提供了稳定的基础,最终导致了认知能力的显著增强。

原文中说到:

传统上,机器学习和人类学习都集中在非渐进式学习任务上,也就是整个训练集在学习开始时就已固定,然后要么整体呈现,要么随机抽样。然而,这并不是儿童接触世界的方式。3个月大的婴儿的经历与1岁儿童的经历非常不同(且受限得多),而后者的经历又与2岁儿童的不同。所有迹象都表明,这些系统性的输入变化,即经历的范围和种类的变化是重要的,实际上它们决定了发展的结果。

那么婴儿给了我们什么启发?

婴儿早期的经历受到感官系统和运动系统发展的强烈影响。出生时,听觉和视觉已经开始运作,但视觉受到婴儿焦距能力的限制。尽管如此,出生后不久,婴儿就会朝向声音的方向看。随后几个月,更微妙的声音属性开始控制视觉注意力,使婴儿看向与他们听到的声音匹配的视觉事件。例如,给4个月大的婴儿看两个弹跳球的视觉展示,他们会看与弹跳球声音时间同步的展示。听觉和视觉的耦合组织了婴儿的注意力,从而决定了他们学到的内容。实际上,没有听觉的儿童,聋儿童,展示出更容易改变和更无组织的视觉注意力。

婴儿在看和听的协调是第一课中强调的再入映射和多模态学习的一种形式。但对于第二课重要的是,这些相关性在发展过程中不是固定不变的。

  • 在观察和聆听世界3到4个月后,婴儿开始尝试抓取物体,多模态的相关性发生变化。一旦婴儿能够伸手抓取,他们就能够自己提供涉及视觉、触觉探索、自我运动的本体感知输入,以及触碰物体时产生的听觉体验。
  • 经过几周到几个月在这种新的多模态环境中生活,包括坐着、看着、听着、伸手和操作物体,婴儿的经历——以及他们可用的相关性——再次发生了根本变化。
  • 随着他们开始爬行,然后站立和走路。自我运动更加剧烈地改变了视觉和听觉输入的性质,并且证据表明它也深刻地改变了婴儿的认知发展。

具体例子涉及婴儿认知中一个被广泛研究的任务,即所谓的对象概念或A不是B任务(object-concept or A-not-B task)。

婴儿自身行为变化导致输入的转变,同样会导致认知发展的转变。

这是一种评估婴儿对对象时间和空间持续性理解的测试。在这个任务中,实验者在婴儿看得到的位置A藏一个玩具,然后在让婴儿搜索之前暂停3-5秒。婴儿通常会正确地伸手到位置A并找到玩具。重复几次后,实验者将玩具藏到新的位置B,再次暂停后让婴儿伸手。8-10个月大的婴儿会犯一个有趣的“错误”——他们会伸手到之前找到玩具的位置A,而不是看到玩具消失的地方。12个月以上的婴儿在关键的B位置搜索中则表现正确。这种行为的转变与自我移动(self-locomotion / self-movement)的开始紧密相关。

为什么不同阶段的婴儿和自我移动相关?

研究显示,自我移动的出现与8到12个月大婴儿的搜索行为变化紧密相关。婴儿开始自我移动时,他们停止犯A-not-B task的错误。更重要的是,实验者将那些还没有自我移动能力并且犯了错误的婴儿放在学步车里,发现他们比正常情况下早 3 到 4 个月进行自我移动,这加速了婴儿在A不是B任务中成功搜索的发展。

这是因为自我移动——在物体上方、旁边、里面和周围移动——提供了新的体验和新的时空关系模式,改变了婴儿对物体、空间和自我的表征。总的来说,婴儿的经历——学习系统遇到的规律性——随着发展本身系统性地改变。婴儿在发展上的每一个成就——手眼协调、坐、爬、走——都为婴儿打开了全新的多模态规律性集合。

对embodied ai的启示?

有一个至关重要的问题:感官体验的顺序在最终结果中是否重要?是否可以从一开始就让一个婴儿同时听、看、伸手、走路,就像我们直接构建一个拥有两岁大的孩子智力的人工智能一样?

研究表明,感觉系统的发展顺序对动物的智能发展非常重要。不同动物的感觉系统发展顺序不同,这与它们适应环境的方式有关。例如,提前开启小猫的眼睛会影响它们嗅觉的发展和视觉与嗅觉的协调,而在猫头鹰中打乱听觉和视觉的发展顺序会影响它们的空间定位能力。构建生物智能的要素之⼀是以正确的方式安排训练体验。

在人类建模学习的尝试中,这个原则同样适用。当整个数据集一次性呈现时,神经网络有时无法学习任务,但当数据以由易到难的方式增量呈现时,神经网络会成功。这种做法被一些人批评为作弊。但对于我们这些研究真实婴儿智力如何形成的人来说,他们的想法似乎是正确的。

【后续原文版本添加了这句补充】当然,在真正的发展中,这种训练经验的顺序影响并不是由外界强加给学习者的,而是作为发展本身的结果出现的。

三、与物理世界的互动

原文描述

Babies live in a physical world, full of rich regularities that organize perception,action, and ultimately thought. The intelligence of babies resides not just insidethemselves but is distributed across their interactions and experiences in thephysical world. The physical world serves to bootstrap higher mental functions.

婴儿生活在一个物理世界中,这个世界充满了丰富的规律,这些规律组织了感知、行动,最终是思想。婴儿的智力不仅存在于他们自身内部,还分布在他们与物理世界的互动和经验中。物理世界有助于引导更高级的心智功能的发展。

这和第一点多模态感知不是重复了吗?都是说对外界的交互自我教育

它们侧重的方面略有不同。第一点强调的是多感官体验和感官系统之间的交互,而第三点更多地关注于婴儿与物理世界的互动对他们认知发展的影响。

这一部分的观点是:不是所有知识都需要存在大脑中,有些知识通过身体和与世界的互动来学习。

  • 人类可以不自觉地活动双腿来走路,而不是靠大脑中的知识控制。(让我想到最近斯坦福的模仿学习机器人Mobile ALOHA,可能使用模仿学习在达成这一点上有所帮助)
  • 变化盲视(change blindness)现象。人们不会记住眼前事物的细节,因为他们不需要记住他们仅仅是看着和看到的东西。
  • 还有一项实验"Where is the dax?" ,实验包括一个实验者在小孩面前展示两个物体,然后将物体放入容器中并将容器放在桌子上。实验者查看其中一个容器并说“我在这里看到一个dax”,但不向孩子展示容器中的物体。接着,从容器中取出物体,并问孩子哪个是“dax”。孩子需要根据听到的名字将其与先前见过的物体联系起来。(dax不是一个真实的名词)

那么婴儿给了我们什么启发?

⼈们可以尝试多种解决方案,包括推理和记住哪些物体从哪些容器中出来,以及说话者提 供名称时可能的意图。然而,证据表明,幼儿以更简单的方式解决这个问题

在“where is the dax”实验中,幼儿采用的策略相对简单,他们利用了对象和位置之间的联系。在这个任务中,幼儿利用了世界中一个深刻且基础重要的规律:一个真实的物体根据其独特的位置与其他物体区分开来;它必须与任何其他物体处于不同的位置。在Baldwin的实验中,关键因素在于实验程序的第一部分,一个物体被放在右边,另一个放在左边。容器也分别放在左右两边,而名字则是在实验者看向一个容器(例如右边的)时给出的。孩子通过将名字与该位置关联的物体联系起来来解决这个任务。

将物体与位置联系起来的方法,有什么应用?

人们在讲述故事中的一个主角时常常不自觉地用一只手做手势,而在讲另一个主角时用另一只手。通过手势和注意力的方向,他们将故事中的不同事件与同一个人物联系起来。

人们还将空间作为一种记忆法,通过看向过去事件的方向来帮助记住该事件。理查森和斯派维的好莱坞方块实验就展示了这一点。参与者在不同时间被展示四个不同的视频,每个视频来自不同的空间位置。后来,在没有视频的情况下,受试者被问及这些视频的内容。眼动追踪相机记录了人们回答这些问题时的注视位置,结果显示他们系统地看向之前呈现相关信息的方向。

这与所谓的指示性指针的概念有关,是感觉运动行为——人们看向哪里、看到什么、在哪里行动——在我们的认知系统中创造一致性的一个强有力的例子,它将相关的认知内容绑定在一起,将其与其他不同的内容区分开来。

对embodied ai的启示?

这段话讲述的是所谓的指示性指针(deictic pointers)概念,它是感觉运动行为(比如我们看向哪里、看到什么、在哪里行动)如何在我们的认知系统中创造一致性、将相关的认知内容联系在一起并将它们与其他不同的内容分开的一个强有力的例子。总的来说,要将一个想法与另一个想法联系起来,不一定需要大量与内容相关的知识或推理系统。相反,有一种更简单的方式:就是利用我们所处的世界及我们身体对这个世界的指向。

【笔者注:简而言之,这意味着我们可以通过我们与环境的直接互动和身体动作来理解和组织我们的思维,而不必完全依赖于复杂的思维过程或显式的知识系统。】

四、探索

原文描述

Babies explore – they move and act in highly variable and playful ways that are 3not goal-oriented and are seemingly random. In doing so, they discover newproblems and new solutions. Exploration makes intelligence open-ended andinventive.

婴儿进行探索——他们以高度变化和富有趣味性的方式移动和行动,这些行为并非目标导向,看似随机。通过这样做,他们发现了新的问题和新的解决方案。探索使得智力开放和创新。

一个没有目标的学生怎么学习,具体例子?

具体来说,代理或其设计者是否必须知道,需要学习什么才能进行学习?

来自人类发展的证据帮助我们解决了这个困境,证明婴儿可以通过探索或非目标导向的行动发现学习任务和这些任务的解决方案。在婴儿中,自发的运动创造了学习的任务和机会。一个关于抓取研究的优雅展示追踪了四个婴儿在3个月的时间里从不会抓取到会抓取的发展。观察到四种非常不同的发展模式。一些婴儿在不会抓取的时期几乎不抬手臂,但安静地观察世界。其他婴儿更为紧张和活跃,挥舞和拍打,总是在移动。这些不同的婴儿必须学会解决不同问题才能学会伸手去抓取物体。活跃的婴儿需要学会变得不那么活跃,降低他的手,把它们带到中线。安静的婴儿则需要学会变得更活跃,举起她的手,把它们从通常在身边的位置抬起。于是每个婴儿都找到了一个以探索运动空间开始的解决方案。

每个婴儿学习的基本发展模式是这样的:有吸引力的玩具的出现是令人兴奋的,激发了各种不同婴儿的不同行动。这些行动首先在形式或方向上没有明确的一致性。每个婴儿以其独特的方式接触到玩具——撞到、刷过或扫过它。这些接触时刻出现后,模式逐渐频繁重复。这个周期会重复几周:看到某个玩具而激动,行动,偶尔接触。经过几个周期,越来越稳定、有效的抓取形式出现。值得注意的是,每个孩子都找到了一个解决方案——并且最终收敛到非常相似的解决方案——通过遵循各自不同的发展路径。

这给我们一个构建智能代理的启示:从时间锁定相关性构建可重入映射的多模态系统,只需要移动,广泛移动,甚至随机移动,就可以学习,并通过这种探索来发现任务和解决方案。

(A multimodal system that builds reentrant maps from time-locked correlations only needs to be set in motion, to move about broadly, even randomly, to learn and through such exploration to discover both tasks and solutions.)

那么婴儿给了我们什么启发?

论文介绍了一个实验,婴儿共轭增强(infant conjugate reinforcement)。婴儿的脚踝通过一条丝带与头顶悬挂的移动物体相连。当婴儿开始自发地踢脚时,他们激活了移动物体。在几分钟内,他们学会了脚踢和移动物体的摇晃之间的关联,这提供了有趣的视觉和听觉刺激。移动物体对婴儿的动作做出共轭反应:婴儿踢得越多、动作越有力,移动物体产生的动作和声音就越多。在这种情况下,婴儿会增加他们的踢脚动作,超过基线水平(当婴儿仅仅看着一个不动的移动物体时的水平)。婴儿在发现他们的控制能力时,他们最初探索各种动作,并选择最优模式来使有趣的事件——移动物体的运动——发生。

尽管这是一个实验任务,而不是日常现实世界中的任务,但它是一个非常适合现实世界学习的模型。移动物体为婴儿提供了许多时间锁定的相关模式。更重要的是,婴儿通过自己的探索性运动模式发现了这些关系。婴儿自己的动作与移动物体有连续的关系;他们踢得越快越用力,移动物体就摇摆得越剧烈。对婴儿来说,这是一个非常吸引人的任务;他们会微笑和大笑,当关联被移除时,他们常常会生气。因此,这个实验程序,就像世界一样,提供了复杂多样、且永远不会完全重复的事件,但都与婴儿自己的动作完美时间锁定。正是探索、自发的非任务相关的运动,开始了这个过程。没有自发的运动,没有探索,婴儿就没有从移动物体中学到东西。

对embodied ai的启示?

年轻的哺乳动物,包括儿童,花费大量时间在没有明显目标的行为上。他们移动、晃动、到处跑、弹跳物体、扔东西,通常以成熟的思维来看,这些行为似乎没有什么好处。然而,这种通常被称为玩耍的行为对于构建开放于新解决方案的创新智能形式至关重要。

(However, this behavior, commonly called play, is essential to building inventive forms of intelligence that are open to new solutions.)

五、社会学习

原文描述

Babies act and learn in a social world in which more mature partners guide learning and add supporting structures to that learning.

婴儿在一个社交世界中行动和学习,在这个世界中,更成熟的伙伴引导学习并为这种学习提供支持结构。

这里的social指的是什么?

许多研究人员观察了母亲和婴儿的面对面互动,并报告了一种看起来非常像上文共轭增强的活动和学习模式,但增加了一个回传。母亲的面部表情和她们发出的声音与婴儿的行为紧密相关。当婴儿看着母亲的眼睛时,母亲会回望并微笑,并伴随着上升音调的声音。当婴儿微笑时,母亲也微笑。当婴儿发出咕哝声时,母亲也发出咕哝声。婴儿的面部动作从母亲那里创造出有趣的视觉和声音效果,就像他们的踢腿动作从连接的移动物体中创造出有趣的视觉和声音效果一样,这些连续性创造了一个激发和探索的环境。

Social partner的交互和物理世界的交互有何不同?

在最初的互动中,这种探索为婴儿学习母亲(或其他成熟的社交伙伴)的面部动作和发声之间的时间锁定对应关系创造了机会,使得婴儿的行为被其他人的模式所转变。关键的是,婴儿的母亲不仅仅对婴儿的行为做出共轭反应;她们还在其基础上将其转变为常规模式。

例如,非常早期的婴儿行为显示出自然行为节奏(兴奋和平静)为照顾者提供了一个框架,照顾者可以在这个框架内与婴儿进行互动,仿佛在进行对话。随着时间的推移,婴儿不仅被动地接受照顾者的互动模式,还主动地参与到这个过程中,通过他们对照顾者的反应来形成一种双向的交流。这种互动模式帮助婴儿学习并响应外界的刺激,逐步形成更复杂的社交和认知能力。

那么婴儿给了我们什么启发?

一方面婴儿学会模仿父母的声音,另一方面父母也通过模仿婴儿来为这种学习提供结构!也就是说,父母不仅仅是对婴儿的微笑和声音作出反应;他们还模仿婴儿。这建立了一个循环模式:婴儿发声—→父母模仿→婴儿重复发声→父母的模仿,依此类推。这为婴儿学习(study and finetune)类似大人的的动作和声音创造了机会。简而言之,这个循环有助于加强突出某些模式,因为父母自然会选择那些他们认为有意义的模式。

除了模仿交互,照顾者还提供多模态支持来帮助巩固早期语言学习。当父母向幼儿介绍一个物体并命名时,他们会动用一系列感觉运动支持来吸引孩子的注意力,并将那个物体与单词联系起来。父母在命名时会看着物体,他们会挥动它,让孩子看它,并将他们在指向或挥动物体时的动作中所使用的语调模式与呈现名称的方式相匹配。比如父母在和年幼的孩子说话时经常将动作和声音结合起来。例如,一位父母向孩子展示一个玩具卷尺,拉出卷尺时说:“看,你拉——”(pull),将拉字拉长,以匹配拉动动作的开始和停止。同一位父母在缩回卷尺时说:“转圈圈和圈圈和圈圈”,每个“圈圈”都与转动的新周期开始一致。通过将动作和声音结合在一起,父母将语言植根于支撑所有认知的相同多模态学习过程中,从而吸引孩子的注意力,以节奏性地将其拉向相关的语言和感知事件,并紧密地将这些事件绑定在一起。

对embodied ai的启示?

为了使智能代理发展和学习,应该让它们参与到社交互动中,与能够引导和帮助它们的代理(如人或其他智能实体)进行有效互动。

(Raise them in a social world, coupling their behavior and learning to agents who add structure and support to those coupled interactions)

【笔者注:这种互动不仅包括简单的行为模仿,还应涵盖对复杂社交行为的理解和学习,从而提高智能代理的认知能力和社交适应性。】

六、语言学习

原文描述

Babies learn a language, a shared communicative system that is symbolic. And this changes everything, enabling children to form even higher-level and more abstract distinctions.

婴儿学习一种语言,这是一种共享的、象征性的交流系统。这改变了一切,使儿童能够形成更高层次和更抽象的区分。

语言和社交之间的关系?

语言的起源似乎深深植根于我们对周围世界的直接感知,以及我们通过身体运动和社交互动获得的经验,这些经验并非仅限于语言学习,而是一种更广泛的、能够适应和解决各种问题的学习方式。

什么是语言?

首先,语言是一种在世界中的规律,是一个共享的交流系统。它的共享特性意味着它非常稳定,持续受到构成它的许多本地交流行为的约束。在人类的生活中,语言在智能中的作用就像重力一样普遍、无处不在。

其次,语言之所以特别,是因为它是一种符号系统。在个别词(实际上是词素)的层面上,世界中的事件与指代它们的语言形式之间的关系主要是任意的。也就是说,大多数单词的声音与它们的指代之间没有内在的相似性:单词 dog 的形式并没有提示我们它指的是哪种事物。而且 dig 和 dog 形式的相似性并没有传达意义上的相似性。

【笔者注—为什么语言是一个任意的符号系统?

语言的任意性指的是在形式(如发音、书写)和意义之间没有直接的、固有的联系。这种任意性使得语言具有高度的灵活性和表达能力。例如,单词“dog”没有任何直观上的联系来说明它代表什么。这种任意性允许语言创建和使用广泛的词汇和概念,即使这些词汇和概念在物理形态或经验上没有直接相似性。】

为什么单词的形状、声音与它们的指代之间可以没有内在相似性?

尽管从理论上讲,我们可能会期望一个基于多感官体验和身体动作(多模态和感觉运动)的学习方式会促成一种更直观、更类似于肢体模仿(哑剧)的语言形式,其中符号(如单词)直接与它们所指的对象(如实物或动作)相似,但实际上语言并不是这样。语言中的符号(例如单词)通常与它们所指的对象在外形或声音上并没有直接相似性。此外,研究表明,虽然儿童可以很容易地学习在多种感官模态上具有一定相似性的符号与其所代表的事物之间的联系,但如果这种符号与其所指的事物之间的相似性过于明显(即图标性过强),反而会阻碍他们的学习。简而言之,这意味着语言的学习和使用需要在符号和所指事物之间保持一定程度的区分和抽象性。

DeLoache的研究提供了一个有趣的例证,这项研究不是针对语言学习,而是针对儿童使用等比例模型的能力。DeLoache的实验任务是一个藏东西的游戏,参与者是2岁的儿童。在每次试验中,一个玩具会被藏在一个真实大小的房间里,比如在沙发下。孩子的任务是找到这个玩具,实验者在每次试验中都会用某种模型告诉孩子玩具的确切位置。这个模型可能是一张蓝图、一张房间的画、一张照片、一个简单的比例模型、一个详细准确的比例模型,或者一个真实大小的模型。

这里有一个非常robust但违反直觉的结果:每当模型与真实房间过于相似时,年幼的孩子就无法完成这项任务。例如,当图片中的解决方案比等比例模型中的解决方案更有可能成功,当比例模型是真实房间的简化版本而不是房间的准确表示,则更有可能成功。

那么婴儿给了我们什么启发?

一种可能性是孩子们必须学会什么是符号,而要学会什么是符号,就必须有一些共同的属性,例如区分图片与真实物体或区分口头词与其他声音的属性。

所有世界语言都是符号系统这一事实,以及符号与所指之间过度相似会扰乱它们之间映射的学习这一事实,表明任意符号赋予了一些独特且有价值的计算能力。这种能力可能在正交性的属性中。大多数情况下,个别词汇指出或指向独特的类别。至少在2到3岁儿童的词汇中是这样的,这种现象有时被称为相互排他性约束(mutual exclusivity constraint)。

更具体地说,孩子们表现得好像世界上的每个物体只接受一个名字。例如,给孩子展示两个新的物体,并告诉他们其中一个的名字(例如,“这是一个dax”),孩子们会假设任何新名字(例如“wug”)指的是第二个之前未命名的物体。语言标签的任意性和相互排他性可能在计算上很强大,因为它们分离了创造感知类别的重叠规律,有证据支持这种正交性在计算上是强大的,使儿童能够形成二阶、类似规则的概括。

婴儿如何解决中牙牙学语中的排他性约束?

为了解释语言学习中这一发展上强大的方面,我们首先需要提供一些关于儿童词汇学习的背景。

孩子在大约10个月大时理解他们的第一个单词,在大约12个月大时产生他们的第一个单词。他们在语言学习中的初期进展肯定是基于婴儿在世界中互动中出现的(多模态的)事物类别。然而,最初的进展是犹豫的、缓慢的、脆弱的。在第一个单词之后的6个月或更长时间里,孩子们非常缓慢地习得后续单词,而且似乎经常会忘记之前习得的单词。此外,他们似乎需要在许多不同的情境中听到每个单独的单词,才能理解它的范围。然后,在18到20个月之间,大多数孩子成为非常快速的词汇学习者,每天将4到9个新词汇添加到他们的词汇表中。在这段时间里,他们似乎只需要听到一个单词用来标记一个物体,就能知道这个单词所指的整个事物类别。

这种从单个实例到整个类别的学习尤其引人注目,因为不同种类的类别以不同的方式组织。例如,有生命的类别是通过多种模态中的许多不同种类的相似性来组织的;人工制品类别是按形状组织的,物质类别是按材料组织的。来自实验研究和计算模型的证据表明,孩子们在慢慢学习他们的第一个单词时学习这些规律,而这种学习随后创造了他们一次性学习单词的能力。

这种学习的性质可以被描述为四个步骤,如图所示。该图仅展示了孩子们学习的规律之一:人工制品类别是按形状组织的。学习过程的第一步是将名字映射到物体——例如,将“球”这个名字映射到特定的球,将“杯子”这个名字映射到特定的杯子。每个名字在孩子遇到多个例子时都要重复多次。而且重要的是,在早期词汇中,形状固定、硬度高的物体通常按形状的相似性很好地组织在类别中。这种个别名字的学习建立了第二步——关于个别类别结构的一阶概括,即知道球是圆的,杯子是杯子形的。一阶概括应该使学习者能够识别新的球和杯子。

因为大多数孩子学到的关于固体和硬质物体的名称都是根据它们的形状命名的,孩子们可能还会学习到第二阶概括,即人工制品(固体、硬质物体)的名称通常涵盖了形状相似物体的类别。

如图中第3步所示,这种概括需要超越特定的名称和类别结构。但是这种高阶概括能使孩子将任何人工制品的名称,即使是第一次遇到的,通过形状扩展到新的实例。此时,孩子的行为就像他们有一个抽象和可变化的规则:对于任何人工制品,无论其个别属性或形状如何,都通过形状形成一个类别。

第4步展示了这种高阶概括的潜在发展后果——注意正确的属性,形状——对于学习人工制品的新名称。这种解释的合理性已在实验研究中得到证明,这些研究通过教给孩子们相关的相关性有效地加速了词汇习得功能,并在神经网络模拟研究中得到证实。

语言在促进形成第二阶概括方面的作用可能非常特殊。最近的模拟研究表明,语言标签的任意性和正交性可能是关键。如果标签(词汇)不是正交的,那么容易形成第二阶概括并产生加速词汇习得率的神经网络就不会做到这一点。

【笔者注:这里提到了很多语言学的概念术语,解释如下:

“正交性”(orthogonality)是指在语言或其他符号系统中,不同的符号或概念在表示上是相互独立的,互不重叠。这种正交性使得每个符号或概念在思维和处理中更清晰、更易于区分。例如,字母“A”和“B”在视觉和发音上都是独立的。字母表正交性使得每个字母都可以清晰地被识别和区分,而不会与其他字母混淆。

“第二阶”(second-order)通常指的是更为复杂或抽象的概念或规则。在儿童的语言发展中,第二阶概括可能指的是儿童不仅学习了具体的词汇和概念,还能理解并应用更抽象的规则或模式来组织这些词汇和概念。例如,他们不仅学会“这是一个球”这样的具体事实,还能理解更一般的规则,比如“物体通常按照形状分类”。

“类似规则的”(rule-like)是指这种概括或概念的形式类似于一个规则或原则,它指导或影响儿童如何处理和理解信息。在语言学习的背景下,这可能涉及到如何根据语言中的模式或规则来形成单词、句子或语义的理解。例如,当一个儿童学习到某个物体的名称(例如,“球”)后,他们往往会应用一种“规则”,即假设每个独特的物体都有一个独特的名称。因此,当他们遇到一个新的物体(比如一个他们之前没见过的玩具车)时,他们会期望这个新物体有一个全新的名称,而不是已经学过的任何一个名称。】

语言采取这种形式解决了哪些计算问题?

任意符号所带来的优势远远超出了这里暗示的内容。更为人所熟知的是符号系统的属性,即由符号组合的可能性产生的能力。对于自然语言,这是语法的领域。所有已知的自然语言都具有符号系统的两个基本属性。

首先,它们至少是近似组合的。也就是说,在语法领域,与个别词素领域不同,语言绝非任意。组合性允许听者理解他们以前未曾听到的词素组合,也使说话者能够产生他们以前从未产生或听过的词素组合。一个知道什么是dax的英语说话者自动知道daxes指的是不止一个dax。【笔者注—能够理解或创造新的表达,简言之就是望文生义】

其次,作为符号的单词允许构建结构化的表达,特别是那些具有嵌入性的表达。嵌入性之所以可能,是因为代表符号间关系的符号本身可以扮演代表物体的符号的角色。所以我们可以说像“John认为Mary怀疑他喜欢她”和“教我喜欢的课的那个女人”这样的句子。【笔者注—能够确定层层嵌套的关系背后实际指代的对象】

语言表达的正交性可能也是源于词素层面形式-意义关系的任意性,它可能是语言这些属性背后的原因。如果一个句子中的单词表达显著重叠,就无法在组合这些单词的意义时将它们保持独立。正交表达允许同时在短期记忆中维持几个独立的项目,而不会产生显著的干扰。这并不否认这些单词背后概念的丰富、分布式表达;它只是突出了正交指针对这些表达的价值。这些指针可以被操作(组合、在结构中关联),而不必直接参照它们的意义或发音。

这种能力不仅局限于自然语言的语法。这种组合和构建结构化表达的潜力适用于其他符号处理领域,似乎也是人类活动如明确规划和数学的特征。长期以来,人们提出通过语言进入符号处理的途径,尽管这个想法仍有争议,但我们认为它值得认真对待。首先,因为句子结构映射到事件结构,语言可能会教导孩子们如何关注事件结构,就像它显然教会他们关注物体的特定维度一样。其次,一旦学会了允许语言具有组合性和结构化的正交符号,就可以为其他符号系统提供基础,比如代数背后的系统。【笔者注——不仅限于语言本身,还可能影响其他符号系统的发展,例如数学和逻辑。语言通过它的结构和功能可能帮助人们学习如何处理和组织其他类型的符号系统。】

对embodied ai的启示?

在语言世界中成长使孩子们以至少三种方式变得更聪明。

首先,最明显的是,通过学习语言,孩子们获得了更直接地获取他人知识的途径。孩子们可以接受指导,当他们对某事不确定时,他们可以提问,并最终以书面形式搜索信息。虽然这种显性口头形式的知识可能没有直接经验结果的知识丰富,但它可以补充基于经验的知识,特别是在孩子们无法直接体验的领域。

其次,在学习语言时,孩子们被呈现了一个关于世界中的物体、属性和关系的显性分类。自然语言中的每个词素代表了一系列感觉、运动和认知经验的概括,通过标记这个范围,词素充当了一种受监督的类别学习形式,这对其他生物来说是不可用的。因此,学习语言的一个结果是形成了一种本体论。这不仅使孩子们能够注意到他们可能错过的规律性(例如,形状对人工制品或运动对有生命体的重要性),而且因为本体论是语言社群成员共享的,它保证了社群成员对世界反应的一定程度的共同性。【笔者注——语言相当于给儿童的监督式的类别学习,学习的结果是对世界的结构化理解,这种理解和其他人有一定的共通点,类似于民族文化】

第三,正如我们在这里所暗示的,学习语言可能是成为象征性思维的关键,其本质可能会改变学习者的计算能力。每个单词将一个分布式的语音模式和一个分布式的概念模式以一种看似局部的,或至少是正交的方式关联起来。这种关联的主要任意性质可能有助于学习局部词汇表达;因为单词形式的相似性并不意味着对应意义的相似性,反之亦然,不重叠的中介表达是最有效的选择。无论原因如何,关于语言产出中词汇访问的研究指出,首先,这表明了独特词汇层面表达的心理实际性,其次,指出了这些表达的基本正交和竞争性质。这些局部表达的优势在于可以直接对它们进行复杂推理:它们可以相互关联,甚至可以在层次结构中排列,象征性地表示那些无法通过组成概念的分布式重叠表达实现的内容。因此,象征性推理的力量——规划、逻辑和数学——可能最终源自单词在指向概念方面的功能。【笔者注——语言中概念→单词的推理,引发了规划、逻辑、数学等具有象征性思维的学科发展】

结论

人工生命试图通过复杂的算法来模拟生物系统。我们在这篇文章中提出,发展心理学为创造真实世界中生活、与之相连、并了解那个世界的智能提供了可用的启发。婴儿开始时拥有一个健全的身体,配备了多种感觉和行动系统。而即使是拥有了一些预编程和硬连线的机器人,也无法达到即使是3岁儿童的标准,除非它被调整以适应那个世界的详细统计数据。我们认为,embodied intelligence是发展的。在一个(embodied)人类儿童中,智能随着孩子探索世界而出现,利用其复杂的统计学习能力来捕捉周围的微妙规律。因为孩子从小开始逐渐进步,其中的成长带给孩子这世界中不同的规律,这些规律包括孩子和social partners之间的耦合,以及一个符号系统(自然语言)。儿童实现了超越任何其他动物,甚至任何当前人工设备的智能。从婴儿那里得到的启发是:智能不仅仅是具体化的;它变得具体化。(The lesson from babies is: intelligence isn’t just embodied; it becomes embodied)