读心术在我们人类中很常见。 不是以心理学家声称的方式,通过获得充满每个人经验的温暖意识流,或者以心理学家声称的方式,通过随意从你的脑海中抽出一个想法。 日常的读心术更加微妙:我们观察人们的面部表情和动作,倾听他们的话语,然后判断或凭直觉判断他们脑子里可能在想什么。
在心理学家中,这种直觉心理学——将不同于我们自己的心理状态归因于他人的能力——称为心理理论,它的缺失或受损与 自闭症, 精神分裂症 和别的 发育障碍. 心理理论帮助我们相互交流和理解; 它使我们能够欣赏文学和电影、玩游戏并了解我们的社会环境。 在许多方面,能力是人的重要组成部分。
如果机器也能读心会怎样?
最近,斯坦福商学院的心理学家 Michal Kosinski, 提出了那个论点:像 OpenAI 的 ChatGPT 和 GPT-4 这样的大型语言模型——在来自互联网的大量文本上训练的下一个词预测机器——已经发展出了心智理论。 他的研究尚未经过同行评审,但它们引发了认知科学家之间的审查和对话,他们最近一直在尝试回答这个经常被问到的问题——ChatGPT 能做到吗 这? – 并将其转移到更强大的科学探究领域。 这些模型有什么能力,它们会如何改变我们对自己思想的理解?
加州大学伯克利分校的心理学家 Alison Gopnik 说:“心理学家不会接受任何仅仅根据你与他们互动的轶事来断言幼儿的能力,这似乎是 ChatGPT 正在发生的事情。” 1980 年代第一批研究心智理论的研究人员。 “你必须做非常仔细和严格的测试。”
Kosinski 博士之前的研究表明,经过训练以分析面部特征(如鼻子形状、头部角度和情绪表达)的神经网络可以预测人们的 政治观点 和 性取向 具有惊人的准确度(第一种情况下约为 72%,第二种情况下约为 80%)。 他最近在大型语言模型方面的工作使用了经典的心理测试理论来衡量儿童归因的能力 错误的信念 给其他人。
新一代聊天机器人
一个著名的例子是 莎莉安妮测试,其中一个女孩 Anne 在另一个女孩 Sally 不注意的时候将一颗弹子从篮子里移到一个盒子里。 研究人员声称,要知道莎莉会在哪里寻找弹珠,观众必须运用心智理论,对莎莉的感知证据和信念形成进行推理:莎莉没有看到安妮将弹珠移到盒子里,所以她仍然相信它是她最后一次离开它的地方,在篮子里。
Kosinski 博士展示了 10 种大型语言模型,这些模型具有这些心理测试理论的 40 种独特变体——描述了像 Sally-Anne 测试这样的情况,在这种情况下,一个人 (Sally) 会形成错误的信念。 然后他向模型询问有关这些情况的问题,促使他们看他们是否会将错误的信念归因于所涉及的角色并准确预测他们的行为。 他发现 2022 年 11 月发布的 GPT-3.5 有 90% 的时间这样做,而 2023 年 3 月发布的 GPT-4 有 95% 的时间这样做。
结论? 机器有心理理论。
但在这些结果公布后不久,哈佛大学心理学家托默·乌尔曼就回应了 一组自己的实验,表明即使是最复杂的大型语言模型,提示中的微小调整也可以完全改变生成的答案。 如果容器被描述为透明的,机器将无法推断有人可以看到它。 在这些情况下,机器很难考虑到人们的证词,有时无法区分容器内和容器顶部的物体。
卡内基梅隆大学计算机科学家 Maarten Sap, 进行了超过 1,000 次心理测试 进入大型语言模型,发现最先进的转换器,如 ChatGPT 和 GPT-4,仅在大约 70% 的时间内通过。 (换句话说,他们 70% 成功地将错误信念归因于测试情境中描述的人。)他的数据与 Kosinski 博士的数据之间的差异可能归结为测试中的差异,但 Sap 博士说即使通过95% 的时间不会成为真正的心智理论的证据。 他说,机器通常会以一种模式化的方式失败,无法进行抽象推理,而且经常会做出“虚假的关联”。
Ullman 博士指出,机器学习研究人员在过去几十年中一直在努力捕捉计算机模型中人类知识的灵活性。 他说,这种困难一直是一个“影子发现”,隐藏在每一个令人兴奋的创新背后。 研究人员已经表明,如果在提出问题之前输入不必要的信息,语言模型通常会给出错误或不相关的答案; 一些聊天机器人被关于会说话的鸟的假设性讨论所抛弃,以至于他们最终 声称鸟会说话. 因为他们的推理对输入的微小变化很敏感,科学家们将这些机器的知识称为“脆”
Gopnik 博士将大型语言模型的心智理论与她自己对广义相对论的理解进行了比较。 “我读了足够多的书,知道这些词是什么,”她说。 “但如果你要我做出新的预测或说出爱因斯坦的理论告诉我们的关于新现象的内容,我会感到很困惑,因为我的脑子里并没有真正的理论。” 她说,相比之下,人类的心理理论与其他常识推理机制相关联; 它在审查面前屹立不倒。
总的来说,Kosinski 博士的工作和对它的回应符合关于这些机器的能力是否可以与人类的能力进行比较的辩论——一场辩论 分裂 从事自然语言处理的研究人员。 这些机器是随机鹦鹉,还是外星智能,还是欺诈骗子? A 2022 调查 该领域的研究人员发现,在做出回应的 480 名研究人员中,51% 的人认为大型语言模型最终可以“在某种非平凡的意义上理解自然语言”,而 49% 的人认为他们不能。
乌尔曼博士并没有低估机器理解或机器心智理论的可能性,但他对将人类能力归因于非人类事物持谨慎态度。 他注意到一个著名的 1944年学习 由 Fritz Heider 和 Marianne Simmel 制作,其中向参与者展示了两个三角形和一个圆形相互作用的动画电影。 当受试者被要求写下电影中发生的事情时,几乎所有人都将这些形状描述为人。
“二次元世界的恋人,毫无疑问; 第二个小三角形和甜蜜的圆圈,”一位参与者写道。 “三角一号(以下简称反派)窥探到年轻的爱人。 啊!”
通过谈论信仰、愿望、意图和想法来解释人类行为是很自然的,而且通常是社会要求的。 这种倾向对我们是谁至关重要——如此重要以至于我们有时会试图读懂没有思想的事物的思想,至少不是像我们自己的思想。