想想那些在你脑海中盘旋的词:晚餐时你明智地留给自己听的那个无味的笑话; 你对你最好朋友的新伙伴的无声印象。 现在想象一下,有人可以偷听。
周一,得克萨斯大学奥斯汀分校的科学家朝这个方向又迈出了一步。 在发表的一项研究中 在自然神经科学杂志上,研究人员描述了一种人工智能,它可以通过分析功能磁共振成像扫描来翻译人类受试者的私人想法,功能磁共振成像测量血液流向大脑不同区域。
研究人员已经开发出语言解码方法来 拿起试图演讲 失去说话能力的人,并允许 瘫痪的人写 而只是想写作。 但新的语言解码器是首批不依赖植入的语言解码器之一。 在这项研究中,它能够将一个人的想象中的演讲变成真实的演讲,并且当受试者观看无声电影时,它能够对屏幕上发生的事情产生相对准确的描述。
“这不仅仅是一种语言刺激,”帮助领导这项研究的大学神经科学家亚历山大·胡特 (Alexander Huth) 说。 “我们正在理解意义,关于正在发生的事情的想法。 事实上,这是可能的,这非常令人兴奋。”
该研究以三名参与者为中心,他们在几天内来到 Huth 博士的实验室 16 个小时,收听“The Moth”和其他叙事播客。 当他们聆听时,功能磁共振成像扫描仪记录了他们大脑部分区域的血氧水平。 然后,研究人员使用大型语言模型将大脑活动的模式与参与者听到的单词和短语进行匹配。
OpenAI 的 GPT-4 和谷歌的 Bard 等大型语言模型接受了大量写作训练,以预测句子或短语中的下一个单词。 在此过程中,模型会创建地图,指示单词之间的关系。 几年前,胡特博士 注意到 这些地图的特定部分——所谓的上下文嵌入,捕捉短语的语义特征或意义——可以用来预测大脑如何响应语言而亮起。
没有参与这项研究的大阪大学神经科学家 Shinji Nishimoto 说,从基本意义上说,“大脑活动是一种加密信号,语言模型提供了破译它的方法。”
在他们的研究中,Huth 博士和他的同事有效地逆转了这个过程,使用另一个 AI 将参与者的 fMRI 图像翻译成单词和短语。 研究人员通过让参与者听新录音来测试解码器,然后查看翻译与实际转录本的接近程度。
几乎每一个词在解码后的文字中都是错位的,但这段话的意思却被定期保留下来。 本质上,解码器是在释义。
成绩单原件:“我从充气床垫上站起来,把脸贴在卧室窗户的玻璃上,本以为会有眼睛盯着我看,结果却发现一片漆黑。”
从大脑活动解码: “我只是继续走到窗户,打开玻璃,我用脚尖站立,往外看,我什么也没看到,再抬头看,我什么也没看到。”
在 fMRI 扫描下,参与者还被要求静静地想象讲一个故事; 之后,他们大声复述了这个故事,以供参考。 在这里,解码模型也抓住了未说出版本的要点。
参与者的版本:“寻找我妻子的消息,说她改变了主意,她要回来了。”
解码版:“出于某种原因见到她,我以为她会来找我,说她想念我。”
最后,受试者在接受 fMRI 扫描时再次观看了一段简短的无声动画电影。 通过分析他们的大脑活动,语言模型可以解码他们正在观看的内容的粗略概要——也许是他们对正在观看的内容的内部描述。
结果表明,AI 解码器不仅捕获了单词,还捕获了意义。 “语言感知是一个外部驱动的过程,而想象力是一个活跃的内部过程,”西本博士说。 “作者表明,大脑在这些过程中使用共同的表征。”
麻省理工学院的神经科学家 Greta Tuckute 没有参与这项研究,她说这是“高层次的问题”。
“我们能解码大脑的意义吗?” 她继续说。 “在某些方面,他们表明,是的,我们可以。”
Huth 博士和他的同事指出,这种语言解码方法有局限性。 一方面,fMRI 扫描仪体积庞大且价格昂贵。 此外,训练模型是一个漫长而乏味的过程,要有效,必须对个人进行。 当研究人员试图使用在一个人身上训练过的解码器来读取另一个人的大脑活动时,它失败了,这表明每个大脑都有独特的表示意义的方式。
参与者还能够屏蔽他们内心的独白,通过思考其他事情来摆脱解码器。 AI 或许能够读懂我们的思想,但目前它必须一次读一个,并获得我们的许可。