我们的大脑是如何获取和组织空间信息的,譬如我们在哪里?那里有什么?如何到那里?......等等,一直是人类面对的挑战问题。这种认知对我们平常人来说是那么普通和自然,可是实际上却又是那么复杂与深奥。
这种认知涉及到从数百亿个神经元中调用我们大脑的整个记忆网络和存储的空间数据,每个神经元都与成千上万的其他神经元相连。现代神经科学家们已经确定了一些关键因素,如网格细胞,即绘制位置图的神经元。
问题是,再进一步的深入研究就发现麻烦了:神经科学家们不可能为此把人的大脑割下来,然后一片一片地切片,研究大脑灰质的切片,以观察基于位置的图像、声音和气味的记忆具体是如何流过并相互连接的。
现在,人工智能提供了另外一种进入人的大脑的方式。多年来,神经科学家已经利用多种类型的神经网络,这些神经网络是为大多数的深度学习应用提供动力的引擎,来模拟大脑中神经元的激发。
在最近的研究中,研究人员表明,海马体,一个对人的记忆至关重要的大脑结构,基本上就是一种称为“变换器”的神经网络模型。该研究的新模型以一种与大脑内部运作相似的方式追踪空间信息。科学家们看到了显著的成功。
变换器,英语:Transformer,在人工智能中是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。该模型现普遍应用于自然语言处理(NLP)与计算机视觉(CV)领域。
与循环神经网络(RNN)一样,变换器模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。而与RNN不同的是,变换器模型能够一次性处理所有输入数据。注意力机制可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言,则变换器不必像RNN一样一次只处理一个单词,这种架构允许更多的并行计算,并以此减少训练时间。
变换器模型于年由谷歌大脑的一个团队推出,现已逐步取代长短期记忆(LSTM)等RNN模型成为了NLP问题的首选模型。并行化优势允许其在更大的数据集上进行训练。这也促成了BERT、GPT等预训练系统的发展。这些系统使用了维基百科、CommonCrawl等大型语料库进行训练,并可以针对特定任务进行微调。
最初为语言处理而设计的这个神经网络模型,现在被证明是如何模仿人类大脑的空间概念的理想模型。
斯坦福大学和牛津大学的认知神经科学家、詹姆斯·惠廷顿(JamesWhittington)说:"我们知道这些大脑模型等同于变换器,这意味着我们的模型表现得更好,更容易训练。”
惠廷顿和其他人的研究表明,变换器可以极大地提高神经网络模型模仿网格细胞和大脑其他部分进行的各种计算的能力。惠廷顿说,这样的模型可以加深我们对人工神经网络如何工作的认知,甚至更有可能是对大脑中如何进行计算的认知。
"我们不是要重新创造大脑,"谷歌大脑的华人计算机科学家大卫·哈(DavidHa)说,他也在研究变换器模型。"但我们能不能开发一种机制,能做大脑所做的事情?"
变换器在五年前首次出现,作为人工智能处理语言的一种新方式,是如轰动一时的BERT和GPT-3等句子完成程序中的秘密武器,这些程序可以生成令人惊叹的歌词、创作莎士比亚十四行诗、冒充客户服务代表等。
变换器使用一种叫做自我注意的机制工作,其中每个输入,如一个单词、一个像素、一个序列中的数字等,总是与其他每个输入相连,转换器首先将每个元素连接到每个其他元素,从第一层创建一个全局(如果不完整)表示。而其他的神经网络模型,如一个卷积神经网络(CNN),只将输入与某些其他输入相连,反复过滤图像的一小部分,使用数学计算来映射特征并构建更完整、更复杂的图片。虽然变换器是为语言任务而设计的,但它们后来在其他任务中也表现出色,如对图像进行分类,以及现在对大脑进行建模。
年,奥地利开普勒大学计算机科学家、塞普·霍赫雷特(SeppHochreiter)和他的团队使用变换器重新调整了一个强大的、历史悠久的记忆检索模型,即著名的“霍普菲尔德网络”。这些网络在40年前由普林斯顿物理学家约翰-霍普菲尔德首次提出,遵循一个一般规则:在同一时间活跃的神经元相互之间建立起强有力的联系。
霍赫雷特和他的团队注意到,研究人员一直在寻找更好的记忆检索模型,他们看到了霍普菲尔德网络如何检索记忆和变换器如何执行注意力之间的联系。他们升级了霍普菲尔德网络,基本上把它变成了一个变换器。惠廷顿说,这种变化使模型能够存储和检索更多的记忆,因为有更有效的连接。霍普菲尔德本人与麻省理工学院-IBM沃森人工智能实验室的德米特里-克罗托夫(DmitryKrotov)一起,证明了基于变换器的霍普菲尔德网络在生物学上是合理的。
然后,今年早些时候,惠廷顿和他的同事帮助进一步调整了霍克雷特的方法,修改了变换器,使其不再将记忆视为线性序列,就像句子中的一串单词,而是将其编码为高维空间的坐标。研究人员称这种"扭曲"进一步提高了该模型在神经科学任务中的表现。他们还表明,该模型在数学上与神经科学家在功能性磁共振成象扫描中看到的网格细胞发射模式的模型相当。
"网格细胞具有这种令人兴奋的、美丽的、有规律的结构,而且具有引人注目的图案,不太可能随机出现,"伦敦大学学院神经科学家卡斯威尔·巴里(CaswellBarry)说。这项新工作显示了变换器如何准确地复制了在海马体中观察到的那些模式。"他们认识到,一个变换器可以根据以前的状态和它的移动方式弄清楚它在哪里,而且是以一种关键的方式进入传统的网格细胞模型。"
最近的其他研究表明,变换器也可以促进我们对其他大脑功能的理解。去年,麻省理工学院的计算神经科学家马丁-施里姆普夫(MartinSchrimpf)分析了43种不同的神经网络模型,看看它们对由功能性磁共振成象和皮质电图报告的人类神经活动测量的预测程度如何。他发现,变换器是目前最为领先的、最先进的神经网络,几乎预测了成像中发现的所有变化。
而大卫·哈与同为谷歌大脑的华人计算机科学家唐玉金(YujinTang)最近设计了一个模型,可以故意通过变换器以随机、无序的方式发送大量数据,模仿人体如何向大脑传输感官观察。他们的变换器,像我们的大脑一样,可以成功地处理无序的信息流。
唐说:"神经网络是硬件连接的以接受特定的输入。但在现实生活中,数据集经常快速变化,而大多数人工智能没有任何办法调整。""我们想尝试一种能够非常迅速地适应的架构。"
"我的感觉是,这种架构,这种变换器,让你在正确的空间里了解大脑的结构,并且可以通过训练来改进,"施里姆普夫说。"这是一个好的方向。"
变换器模型通过训练通常会进行自监督学习,包括无监督预训练和监督微调。由于监督微调时使用的带标签训练数据一般比较有限,预训练通常会在比微调时所用的更大的数据集上完成。预训练和微调的任务通常包括:语言建模、下一句预测、问答系统、阅读理解、文本情感分析、文本改写。
变换器模型在自然语言处理(NLP)领域取得了巨大成功,例如机器翻译与时间序列预测任务。包括GPT-2、GPT-3、BERT、XLNet与RoBERTa在内的许多预训练模型展示了变换器模型执行各种NLP相关任务的能力,并有很多潜在实际应用。这些应用包括:机器翻译、文本摘要、文本生成、命名实体识别、生物序列分析、视频理解等。