中科技术让白癜风患者早绽笑容 http://www.bflvye.com/1新智元编译
来源:arXiv.org
译者:李静怡
谷歌DeepMind创始人DemisHassabis等人近日发表论文,延续其拓展的辅助学习系统理论,为智能体设计了一个“不需要模型的情景控制器”,深度强化学习算法在配备上这样的系统之后,在更短的时间内,玩游戏就能达到人类水平。此前Hassabis等人认为,哺乳动物学习需要两个系统:一个缓慢学习结构化知识,一个快速存取信息,这些快速存取的信息能够回放,最终整合进入第一个系统。这次,DeepMind团队依照这个理论,为智能体设计了一个用于快速存储信息并且能够帮助信息回放并整合进入第一个系统的学习系统,验证了此前的理论,为开发更加智能的机器又迈出一步。
谷歌DeepMind创始人DemisHassabis等人日前在arXiv.org刊登新作,论文题为《不需要模型的情景控制系统》(Model-FreeEpisodicControl)。
这是Hassabis等人此前在细胞出版社旗下期刊TrendsinCognitiveSciences发表有关“辅助学习系统”的理论之后,在计算机模型设计上的一次实践。
Hassabis等人此前拓展辅助学习系统(CLS)理论,认为哺乳动物学习需要两个系统:一个缓慢学习结构化知识,一个快速存取信息,第二个系统内这些快速存取的信息能够被回放,最终整合进入第一个系统。
在人类和其他哺乳动物的脑中,辅助学习系统位于海马体。有了新的体验后,信息会先存储在海马体,供人直接使用。此外,我们也会把这些信息拿出来,不断回放给大脑皮层,使这些信息与其他相关经历在脑中形成的既有信息相结合。这样,辅助学习系统实现了即时学习,并使信息能够逐渐整合进入大脑新皮层的结构化知识表征。
这次,DeepMind团队根据该理论,为深度强化学习算法设计了一个“辅助学习系统”,试验证明,算法在依照这样的策略行动后,表现得更好更快。
观看算法玩游戏的视频到这里→