快捷搜索:

一图尽展视频游戏AI技术,不怕不怕

日期:2019-11-20编辑作者:澳门新葡8455手机版

谷歌的开发人员们希望「多巴胺」的灵活、便于使用的特性可以帮助研究人员们尝试新的点子,不论是逐步改进的,还是根本性颠覆的。谷歌已经把「多巴胺」应用到了自己的科研中,已经借助它的灵活性快速迭代改进了许多想法。所以谷歌不仅希望把这个美妙的工具分享给更多研究人员,帮助整个领域的研究人员更快地做出进展,也可以借助更多力量把「多巴胺」做得更好。

1、通用视频游戏(General Video Game Playing)

AI 科技评论按:强化学习的研究如此火热,但强化学习的研究中又有如此之多的实践上的困难。「工欲善其事,必先利其器」,谷歌就推出了一个强化学习研究专用的框架帮自己减负、加速。 AI 科技评论把谷歌的介绍博客编译如下。

澳门新葡8455手机版 1

via ai.googleblog.com,雷锋网 AI 科技评论编译返回搜狐,查看更多

澳门新葡8455手机版 2

便于使用的实现

论文标题:Deep Learning for Video Game Playing

澳门新葡8455手机版 3

7、处理极大的决策空间

今天谷歌发布了一个新的基于 TensorFlow 的强化学习框架「多巴胺」(Dopamine)。多巴胺是人脑中「行为 - 反馈」激励通路的主要组成部分之一,多巴胺的释放可以给人带来开心愉悦的感觉;它同时也反映了神经科学研究和强化学习研究之间渊源流长的联系。正如其名,它的目标是提供一个兼顾灵活、稳定、可重复性的强化学习实验框架,让不论资深还是新手研究人员都感受到「多巴胺」带来的放松和愉悦,从而帮助他们更多、更快、更好地开展有可能带来颠覆性发现的思辨、探索研究。

3、强化学习

责任编辑:

游戏中的深度学习

在过去的几年中,强化学习研究中涌现了许多重大技术进展。这些技术进展已经帮助智能体在游戏中发挥出超越人类的水平,著名的几个例子包括 DeeopMind 玩 Atari 游戏的 DQN、下围棋的 AlphaGo 和 AlphaGo Zero,还有近期连续击败了业余玩家和前职业选手的 DOTA2 AI OpenAI Five。

澳门新葡8455手机版 4

其中值得展开说明的是,DQN() 中引入的记忆回放特性让当前智能体可以利用以前的不同智能体的经验进行学习,大规模分布式训练(

在监督学习中,模型是从样本中训练出来的。大数据集通常有利于提高模型的性能。在游戏中这些数据可以来自游戏踪迹(即人类在游戏中的记录),用这些数据可以训练 agent 学习从输入状态到输出动作的映射。

github 地址:

2015 年,DQN 被应用到了文本冒险游戏中。不久之后,它被修改为针对特定于语言的文字冒险游戏的架构,并使用「state-action」对的相关性作为 Q 值。关于这些游戏的大部分工作都重点关注显式的语言建模上。「golovin ai agent」和「Affordance Based Action Selection」都利用神经网络学习了语言模型,该语言模型为智能体玩游戏提供动作选择机制。最近,在 2018 年,研究人员再次将 DQN 与一个动作消融网络(Action Elimination Network)联合使用。

大多数时候,探索更新更好的技术都需要一个从基础设计开始进行快速迭代的过程 —— 这个迭代改进的过程不一定有什么清晰的方向 —— 而且也会打乱已有方法的结构。然而,多数现有的强化学习框架提供的灵活性 稳定性组合并不理想,不足以让研究人员们高效地迭代改进正在探索的强化学习方法,拖慢了他们发现那些收益更偏向长远的研究方向的脚步。除此之外,现有的框架中复现现有模型的结果也非常耗费时间,这也为后续科研活动中的可重复性要求埋下了隐患。

Doom 是 2016 年被使用的另一个新对比基准。在这款游戏上的大部分工作都是针对为 Atari 设计的方法的扩展,从而处理更丰富的数据。A3C 递进学习(curriculum learning)的方法提出将递进学习与 A3C 结合使用。DRQN 辅助学习的方法通过在训练过程中加入额外的奖励来扩展 DRQN。DQN SLAM 融合了 DQN 与映射未知环境的技术。

除了彩虹 DQN ( 3 个基于数值的智能体:DQN、C51( ICML 2018 上的隐式分位数网络( 学习环境(

目前几乎所有关于 DL 玩游戏的研究都旨在创造尽可能获得高分的智能体。但出于游戏测试、创建教程和演示游戏的目的,能够创建具有特定技能水平的智能体可能很重要。

澳门新葡8455手机版 5

依然存在的挑战

「多巴胺」的设计原则是

澳门新葡8455手机版 6

可重复性谷歌的开发人员们也对强化学习研究中的可重复性问题有非常深的感受。为了提供一些可重复性的保障,「多巴胺」的代码提供了完整的测试功能;测试功能也就可以作为另一种形式的文档。除此之外,「多巴胺」也遵循了 arxiv.org/abs/1709.06009中提出的关于在 Arcade 学习环境中标准化经验评价的建议。

虽然深度学习在视频游戏中取得了显着成效,但仍存在许多重要的开放性挑战。事实上,如果从未来十年或二十年来回顾现在的研究,我们很可能会将现在的研究看做重大研究的初期。在论文中,作者将当前游戏 AI 所面临的挑战分为四大类——代理模型属性、游戏产业、游戏中的学习模型、计算资源等,并做了详细分析。我们在此仅对「代理模型属性」的开放问题作以简单介绍。

遵循这些设计原则,「多巴胺」的首个版本重点关注了目前最先进的运行在单 GPU 上的彩虹 DQN,它在 Atari-2000 游戏中有惊人的表现。根据论文中得到的结论,「多巴胺」中的彩虹 DQN 实现了以下三个最为重要的组件:

深度学习方法的快速发展无疑受益于公开数据集上的评测。游戏 AI 也是类似,一个游戏 AI 算法的好坏完全由游戏中得分多少或者能否赢得比赛而决定。像 IEEE 计算智能和游戏大会(IEEE Conference on Computational Intelligence and Games)这样的会议在各种游戏环境中进行了广泛的比赛。

原标题:业界 | 探索新的强化学习算法遇到困难?不怕不怕,谷歌为你带来「多巴胺」

2、克服稀疏,延迟或欺骗性的奖励

澳门新葡8455手机版 7

澳门新葡8455手机版 8

新框架,「多巴胺」

深度学习中一种重要的无监督学习技术是自动编码器,它是一种试图学习使输入与输出一致的神经网络。网络由两部分组成:将输入 x 映射到低维隐藏向量 h 的编码器,以及尝试从 h 重构 x 的解码器。主要思想是,为了保持较小的 h,网络必须学会压缩数据,从而学习良好的表示。研究人员将这种无监督算法应用于游戏,可以从高维数据中提取到更有意义的低维数据。但目前这一研究方向仍处于早期阶段。

  • 便于实验:新用户也可以简单地运行 benchmark 实验
  • 灵活开发:新用户也可以简单地尝试新的研究想法
  • 紧凑可靠:提供了几个经过检验的算法的实现
  • 可重复性:帮助提高实验结果的可重复性

DL技术历史沿革

谷歌也在「多巴胺」中打包了经过训练的模型、原始统计记录以及可以在 Tensorboard 中绘图的 TensorFlow 事件记录文件。

在强化学习中,agent 通过与向 agent 提供奖励信号的环境交互来学习行为。视频游戏可以容易为强化学习设立环境,而玩家则建模为可以在每个步骤采取有限动作集的 agent,奖励信号可以由游戏分数来确定。

澳门新葡8455手机版 ,上手快捷清晰、简介是框架设计、代码编写中的重要考量要素。「多巴胺」提供的代码紧凑,只有大约 15 个 Python 文档,而且有完善的注释。

大多数方法建模的智能体通常只考虑游戏分数。但如果期望人类在视频游戏中与基于人工智能的机器人对抗或合作,其他因素也会发挥作用。类人游戏是一个活跃的研究领域。

「多巴胺」框架的设计面向研究人员,它是一个简单但鲁棒的框架,适合用于强化学习算法设计中的快速原型设计和迭代改进。如果算法研究人员需要一个轻量、容易理解的代码库,为了自由地尝试各种不同的甚至狂野的想法,「多巴胺」就是最合适的选择。

澳门新葡8455手机版 9

Benchmark 对于新手研究人员来说,能够在 benchmark 中快速比较自己的想法和已有方法的表现是非常重要的。出于这个目的,「多巴胺」也提供了包含的四个智能体的全部训练数据,其中均包含了 Arcade 学习环境支持的 60 个游戏中的数据;格式有 Python 格式以及 JSON 格式。谷歌的开发人员们还额外设计了一个网站,可以在上面快速可视化这四个智能体在所有 60 个游戏中的训练过程。下图是四个智能体在 Atari 游戏 Seaquest 中的训练过程。

Montezuma's Revenge 等以稀疏奖励为特征的游戏仍然是大多数深度强化学习方法的挑战;虽然最近将 DQN 与内在动机或专家演示相结合的进步可以提供帮助,但是对于当前深度 RL 方法而言,具有稀疏奖励的游戏仍然是一个挑战。

  • n 步 Bellman 更新(详情参见
  • 优先经验重放学习(
  • 值分布方法(

4、终身适应

论文中对各种与深度学习相关的流行游戏及研究平台的特征及面临的挑战做了详尽的介绍,这里不再一一赘述。

DQN 是一种影响巨大的算法,它将基于梯度的深度学习应用于基于像素的视频游戏中,其最初被应用于 Atari 基准测试。请注意,还存在一些更早的方法,但是都没有 DQN 成功。Double DQN 和 Dueling DQN 是使用多个网络改进估计过程的早期的对 DQN 的扩展。DRQN 则采用递归神经网络作为 Q 网络。Prioritized DQN 是另一种早期的扩展,它加入了改进后的经验回放采样技术。Boostrapped DQN 建立在 Double DQN 的基础上,采用不同的改进后的采样策略。在 Atari 游戏中对 DQN 的进一步改进包括:C51 算法,该算法基于 DQN,但改变了 Q 函数;使网络随机化从而帮助模型进行探索的 Noisy-Nets;同样从示例中学习的 DQfD;结合了许多最先进的技术的 Rainbow 模型。

2016 年底,研究人员基于 Q-learning 进行了针对于星际争霸游戏中的微操的研究工作。IQL 通过将所有其他智能体视为环境的一部分,扩展了 Prioritized DQN。COMA 通过计算反事实奖励(每个智能体增加的边际收益)扩展了 IQL。biCNet 和零阶优化也是基于强化学习的方法,但不是从 DQN 中引申出的。另一种流行的方法是层次学习。2017 年,研究人员将回放数据技术与层次学习结合,进行了相关的尝试。2018 年,用两种不同的强化学习方法与层次学习方法相结合的技术取得了目前最佳的性能。

游戏类型和研究平台

当玩家总是在 FPS 地图中的相同位置遭伏击时,人类玩家可以快速改变其行为;然而当前的大多数智能体则需要昂贵的再训练才能适应这种情况以及它们在训练期间未遇到的其他不可预见的情况。

选自arXiv

无监督学习的目标不是学习数据与其标签之间的映射,而是发现数据中的模式。这些算法可以学习数据集的特征分布,可以用于聚类相似数据,将数据压缩为基本特征,或创建原始数据特征的新合成数据。对于奖励稀疏的游戏,例如蒙特祖玛的复仇(Montezuma』s Revenge),以无监督的方式从数据中学习是一种潜在的解决方案,也是一项重要的开放式深度学习挑战。

RNN 通常应用于时间序列数据,其中网络的输出取决于先前时间步骤的激活。除了网络的先前隐藏状态与下一个输入一起反馈给网络外,RNN 的训练过程类似于前馈网络。这就允许网络通过记忆先前的激活而变得具有上下文感知,这在那种单个观察不代表完整状态的游戏中是非常有用的。对于 shi'pi 视频游戏,通常使用一堆卷积层,然后是循环层和完全连接的前馈层。

澳门新葡8455手机版 10

本文由澳门新葡8455手机版发布于澳门新葡8455手机版,转载请注明出处:一图尽展视频游戏AI技术,不怕不怕

关键词:

AI的嘻哈也很酷,中国可以有嘻哈

原标题:Homie快来听,AI的嘻哈也很酷 | DeeCamp Show 什么是嘻哈,嘻哈是什么? Homie快来听,AI编的hiphop,耳朵听了会怀孕...

详细>>

微软开源人工智能工具和深度学习框架,计算机

图片来源:www.pexels.com 官方主页: 孙剑 :我们在南京成立了研究院,与南京大学有合作,我们和西安交大人机所、上...

详细>>

未来人工智能是生产力,但为何获得巨大商业成

原标题:思维导图 | 乔布斯与比尔盖茨都没新发明, 但为何获得巨大商业成功? 区块链技术,被认为是继蒸汽机、电...

详细>>

美国科学家在南卡州附近海域发现大片珊瑚礁,

原标题:美国科学家在南卡州附近海域发现大片珊瑚礁 美国科学家近日宣布在美国南卡罗来纳州近海发现了大片珊瑚...

详细>>