DeepMind(Google 子公司 )的人工智能 AlphaGo 成功以 4 比 1 的战绩击败冠军级围棋选手李世石,并借此向世人宣告人工智能技术已经攻克围棋项目。那么值得 DeepMind 攻坚的下一项任务又会是什么呢?
伦敦大学学院(University College London)的两位研究员撰写了一篇论文,并在论文中提出了一个值得人工智能技术攻坚的项目:扑克牌。和围棋项目不同,人工智能技术若能在扑克项目上取得胜利,研究人员可以将所赢取的资金作为后续科研经费使用。至少在人类醒悟并决定不再在扑克牌上和人工智能产品对赌之前,这个想法依然奏效。
论文的两位作者分别是约翰内斯·海因里希(Johannes Heinrich)和大卫·西尔韦(David Silver),前者是伦敦大学学院的在读研究生,而后者则是伦敦大学学院的讲师。但西尔韦还有着另一层身份:他是 DeepMind 的雇员,而且还是 AlphaGo 项目的主要编程人员。一直以来,西尔韦都被称为是 DeepMind 中默默无闻的英雄,但这篇论文主要和他在伦敦大学学院的工作有关。
论文的研究课题为「从不完全信息游戏的自我博弈中深度强化学习」,作者在论文中描述了他们尝试教导电脑 2 种扑克牌游戏的过程,这两种游戏分别为只使用 6 张扑克牌的简化游戏「Leduc」以及在全世界广受欢迎的德州扑克。
两位研究人员所使用的机制和 AlphaGo 击败李世石时所使用的非常相似。在实验中,计算机通过自学的方式成功掌握了德州扑克的技巧。据称,实验所用计算机在德州扑克上的表现已经接近人类专家水平,所使用的策略也非常先进。而在 Leduc 的表现中,计算机会采取尽量靠近纳什均衡的策略,亦即游戏中的一个数学最优解。
和 AlphaGo 的项目一样,这次两位研究员也使用了所谓的深度强化学习技术,这种技术融合了两种不同的机器学习方法:神经网络技术和强化学习技术。前者通常被应用于大数据领域,由简单决策点组成的网络经过大量信息的训练后可以解决异常复杂的难题。
但在训练数据数量不足,或者训练数据不足以保障训练质量时,强化学习技术可以帮上忙。在这门技术的支撑下,机器在执行任务时可以从自己的错误中吸取教训,进而强化训练效果。这个循环会一直持续,直至机器的表现达到要求为止。和人类选手不同,计算机在学习扑克牌技巧时可以和自己进行博弈,海因里希和西尔韦将这个过程称为「神经虚拟自我博弈」。
在自我博弈的过程中,扑克牌系统可以独立地找出扑克牌游戏的数学最优策略,研究人员甚至无需提前将和扑克牌相关的知识通过编程传授给机器。在某种程度上,扑克牌甚至比围棋更能让计算机为难,因为计算机不能从中获取完全信息。尽管计算机可以通过概率知识精准计算出对手持有某张手牌的概率,但它并不能理解对手的行为。
尽管在本次实验中,计算机仍然未能考虑对手的心理因素,但海因里希和西尔韦却指出在他们的计算机会自我创造,而不仅仅是依赖专业知识。
在接受《卫报》(Guardian)采访时,海因里希表示:「实验结果的关键在于我们所使用的算法具有一般性,且计算机可以在没有任何先行知识的情况下从零开始学习扑克牌游戏。由此我们不难推测,这种方法面对所有的策略性问题都有效。」
「最大的障碍在于一般强化学习技术所关注的更多是单个个体和静态世界之间的互动情况,而策略性问题更多关乎多个个体之间的互动情况,这种情况所牵涉的问题要更富动态性,同时也更具挑战性。」
海因里希补充道:「游戏的不完全信息特质也给深度强化学习构成了障碍,这一点和围棋的机制很不一样。我们有必要克服不完全信息所带来的问题,因为在解决现实问题时,机器往往需要在不具备完全信息的情况下作出决策。」
数学家非常热衷于扑克游戏,他们认为这些游戏在现实世界中极具代表性。扑克博弈中信息的隐藏性、报酬的倾斜性以及心理等因素在冷战时期的政治博弈中得到了极大的体现。博弈论正是从扑克牌等游戏项目中衍生而成,但现在气候变化和人口性别比例等复杂问题都已经被纳入博弈论的范畴。
热门产业资讯