欢迎访问“民生财经杂志网”，我们向网民提供非常全面的股票,期货,黄金,外汇,个股等金融投资相关的资讯财经新闻,帮助新手股民学习掌握股票入门基础知识,了解更多丰富精彩的股票金融知识。

javascript:;

主页 > 商业信息 > 财讯：计算机是怎么玩游戏的？

财讯：计算机是怎么玩游戏的？

来源：网络转载更新时间：2020-12-27 20:21:01阅读：

本篇文章2096字，读完约5分钟

全文是4799字，阅读大约需要8分钟。

本报记者

张明悦新闻科技学院班硕士研究生

李华紧紧地盯着屏幕，额头渗出汗水，鼠标点击的频率达到了每秒5次。面对潮水般涌来的虫族战士，他把鼠标键盘扔在一边，向我求助说:“这个游戏怎么玩，很难。”

我笑了一会儿，用鸭嘴笔蘸上他的乐趣水，写了两篇洋文。

李华心领神会叹息说:“博弈论，书一定有胜利之路吧。”

工欲善其事必先利其器:博弈论

游戏表演不是字面上的“博弈论”，通常被翻译成物流对策，被更广泛接受的翻译法则是“博弈论”。

一个游戏一般有七个要素，玩家，行动，新闻，战略，收益，结果和均衡，博弈论的目的是利用由玩家，行动和结果组成的游戏规则来预测均衡。以星际旅行为例，玩家是游戏的参与者。行动是游戏中各参加者可以进行的操作。新闻是玩家在游戏中可以获得的所有知识，包括对方的行为、地图新闻等。战略是玩家给出消息后采取行动的一系列方案。例如，前期枪兵继续骚扰。收益是游戏结束后玩家的胜负或得分。结果，游戏结束后，成为玩家感兴趣的游戏整体的数据。平衡是所有玩家都采取最佳战略的组合。

财讯：计算机是怎么玩游戏的？

“太棒了。这样，给与游戏就会计算均衡，按照均衡战略操作。 ’李华暗自高兴。

游戏可以分为动态、静态、完全新闻和不完全新闻。星际争霸这个游戏大致可以分为不完全新闻的动态游戏。囚犯困境是完全新闻静态游戏的有名例子。

首先，看更简单的情况，完全的新闻动态游戏。围棋、象棋是这种游戏的典型，可以用游戏树的做法来表示。图中的红色方块表示玩家1的决定节点，蓝色方块表示玩家2的决定节点，白色方块表示玩家1采取最后行动后获得的利益，特别是该游戏是零和游戏，与双方的利益总是零。

财讯：计算机是怎么玩游戏的？

；

△图像来源: artificial intelligence and games

这样，玩家1从最下层的决定节点(逆向归纳法)中选择在各节点得分最大的动作，在该节点上标记收益，像第3层左节点那样以左、得分为10、该节点得分为10的完全新闻动态零和游戏为mm 下位节点的标记完成后，玩家2在倒数第二级决定节点选择，得分最小的动作，例如第二级左边的节点选择右边，得分为5，其节点得分为5。如果倒数第二层解决了，同样地解决倒数第三层，类推直到最终到达最上位节点(根节点)，通过结束minmax操作，树上形成的轨迹(粗线)成为均衡解。为了使操作简单，不用扫描整个树，就可以用字母剪枝的方法剪切不需要的搜索节点。

财讯：计算机是怎么玩游戏的？

“完美！」李华决定画围棋游戏树，用minmax的做法解开后，他说:“这样就能打李世石和跺脚了。 ”。

遗憾的是，三天过去了，李华最终没能完成这个构想。 19x19的棋盘，棋局在3的361次方以下，排除不合理重复的棋局，约； 2.08x10170 ；个，计算量的大小难以想象。李华结束了一生，没有完全展开围棋的游戏树。

在这个又窄又宽的棋盘上，诞生了一代又一代的围棋程序，monte carlo go ； ( 1993 )，mogo ； ( 2006 )阿尔法go ； ()，alphazero ； ()，计算机的围棋水平最终超过了人类。

尧造围棋，以教子丹朱:游戏调教下的人工智能

传说姚子丹朱顽固傲慢，见识浅薄，姚子为教育丹朱设计了围棋，提高了他的姿势水平。并不稀奇，科学家们期待着在游戏中尝试人工智能:“人在ai中愚蠢，所以玩游戏教书。” 双陆棋、国际象棋、围棋、德州扑克，到星际争霸、雷神之锤，都成为人类父亲教育ai儿子最常用的教材。

财讯：计算机是怎么玩游戏的？

李华不停地点头。 “我想这就是我整晚玩play game的原因。 ”。

阿尔法戈获胜的中心是游戏树，但使用蒙特卡洛树搜索( mcts )、CFR ( counterfactualregretminimization )技术、uct算法、深度强化学习等一系列新技术，围棋各种评价值的正确性和计算效率是矛盾的，被称为“搜索利用”困境，搜索是指搜索越来越多的地区，利用是指根据现在的评价值选择最合适的行动。很明显，搜索越多，花在计算上的时间也就越多，棋局的推测就更正确，利用越多，花在计算上的时间就越短，但棋局的推测就更不正确。

财讯：计算机是怎么玩游戏的？

以前的几代“老”围棋程序没有学习能力，需要提供对棋谱和局面的指导意见，但随着算法对围棋游戏树的搜索越来越有效，alphazero终于完全放弃了人类的指导，所谓的“左右

在用围棋这样的完全新闻游戏彻底碾压人类后，ai的教材转移到了扑克、麻将、桥牌等不完全新闻游戏。在这样的游戏中，新闻不对称，知道我的卡，不知道别人的卡。这样构建的游戏树在各节点的新闻集中可能有多个值。 (注:完全新闻不是完美新闻。前者意味着游戏没有不明确性。所有的行动都被包括自然在内的所有玩家注意到。后者对游戏树各节点的新闻集只有一个值，更详细的解释可以参见《博弈论和新闻经济学》的第一、二章。

财讯：计算机是怎么玩游戏的？

新闻的不对称，在极大地发挥人类智力空之间，熟练的玩家可以使用虚势、想擒故纵、声东击西等各种策略欺骗对方取得胜利。这样，人工智能所需的计算量变得更多，也提出了新的技术。 bridge baron ； ( 1997 )，psopti ； ( 2001 )，wbridge5 ； ( 2005 )，libratus ； ()，pluribus ； ( 2019 )人工智能打桥牌，2人打德克萨斯扑克，6人打败人类玩家，取得了胜利。

财讯：计算机是怎么玩游戏的？

李华心里说:“ai这么强，用子矛攻击子盾，怎么样？ ”。

openai在dota2、星际争霸2击败顶级人类玩家后，开始了这项“矛盾”的工作。他们设计了有草坪、有森林、有障碍物、有猎物、有水的虚拟世界。 100个ai玩家诞生在这个世界上。他们饥饿程度、口渴，在这个世界上进行探索、狩猎、饮水和战斗。猎物是有限的，被吃了一会儿再出现新的。每个ai玩家的目标是每隔一秒继续活着。

财讯：计算机是怎么玩游戏的？

在这么多人工智能玩家的场景中，这些玩家被称为代理人、代理人。图中，两个代理相遇后，直接互相发射远程武器，没有任何战略，这样的战斗往往最终一方被杀，另一方残血而终。但是，经过长期的学习，这些ai玩家不仅学到了这样的“菜鸡互啄”，还暗自注意，默默地学到了赚大钱等人生经验。

财讯：计算机是怎么玩游戏的？

△图中的三个代理人，左右两个代理人在战斗，中间的代理人躲在障碍物后面，战斗结束后，与剩下的代理人战斗，受益于渔翁。

图中的代理人逃避与任何代理人的战斗，放心地在森林里捕食猎物

更有意思的是，在这个受丛林法则支配的世界里，尽管ai玩家之间有时会战斗，但整体上还是处于“和平共存”的局面。图中不同颜色的线表示不同的ai玩家的行动轨迹，ai玩家不是跑得满满的，而是固定在一定的区域进行狩猎和饮水，有划分领土的意思。另外，两个ai玩家相遇时，往往不会发生战斗，而是各自离开。

财讯：计算机是怎么玩游戏的？

△图中的线表示不同ai玩家的行动轨迹

如果猎物也成为受人工智能支配的游戏玩家呢？伦敦大学计算机系汪军队设计了捕食者被捕食者的虚拟自然界，有老虎和羊两种，每个人都受人工智能算法(强化学习)控制，最终与自然界相似的结果图中捕食者和被捕食者数量的周期性变化

财讯：计算机是怎么玩游戏的？

教得不严，师懒:训练成“智障”的人工智能

在游戏中训练代理人和巴甫洛夫在原理上类似于训练狗，在计算机行业被称为“强化学习”( reinforcement learning )。人类把代理放在游戏环境中，代理实现某种操作后，狗就站得很整齐，同时获得了汪汪叫三次时给予食物的报酬得分。

财讯：计算机是怎么玩游戏的？

通过加强学习，代理人可以不用任何人“调教”，自己在游戏中搜索。 alpha go的设计师david silver在年使用深度强化学习算法训练ai，在atari 2600游戏中获得了与人类同等的水平。

△从左到右，ai分别学习了乒乓球、钻石、入侵者、潜水艇、子弹的发射。

但是，ai学习遵守的规则还是按照人的想法进行的，在设计过程中难免会有漏洞，但与人的方法不同的ai往往钻规则的空子，进行一些奇怪的操作。

比如在halfcheetah任务(控制多关节的步行机器人)中，ai学到了很多奇技淫巧。

△恶魔的脚步

倒着走比较健康

；

△单足步行更帅

在另一个赛艇任务( coastrunners )中，ai还学习了另一个可赛艇的做法。我好像找到了游戏的bug。我偏离了普通的路线，找到了环礁。我在那里不断地找回点。

另外，也有要求ai体把木片移到桌子指定的地方的“人工智能障碍的骚动操作”。那个方案是搬桌子。 ai要突破，我决定突破第一关后自杀。这样，第一关的胜利和第二关就不会失败。 ai要记住足球，接触球就有奖金，所以抢球后开始高速振动，在短时间内接触尽可能多的球。

财讯：计算机是怎么玩游戏的？

这些精彩的操作促使研究者反省:不能正确理解不太容易理解的学习算法，或者人想做的事情。算法在部分测量指标中可以得到高分，但在测量指标的测量范围之外的情况下，进行意想不到的动作的可能性很高，很危险。

授鱼不如授鱼:共同游戏

智慧的李华发现，ai在游戏中打败人类本来就正常，文明、帝国时代、红色警戒这些游戏可以调节ai的难度，最难的ai，人类玩家有时也不太容易应对。那么，为什么从阿尔法零到阿尔法星，学术界、工业界乃至民间都这么关注游戏ai呢？

财讯：计算机是怎么玩游戏的？

游戏ai在一定程度上计算通用人工智能的隐喻。以前的计算机程序在一些游戏中可以可靠地达到或超过人类的水平，但有两大限制。一个是一个计算程序只能玩一个游戏，没有通用性。其二，编程依然需要很多人的经验，虽说是人工智能，其实是人的智能。一般的游戏制造商在设计游戏ai时，提高ai的生产、攻防、视野等方面的能力，降低人类玩家在这方面的能力，人类对游戏ai制定战略。这种游戏的智能不是真正的智能。

财讯：计算机是怎么玩游戏的？

alphazero和alphastar引人注目的是所谓的“通用性”“学习能力”，这个游戏ai的策略不是人教的，是自己学的。 ggp(generalgameplaying )致力于开发能够在人类层面玩任意游戏的人工智能系统，无论游戏是已知还是未知都可以应对。通过迈出这一步，有望开发出像人类一样能够完成各种任务的人工智能系统。

财讯：计算机是怎么玩游戏的？

最终阶段

“所以，我现在能开心地来玩游戏吗？》李华拥有其厚重的“artificial intelligence and games”。

“来自实践，去实践吧。 ’我给他打开了文明6。 “我们从这个不完全的新闻动态游戏开始吧？ ”。

李华犹豫了一会儿。 “为了精炼贝叶斯纳什均衡，我要玩50回合吗？ ”。

第二天天亮时，我站起来看着床下:

“泡面卖肥料店的水，睡在另一个城市。看到俗世的天空明朗了，只恨文明五百次。 ”。随着胜利音乐的响起，李华吟诵着《烂柯诗》，一切都感到索然无味。

参考资料

[1] tromp.github.io/go/legal

[2] bot zone/static/game contest 2019 s

[3]《博弈论与新闻经济学》

[4] artificialintelligenceandgames

[5]通用游戏:探索机器游戏智能的行业

[6] astudyofaipopulationdynamicswithmillion-agentreinforcementlearning

[7] concrete ai safety problems

[8] ； neural MMO:amassivelymultiagentgameenvironmentfortrainingandevaluatingintelligentagents

[9] ； MP.weixin.QQ/s/jyyaxh5epsziwcgyb1nnga

图片来自网络。

标题：财讯：计算机是怎么玩游戏的？

地址：http://www.mnscw.cn/syxx/3871.html

免责声明：民生财经杂志网致力于提供权威、全面、专业、及时的财经资讯,的部分内容转载于网络，不为其真实性负责，只为传播网络信息为目的，非商业用途，如有异议请及时联系btr2031@163.com，民生财经杂志网将予以删除。

上一篇：财讯：计算机之父图灵近150封信被发现，很多信件在讨论人工智能

下一篇：财讯：计算机界最大“追书坑”，82岁大神高德纳仍在写《计算机程序设计艺术

最新推荐文章

财讯：丰润区区委常委、政法委书记许广三一行调研指导丰润未检从业

财讯：纪录片的时代红利来了，2019年的院线会有这些吗？

财讯：赫赫大名府悠悠为民情 ——河北邯郸大名县易地扶贫搬迁从业纪实

财讯：高晓松为何选南京办私人图书馆？

财讯：红桥区人民检察院夺得“政法干警学理论” 现场交流会活动一等奖

财讯：官宣20号：江大慕课和虚拟仿真实验项目已上线，快来一起“充电”吧！

财讯：恒大终止重组深深房，释放了什么信号？

财讯：公安部南昌警犬基地副主任李川武一行调研指导凉州区公安局警犬技术从

财讯：吉林省第十一次党代会将于2017年5月在长春召开

财讯：东风与西风之争：杰克·古迪的“外行话”

月度热文榜

民生财经杂志介绍

民生财经杂志是领先的财经周刊。以经济、时政及其他各社会领域的新闻资讯为核心，提供客观及时的报道和深度专业的评论，树立公信力和影响力，记录、推动、引领中国市场经济的宏伟进程。依托专业的团队和强大的原创新闻优势，以“新闻+数据”为两翼的业务平台全面覆盖中文媒体、英文媒体、高端金融数据等多层次的产品，为中国最具影响力的受众群，提供全天候国内外权威财经信息,包括宏观、海外、证券、产经、房产、金融、消费、科技、数码、宏观经济看点、微观市场走向、知名财经专家意见等行业权威及时的财经新闻。