财讯:计算机是怎么玩游戏的?
本篇文章2096字,读完约5分钟
全文是4799字,阅读大约需要8分钟。
本报记者
张明悦新闻科技学院班硕士研究生
李华紧紧地盯着屏幕,额头渗出汗水,鼠标点击的频率达到了每秒5次。 面对潮水般涌来的虫族战士,他把鼠标键盘扔在一边,向我求助说:“这个游戏怎么玩,很难。”
我笑了一会儿,用鸭嘴笔蘸上他的乐趣水,写了两篇洋文。
李华心领神会叹息说:“博弈论,书一定有胜利之路吧。”
工欲善其事必先利其器:博弈论
游戏表演不是字面上的“博弈论”,通常被翻译成物流对策,被更广泛接受的翻译法则是“博弈论”。
一个游戏一般有七个要素,玩家,行动,新闻,战略,收益,结果和均衡,博弈论的目的是利用由玩家,行动和结果组成的游戏规则来预测均衡。 以星际旅行为例,玩家是游戏的参与者。 行动是游戏中各参加者可以进行的操作。 新闻是玩家在游戏中可以获得的所有知识,包括对方的行为、地图新闻等。 战略是玩家给出消息后采取行动的一系列方案。 例如,前期枪兵继续骚扰。 收益是游戏结束后玩家的胜负或得分。 结果,游戏结束后,成为玩家感兴趣的游戏整体的数据。 平衡是所有玩家都采取最佳战略的组合。
“太棒了。 这样,给与游戏就会计算均衡,按照均衡战略操作。 ’李华暗自高兴。
游戏可以分为动态、静态、完全新闻和不完全新闻。 星际争霸这个游戏大致可以分为不完全新闻的动态游戏。 囚犯困境是完全新闻静态游戏的有名例子。
首先,看更简单的情况,完全的新闻动态游戏。 围棋、象棋是这种游戏的典型,可以用游戏树的做法来表示。 图中的红色方块表示玩家1的决定节点,蓝色方块表示玩家2的决定节点,白色方块表示玩家1采取最后行动后获得的利益,特别是该游戏是零和游戏,与双方的利益总是零。
;
△图像来源: artificial intelligence and games
这样,玩家1从最下层的决定节点(逆向归纳法)中选择在各节点得分最大的动作,在该节点上标记收益,像第3层左节点那样以左、得分为10、该节点得分为10的完全新闻动态零和游戏为mm 下位节点的标记完成后,玩家2在倒数第二级决定节点选择,得分最小的动作,例如第二级左边的节点选择右边,得分为5,其节点得分为5。 如果倒数第二层解决了,同样地解决倒数第三层,类推直到最终到达最上位节点(根节点),通过结束minmax操作,树上形成的轨迹(粗线)成为均衡解。 为了使操作简单,不用扫描整个树,就可以用字母剪枝的方法剪切不需要的搜索节点。
“完美! 」李华决定画围棋游戏树,用minmax的做法解开后,他说:“这样就能打李世石和跺脚了。 ”。
遗憾的是,三天过去了,李华最终没能完成这个构想。 19x19的棋盘,棋局在3的361次方以下,排除不合理重复的棋局,约 ; 2.08x10170 ; 个,计算量的大小难以想象。 李华结束了一生,没有完全展开围棋的游戏树。
在这个又窄又宽的棋盘上,诞生了一代又一代的围棋程序,monte carlo go ; ( 1993 ),mogo ; ( 2006 )阿尔法go ; (),alphazero ; (),计算机的围棋水平最终超过了人类。
尧造围棋,以教子丹朱:游戏调教下的人工智能
传说姚子丹朱顽固傲慢,见识浅薄,姚子为教育丹朱设计了围棋,提高了他的姿势水平。 并不稀奇,科学家们期待着在游戏中尝试人工智能:“人在ai中愚蠢,所以玩游戏教书。” 双陆棋、国际象棋、围棋、德州扑克,到星际争霸、雷神之锤,都成为人类父亲教育ai儿子最常用的教材。
李华不停地点头。 “我想这就是我整晚玩play game的原因。 ”。
阿尔法戈获胜的中心是游戏树,但使用蒙特卡洛树搜索( mcts )、CFR ( counterfactualregretminimization )技术、uct算法、深度强化学习等一系列新技术,围棋各种 评价值的正确性和计算效率是矛盾的,被称为“搜索利用”困境,搜索是指搜索越来越多的地区,利用是指根据现在的评价值选择最合适的行动。 很明显,搜索越多,花在计算上的时间也就越多,棋局的推测就更正确,利用越多,花在计算上的时间就越短,但棋局的推测就更不正确。
以前的几代“老”围棋程序没有学习能力,需要提供对棋谱和局面的指导意见,但随着算法对围棋游戏树的搜索越来越有效,alphazero终于完全放弃了人类的指导,所谓的“左右
在用围棋这样的完全新闻游戏彻底碾压人类后,ai的教材转移到了扑克、麻将、桥牌等不完全新闻游戏。 在这样的游戏中,新闻不对称,知道我的卡,不知道别人的卡。 这样构建的游戏树在各节点的新闻集中可能有多个值。 (注:完全新闻不是完美新闻。 前者意味着游戏没有不明确性。 所有的行动都被包括自然在内的所有玩家注意到。 后者对游戏树各节点的新闻集只有一个值,更详细的解释可以参见《博弈论和新闻经济学》的第一、二章。
新闻的不对称,在极大地发挥人类智力空之间,熟练的玩家可以使用虚势、想擒故纵、声东击西等各种策略欺骗对方取得胜利。 这样,人工智能所需的计算量变得更多,也提出了新的技术。 bridge baron ; ( 1997 ),psopti ; ( 2001 ),wbridge5 ; ( 2005 ),libratus ; (),pluribus ; ( 2019 )人工智能打桥牌,2人打德克萨斯扑克,6人打败人类玩家,取得了胜利。
李华心里说:“ai这么强,用子矛攻击子盾,怎么样? ”。
openai在dota2、星际争霸2击败顶级人类玩家后,开始了这项“矛盾”的工作。 他们设计了有草坪、有森林、有障碍物、有猎物、有水的虚拟世界。 100个ai玩家诞生在这个世界上。 他们饥饿程度、口渴,在这个世界上进行探索、狩猎、饮水和战斗。 猎物是有限的,被吃了一会儿再出现新的。 每个ai玩家的目标是每隔一秒继续活着。
在这么多人工智能玩家的场景中,这些玩家被称为代理人、代理人。 图中,两个代理相遇后,直接互相发射远程武器,没有任何战略,这样的战斗往往最终一方被杀,另一方残血而终。 但是,经过长期的学习,这些ai玩家不仅学到了这样的“菜鸡互啄”,还暗自注意,默默地学到了赚大钱等人生经验。
△图中的三个代理人,左右两个代理人在战斗,中间的代理人躲在障碍物后面,战斗结束后,与剩下的代理人战斗,受益于渔翁。
图中的代理人逃避与任何代理人的战斗,放心地在森林里捕食猎物
更有意思的是,在这个受丛林法则支配的世界里,尽管ai玩家之间有时会战斗,但整体上还是处于“和平共存”的局面。 图中不同颜色的线表示不同的ai玩家的行动轨迹,ai玩家不是跑得满满的,而是固定在一定的区域进行狩猎和饮水,有划分领土的意思。 另外,两个ai玩家相遇时,往往不会发生战斗,而是各自离开。
△图中的线表示不同ai玩家的行动轨迹
如果猎物也成为受人工智能支配的游戏玩家呢? 伦敦大学计算机系汪军队设计了捕食者被捕食者的虚拟自然界,有老虎和羊两种,每个人都受人工智能算法(强化学习)控制,最终与自然界相似的结果图中捕食者和被捕食者数量的周期性变化
教得不严,师懒:训练成“智障”的人工智能
在游戏中训练代理人和巴甫洛夫在原理上类似于训练狗,在计算机行业被称为“强化学习”( reinforcement learning )。 人类把代理放在游戏环境中,代理实现某种操作后,狗就站得很整齐,同时获得了汪汪叫三次时给予食物的报酬得分。
通过加强学习,代理人可以不用任何人“调教”,自己在游戏中搜索。 alpha go的设计师david silver在年使用深度强化学习算法训练ai,在atari 2600游戏中获得了与人类同等的水平。
△从左到右,ai分别学习了乒乓球、钻石、入侵者、潜水艇、子弹的发射。
但是,ai学习遵守的规则还是按照人的想法进行的,在设计过程中难免会有漏洞,但与人的方法不同的ai往往钻规则的空子,进行一些奇怪的操作。
比如在halfcheetah任务(控制多关节的步行机器人)中,ai学到了很多奇技淫巧。
△恶魔的脚步
倒着走比较健康
;
△单足步行更帅
在另一个赛艇任务( coastrunners )中,ai还学习了另一个可赛艇的做法。 我好像找到了游戏的bug。 我偏离了普通的路线,找到了环礁。 我在那里不断地找回点。
另外,也有要求ai体把木片移到桌子指定的地方的“人工智能障碍的骚动操作”。 那个方案是搬桌子。 ai要突破,我决定突破第一关后自杀。 这样,第一关的胜利和第二关就不会失败。 ai要记住足球,接触球就有奖金,所以抢球后开始高速振动,在短时间内接触尽可能多的球。
这些精彩的操作促使研究者反省:不能正确理解不太容易理解的学习算法,或者人想做的事情。 算法在部分测量指标中可以得到高分,但在测量指标的测量范围之外的情况下,进行意想不到的动作的可能性很高,很危险。
授鱼不如授鱼:共同游戏
智慧的李华发现,ai在游戏中打败人类本来就正常,文明、帝国时代、红色警戒这些游戏可以调节ai的难度,最难的ai,人类玩家有时也不太容易应对。 那么,为什么从阿尔法零到阿尔法星,学术界、工业界乃至民间都这么关注游戏ai呢?
游戏ai在一定程度上计算通用人工智能的隐喻。 以前的计算机程序在一些游戏中可以可靠地达到或超过人类的水平,但有两大限制。 一个是一个计算程序只能玩一个游戏,没有通用性。 其二,编程依然需要很多人的经验,虽说是人工智能,其实是人的智能。 一般的游戏制造商在设计游戏ai时,提高ai的生产、攻防、视野等方面的能力,降低人类玩家在这方面的能力,人类对游戏ai制定战略。 这种游戏的智能不是真正的智能。
alphazero和alphastar引人注目的是所谓的“通用性”“学习能力”,这个游戏ai的策略不是人教的,是自己学的。 ggp(generalgameplaying )致力于开发能够在人类层面玩任意游戏的人工智能系统,无论游戏是已知还是未知都可以应对。 通过迈出这一步,有望开发出像人类一样能够完成各种任务的人工智能系统。
最终阶段
“所以,我现在能开心地来玩游戏吗? 》李华拥有其厚重的“artificial intelligence and games”。
“来自实践,去实践吧。 ’我给他打开了文明6。 “我们从这个不完全的新闻动态游戏开始吧? ”。
李华犹豫了一会儿。 “为了精炼贝叶斯纳什均衡,我要玩50回合吗? ”。
第二天天亮时,我站起来看着床下:
“泡面卖肥料店的水,睡在另一个城市。 看到俗世的天空明朗了,只恨文明五百次。 ”。 随着胜利音乐的响起,李华吟诵着《烂柯诗》,一切都感到索然无味。
参考资料
[1] tromp.github.io/go/legal
[2] bot zone/static/game contest 2019 s
[3]《博弈论与新闻经济学》
[4] artificialintelligenceandgames
[5]通用游戏:探索机器游戏智能的行业
[6] astudyofaipopulationdynamicswithmillion-agentreinforcementlearning
[7] concrete ai safety problems
[8] ; neural MMO:amassivelymultiagentgameenvironmentfortrainingandevaluatingintelligentagents
[9] ; MP.weixin.QQ/s/jyyaxh5epsziwcgyb1nnga
图片来自网络。
标题:财讯:计算机是怎么玩游戏的?
地址:http://www.mnscw.cn/syxx/3871.html
免责声明:民生财经杂志网致力于提供权威、全面、专业、及时的财经资讯,的部分内容转载于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,民生财经杂志网将予以删除。