`
xjnine
  • 浏览: 50061 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类
最新评论

Alphago中的蒙特卡洛算法

阅读更多

AlphaGo使用蒙特卡洛树搜索(Monte Carlo tree search),借助值网络(value network)与策略网络(policy network)这两种深度神经网络,通过值网络来评估大量选点,并通过策略网络选择落点。

 

什么是 MCTS?

全称 Monte Carlo Tree Search,是一种人工智能问题中做出最优决策的方法,一般是在组合博弈中的行动(move)规划形式。它结合了随机模拟的一般性和树搜索的准确性。

 

MCTS 受到快速关注主要是由计算机围棋程序的成功以及其潜在的在众多难题上的应用所致。超越博弈游戏本身,MCTS 理论上可以被用在以 {状态 state,行动 action} 对定义和用模拟进行预测输出结果的任何领域。

 


 

基本算法

基本的 MCTS 算法非常简单:根据模拟的输出结果,按照节点构造搜索树。其过程可以分为下面的若干步:

 

搜索树的构建过程

  1. 选择 Selection:从根节点 R 开始,递归选择最优的子节点(后面会解释)直到达到叶子节点 L。

  2. 扩展 Expansion:如果 L 不是一个终止节点(也就是,不会导致博弈游戏终止)那么就创建一个或者更多的字子节点,选择其中一个 C。

  3. 模拟 Simulation:从 C 开始运行一个模拟的输出,直到博弈游戏结束。

  4. 反向传播 Backpropagation:用模拟的结果输出更新当前行动序列。

 

参看Tutorial 了解关于这个过程更多的信息。

 

每个节点并需包含两个重要的信息:一个是根据模拟结果估计的值和该节点已经被访问的次数。

 

按照最为简单和最节约内存的实现,MCTS 将在每个迭代过程中增加一个子节点。不过,要注意其实根据不同的应用这里也可以在每个迭代过程中增加超过一个子节点。

 


 

节点选择

Bandits 和 UCB

在树向下遍历时的节点选择通过选择最大化某个量来实现,这其实类似于 Multiarmed bandit problem,其中的参与者必须选择一个 slot machine(bandit)来最大化每一轮的估计的收益。我们可以使用 Upper Confidence Bounds(UCB)公式常常被用来计算这个:

其中 v_i 是节点估计的值,n_i 是节点被访问的次数,而 N 则是其父节点已经被访问的总次数。C 是可调整参数。

 

Exploitation 和 Exploration

UCB 公式对已知收益的 exploitation 和鼓励接触那些相对未曾访问的节点的  exploration 进行平衡。收益估计基于随机模拟,所以节点必须被访问若干次来缺包估计变得更加可信;MCTS 估计会在搜索的开始不大可靠,而最终会在给定充分的时间后收敛到更加可靠的估计上,在无限时间下能够达到最优估计。

 

MCTS 和 UCT

Kocsis 和 Szepervari 在 2006 年首先构建了一个完备的 MCTS 算法,通过扩展 UCB 到 minimax 树搜索,并将其命名为 Upper Confidence Bounds for Trees(UCT)方法。这其实是用在当前众多 MCTS 实现中的算法版本。

 

UCT 可以被描述为 MCTS 的一个特例:UCT = MCTS + UCB。

 


 

优点

MCTS 提供了比传统树搜索更好的方法。

 

Aheuristic

MCTS 不要求任何关于给定的领域策略或者具体实践知识来做出合理的决策。这个算法可以在没有任何关于博弈游戏除基本规则外的知识的情况下进行有效工作;这意味着一个简单的 MCTS 实现可以重用在很多的博弈游戏中,只需要进行微小的调整,所以这也使得 MCTS 是对于一般的博弈游戏的很好的方法。

 

Asymmetric

MCTS 执行一种非对称的树的适应搜索空间拓扑结构的增长。这个算法会更频繁地访问更加有趣的节点,并聚焦其搜索时间在更加相关的树的部分。

 

 

非对称的增长

这使得 MCTS 更加适合那些有着更大的分支因子的博弈游戏,比如说 19X19 的围棋。这么大的组合空间会给标准的基于深度或者宽度的搜索方法带来问题,所以 MCTS 的适应性说明它(最终)可以找到那些更加优化的行动,并将搜索的工作聚焦在这些部分。

 

任何时间

算法可以在任何时间终止,并返回当前最有的估计。当前构造出来的搜索树可以被丢弃或者供后续重用。

 

简洁

算法实现非常方便(参见 Code:http://mcts.ai/code/index.html

 


 

缺点

MCTS 有很少的缺点,不过这些缺点也可能是非常关键的影响因素。

 

行为能力

MCTS 算法,根据其基本形式,在某些甚至不是很大的博弈游戏中在可承受的时间内也不能够找到最好的行动方式。这基本上是由于组合步的空间的全部大小所致,关键节点并不能够访问足够多的次数来给出合理的估计。

 

速度

MCTS 搜索可能需要足够多的迭代才能收敛到一个很好的解上,这也是更加一般的难以优化的应用上的问题。例如,最佳的围棋程序可能需要百万次的交战和领域最佳和强化才能得到专家级的行动方案,而最有的 GGP 实现对更加复杂的博弈游戏可能也就只要每秒钟数十次(领域无关的)交战。对可承受的行动时间,这样的 GGP 可能很少有时间访问到每个合理的行动,所以这样的情形也不大可能出现表现非常好的搜索。

 

幸运的是,算法的性能可以通过一些技术显著提升。

 


 

提升

很多种 MCTS 强化的技术已经出现了。这些基本上可以归纳为领域知识或者领域独立两大类。

 

领域知识

特定博弈游戏的领域知识可以用在树上来过滤掉不合理的行动或者在模拟过程中产生重要的对局(更接近人类对手的表现)。这意味着交战结果将会更加的现实而不是随机的模拟,所以节点只需要少量的迭代就能给出一个现实的收益值。

 

领域知识可以产生巨大的性能提升,但在速度和一般性上也会有一定的损失。

 

领域独立

领域独立强化能够应用到所有的问题领域中。这些一般用在树种(如 AMAF),还有一些用在模拟(如 在交战时倾向于胜利的行动)。领域独立强化并不和特定的领域绑定,具有一般性,这也是当前研究的重心所在。

 


 

背景和历史

1928:John von Neumann 的 minimax 定理给出了关于对手树搜索的方法,这形成了计算机科学和人工智能的从诞生至今的决策制定基础。


1940s:Monte Carlo 方法形成,作为一种通过随机采样解决不太适合树搜索解决的弱良定义问题的方法。


2006:Rémi Coulomb 和其他研究者组合了上面两种想法给出了一个新的围棋程序中行动规划的观点——MCTS。Kocsis 和 Szepesvári 将此观点形式化进 UCT 算法。

 


 

研究兴趣

从 MCTS 诞生后几年内,就有超过 150 篇与 MCTS 相关的研究论文发布,平均下来是每两周一篇新的文章。这些文章中包含了大概 50 个推荐的变体、强化和优化,这和传统树搜索自其 1928 年诞生开始的加强的数量也差不太多。

 

这个新的研究领域当前是 AI 中非常热的研究话题,有很多的开放的研究问题有待发掘和解决。

 


 

MCTS: 最新成果

Imperial College London held the first international MCTS workshop in August 2010 on the theme of MCTS: State of the Art. Speakers included:
O. Teytaud, "State of the Art: What is MCTS, where is it now, and where is it going?” 2010 [Online]. Available:http://www.aigamesnetwork.org/_media/main:events:london2010.pdf
M. Müller, “Challenges in Monte Carlo Tree Search,” 2010 [Online]. Available: http://www.aigamesnetwork.org/_media/main:events:london2010-mcts-challenges.pdf
R. Hayward, “MoHex: Computer Hex world champion,” 2010 [Online]. Available: http://www.aigamesnetwork.org/_media/main:events:mohextalk.pdf
H. Finnsson and Y. Björnsson, “CadiaPlayer: MCTS in General Game Playing,” 2010 [Online]. Available:http://www.aigamesnetwork.org/_media/main:events:cadiaplayer_lic_slides_print.pdf
A. Rimmel, “Havannah, Monte Carlo Enhancements and Linear Transforms,” 2010 [Online]. Available:http://www.aigamesnetwork.org/_media/main:events:presmctsworkshop_rimmel.pdf

分享到:
评论

相关推荐

    球类物体检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示].zip

    球类物体检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

    交通信号灯检测系统源码分享.zip

    交通信号灯检测系统源码分享

    基站设备检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示].zip

    基站设备检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

    人脸活体检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示].zip

    人脸活体检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

    2025最新资源系统源码 类似XDGAME模板源码

    这款资源系统是一款基于PHP和MySQL开发的内容管理系统(CMS),广泛应用于资源分享、下载站点的搭建。该系统以简洁、高效、易用为特点,适合快速构建资源类网站。 核心功能 资源管理:支持多种资源类型(如软件、文档、视频等)的上传、分类、展示和下载。 用户系统:提供用户注册、登录、权限管理等功能,支持用户积分、等级制度。 SEO优化:内置SEO功能,支持自定义URL、关键词、描述等,提升搜索引擎排名。 模板管理:支持多套模板切换,用户可以根据需求自定义网站外观。 插件扩展:系统支持插件机制,用户可以通过安装插件扩展功能,如支付接口、社交分享等。 安全机制:内置防SQL注入、XSS攻击等安全机制,保障系统安全。 适用场景: 资源下载站 软件分享平台 文档分享站点 视频资源站

    数据集 + 红树林边缘河口溶解有机物的生物地球化学研究

    内容: 本研究探讨了巴西北部一个红树林边缘河口中的溶解有机物(DOM)动态,将DOM组成与其形成地点的氧化还原条件联系起来。通过结合分子分析与营养盐和微量元素数据,我们强调了难降解DOM的外流作为沿海碳储存的重要贡献者,并提出了一种新颖的分子指数(ISuP),用于区分复杂沿海生态系统中的DOM来源。该数据集包括由超高质量分辨率质谱(傅里叶变换离子回旋共振质谱仪,FT-ICR-MS)获得的溶解有机物的分子数据、从FT-ICR-MS数据计算出的分子指数(ISuP 和 ITerr),以及环境数据,包括溶解有机碳(DOC)、营养盐(硝酸盐和磷酸盐)和微量元素(铁、锰、钡)的数据。水样采集自巴西北部帕拉州布拉甘萨附近的一个红树林边缘河口。此研究对于理解沿海生态系统中碳循环及其在全球变化背景下所扮演的角色具有重要意义。"访问数据集" ()以获取更多详情。

    驾校管理系统 2024免费JAVA毕设

    2024免费毕业设计成品,包括源码+数据库+往届论文资料 启动教程:https://www.bilibili.com/video/BV11ktveuE2d 讲解视频:https://www.bilibili.com/video/BV1YfkHYwEME 二次开发教程:https://www.bilibili.com/video/BV1Cw2rY1ErC

    4S店车辆管理系统 2024免费JAVA毕设

    2024免费毕业设计成品,包括源码+数据库+往届论文资料 启动教程:https://www.bilibili.com/video/BV11ktveuE2d 讲解视频:https://www.bilibili.com/video/BV1YfkHYwEME 二次开发教程:https://www.bilibili.com/video/BV1Cw2rY1ErC

    火车车厢检测系统源码分享.zip

    火车车厢检测系统源码分享

    44页-智慧小区总体建设方案——智慧生活,科技社区.pdf

    智慧社区的建设背景与需求 智慧社区的建设源于“互联网+”时代的呼唤,是业主刚需促成的社区变革。随着市场化进程的加速,传统社区面临着运营业务少、建设成本高、维护难度大、业务不精、增值服务少、无数据沉淀、运营模式单一等问题。而新技术如大数据、云计算的崛起,为人与人、人与物、物与物之间的无界限连接提供了可能,推动了智慧社区的发展。业主对于智能家居、可视对讲、智能安防、社区消费、在线物业、社区互动等体验式社区的需求,也成为了购房的刚需。智慧社区的建设,旨在通过一站式服务提升楼盘品质及品牌溢价,简化物业系统,增强管理效率,降低建设及维护成本,为业主提供便捷、舒适的生活服务,并转型为服务提供商。 智慧社区的核心子系统与功能 智慧社区的建设依赖于多个核心子系统,包括视频监控、可视对讲、一卡通、背景音乐、信息发布等。视频监控子系统提供了全方位的安全保障,通过密码加密传输、数据库安全、云存储等技术,实现了录像的安全存储和智能分析,如全景监控、人员异常活动检测等功能。可视对讲子系统不仅实现了基本的对讲功能,还加入了人脸识别、远程开门、信息发布等智能化功能。一卡通子系统涵盖了门禁、考勤、消费、访客、梯控、巡更等多个应用场景,实现了统一数据库和身份认证体系下的便捷管理。此外,背景音乐子系统提供了定时广播、实时广播、事件联动等功能,而信息发布子系统则支持文字、图片、即时和任务播放,以及分组管理,为社区内的信息传播提供了便利。智慧社区还注重家居的智能化,通过情景模式预设、一键自动控制、系统传感器和逻辑功能自动运行等任务,以及兼容常规电器设备,为业主提供了舒适、健康、便利的居住环境。 智慧社区的运营方案与未来展望 智慧社区的运营方案包括开放的云平台、智能终端和丰富应用,旨在打造智慧社区行业生态圈。云平台的建设实现了海量信息存储、强大的计算能力,以及统一部署、统一服务、统一用户体验和降低成本的目标。交互客服平台的打造,通过公司门户网站、小区客服网站、业主个人中心等多渠道,建立了物业与业主之间的信任关系。智慧社区还提供了多方位的多媒体广告,搭建了用户与经营者之间的桥梁,增加了物业收入。同时,智慧社区还注重公私车位运营等增值业务,通过手机APP下单、确认租赁等方式,实现了车位的有效利用和物业收入的增加。未来,智慧社区将继续深化智能化建设,拓展更多应用场景,为业主提供更加便捷、舒适、智能的生活体验。

    棒球运动物体检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示].zip

    棒球运动物体检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

    学生综合测评系统 2024免费JAVA毕设

    2024免费毕业设计成品,包括源码+数据库+往届论文资料 启动教程:https://www.bilibili.com/video/BV11ktveuE2d 讲解视频:https://www.bilibili.com/video/BV1YfkHYwEME 二次开发教程:https://www.bilibili.com/video/BV1Cw2rY1ErC

    c#使用xaml做的动态学生点名系统

    去年写的学生点名系统,使用c#的xaml做的动画,使用账密登录,支持背景图修改,读取姓名,点名倒计时,背景音乐,手动停止,速度调整等。

    二维码与条形码检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示].zip

    二维码与条形码检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

    机器学习中基于决策树和朴素贝叶斯的鸢尾花分类研究与实现

    内容概要:文章主要介绍了利用决策树和朴素贝叶斯算法对鸢尾花进行分类的研究过程。文中首先概述了研究背景和意义,指出了鸢尾花数据集作为经典机器学习数据集的重要性,以及通过此数据集可以帮助理解和优化算法性能。研究内容涵盖了算法的基本原理、技术细节,如信息熵、信息增益及其比率,还包括对模型进行剪枝、性能评估等多项步骤。作者通过一系列实验证明,这两类方法能够在不同程度上有效地分辨三种不同品种的鸢尾花,并针对各自的优势与局限性给出了具体的分析与改进建议。 适用人群:适用于正在接触或学习机器学习入门级别的学生以及相关技术人员,尤其是那些希望加深对于分类算法尤其是决策树与朴素贝叶斯这两种经典算法了解的人群。 使用场景及目标:该研究旨在通过对鸢尾花数据集的实际操作,让学生或从业者掌握决策树和朴素贝叶斯在实际案例中的构建方法。同时培养他们对分类问题建模的兴趣和技能,提高他们在选择适当算法应对不同类型问题的能力。 其他说明:除了详细讲解两个核心主题外,文档还提及了一些关于数据处理(包括但不限于预处理和特征工程)、实验配置以及结果解读方面的基础知识。这对于初学者来说是非常有用的参考资料。值得注意的是,虽然文中强调决策树算法的优点,但也提到了诸如过拟合之类的潜在缺陷,并提出了相应的解决方案。总的来说,本文不仅有助于读者建立起对于两类主流分类算法的理解,也为未来的研究工作奠定了坚实的基础。

    模拟军事目标检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示].zip

    模拟军事目标检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

    海洋水体中溶解有机物分子组成的在线LC-MS分析

    内容: 该研究探讨了三种典型水样中的溶解有机物(DOM)的独特色谱行为,这些水样分别代表了沿海DOM、海洋表面DOM和海洋难降解DOM。在RV Polarstern的ANT XXII/2航次期间(站位PS67/006-130,纬度-67.5633,经度-55.3448),使用采水器从威德尔海表面(30米深度,海洋表面DOM)和深水(1356米深度,难降解DOM)采集水样,并在其他地方有所描述(El Naggar等人,2007;Koch等人,2008)。实验过程中,将160升海水通过0.2微米滤芯过滤,酸化至pH 2,并泵入60毫升固相萃取柱(PPL,5克)。DOM用40毫升甲醇洗脱后,在-18°C下保存。沿海DOM通常从南北海(纬度54.1447,经度7.8711)提取,并作为实验室内部标准使用。海水经过0.2微米PTFE(Whatman)过滤,酸化至pH 2后,也采用PPL萃取柱进行处理。 数据集包含4组数据,详细信息可访问提供的链接获取。

    5f3074e9b14c8a0069729d6464d15e35.PNG

    5f3074e9b14c8a0069729d6464d15e35.PNG

    花卉识别系统源码分享.zip

    花卉识别系统源码分享

    ssm的农家乐管理系统(有报告) Javaee项目

    重点:所有项目均附赠详尽的SQL文件,这一细节的处理,让我们的项目相比其他博主的作品,严谨性提升了不止一个量级!更重要的是,所有项目源码均经过我亲自的严格测试与验证,确保能够无障碍地正常运行。 1.项目适用场景:本项目特别适用于计算机领域的毕业设计课题、课程作业等场合。对于计算机科学与技术等相关专业的学生而言,这些项目无疑是一个绝佳的选择,既能满足学术要求,又能锻炼实际操作能力。 2.超值福利:所有定价为9.9元的项目,均包含完整的SQL文件。如需远程部署可随时联系我,我将竭诚为您提供满意的服务。在此,也想对一直以来支持我的朋友们表示由衷的感谢,你们的支持是我不断前行的动力! 3.求关注:如果觉得我的项目对你有帮助,请别忘了点个关注哦!你的支持对我意义重大,也是我持续分享优质资源的动力源泉。再次感谢大家的支持与厚爱! 4.资源详情:https://blog.csdn.net/2301_78888169/article/details/141651888 更多关于项目的详细信息与精彩内容,请访问我的CSDN博客!

Global site tag (gtag.js) - Google Analytics