在设计高效率 AI 引擎时,大脑组织模型具有一定的价值。大脑和游戏系统间对应的任务分配如图所示:
将 AI 任务分解成几个具体的子模块,让其他类来采集这些子模块的输出,并将这些知识混合到游戏角色上。
如何设计 AI 的知识库与学习?
- 人脑会对所有的事情进行存储学习,但AI 系统需要一个可靠的系统来确定哪些是值得来学习的。
- 人脑不允许由于时间的流逝而降低记忆,AI 可以通过动态硬编码来锁住这些可塑性的变化,将其转移到一个长期的存储器中,但过多硬编码或使用不当,会使人或游戏角色变得病态/遗忘。
- 短期存储器(内存)仅保持较短时间的感知,根据其重要性进行过滤,然后存入长期存储器或简单遗忘。(注意广度和单一思想)
大脑使用“调节器(modulator)”根据语境对特殊情形下的存储器进行调节,AI 调节器可以重载整个 AI 的状态及行为,传统基于状态的 AI 可以借用 moudulation 的概念变得更加灵活。先前被警告过的敌人可以转换到一个完全不同的 Alerted 状态,并经过缓慢退化后又重新转换到 Normal 状态。但采用带修正器的状态系统时,可用一个“攻击性(aggressive)调节器” 进行编码来保持其正常的 Guard 状态。
- 人脑通过大脑中不同存储器中存储的事情来进行学习,这种通过偏差和联想来扩展关于世界的知识库通常有几种独立的实现方式:探测或直接体验、模仿、想象推断。游戏的学习方式可采用以下两种途径:统计那些与玩家进行对抗时凑效的行为、记录玩家跟 AI 对手对抗时的所作所为并对这些人类行为进行模仿或改进。
- 采用 AI 学习算法需要进行多次迭代,在快节奏短周期的游戏中学习将导致其性能急剧下降。一般会在使用前的制造过程中进行全部的学习,而在使用中不具备学习能力,直到满足速度和精度要求的新方法问世。
- 学习不一定都是有意识的,很多游戏使用 influence map 来进行无意识的学习。 influence map 系统允许对相同类型的信息进行累积,并以一种快速且易访问的方式对它们进行简单存储,同时保持迭代次数在很低的水平。这可以为 RTS 游戏的路径搜索算法提供躲避 “死亡区域(kill zone)”。
如何设计 AI 的认知系统?
- 大脑通过使用各种不同的系统,来对输入数据进行快速分类并设置优先级,从而实现感知(perception)。在游戏 AI 中,我们能在处理过程中挑选出任意层级的感知。一个运动类游戏的实体模型(mock-up)如下:
对任意特殊 AI 子系统进行编码时,应该确保只使用那些真正需要的感知。过度简化将很容易预测子系统的输出行为,敌人仅在一定的范围内才能听到声音,这样的子系统是很奇怪的,应该考虑初始距离和初始音量,衰减传播等声学特性。 - 决策系统从 AI 能够做的所有事情中过滤出当前的游戏状态。AI 技术的状态空间(state space),如果感知的结果孤立则可以采用状态系统的枚举空间响应,若响应是全范围连续的,那么采用神经网络会更合适,因为它们在连续响应域上能更好识别局部极值点。
如何设计看起来智能的系统(心智理论,ToM)?
ToM 更多是认知理论,它深刻指出了人具有理解他人的能力,并具有与其自身分离的思想和世界观。技术上 ToM 是有意识的智能体,它具有领会意图的能力,而不是对行动的严格认知。那么如何度量 ToM 是智能的呢, Turing 测试认为,如果程序可以成功与另一个实体玩家进行沟通,并且玩家分辨不出它是一台计算机,那么它就必定是智能的。
但事实上,我们希望游戏 AI 系统能够像人一样进行决策,从而表现出它们的高级特性并超越那些简单的玩法,因此我们必须模仿思想,而非行为。ToM 能够给程序员或设计者一些指导,让他们指导哪种类型的信息可以直接提供给玩家,哪种不应该提供,哪种可以摸棱两可地处理。
举一个例子,一个简单战场的布置,人类玩家位于地图的底部,4个 CPU 敌人对他进行了包围并在多个掩护点之间移动。规则如下:
如果没有人朝玩家射击,如果我装满了子弹且准备完毕,我将开始射击(该游戏每次只能有一个玩家可以射击)。
如果我暴露在外,我将前往最近的未被占领的掩护位置,并随机呼喊“掩护我!”、“在你左边!”等声音。
如果我处于掩护位置,我将重新装弹,然后等待那个家伙射击完毕,或许可以通过播放一些类似扫描的动画,使得看起来更像他正准备狙击玩家。
情景描述:4个敌兵进入了视野,其中一个迅速开始射击,而其余三个寻找掩护点。然后,先前的士兵停止了射击,呼叫“掩护我!”并向前跑去寻求掩护。同时另一个士兵跳出来并开始射击。在这个系统里,士兵对相互之间、对玩家的意图、对它们执行的一个基本的交替前进和掩护的军事调遣这个事实都完全没有觉察。但由于人类玩家自然地试图形成一个关于敌人的 ToM,在他看来,这是一个高度协同和智能的行为。因此该策略得以凑效。
如何在范围内构建一个有限最优(Bounded Optimality,BO)的决策系统?
对于大多数娱乐游戏来说,完美的理性是不希望和不必要的,游戏 AI 的目标是仿效人类性能的级别,而不是完美的理想。因此在有限的时间内,与其强迫程序找到理想的方案,还不如只是引导决策朝正确的方向前进。对现实问题的所谓最优解决方案在计算能力上往往都是难以实现的,而且没有限制条件的现实问题很少。BO 思想可以按某种方式简化成一个递增层次。例如:路径搜索就可以设定几个复杂层次,可以开始在很大的地图区域上进行路径搜索,然后再各个区域内,然后局部,最后再动态目标周围。每个连续的层次都逐渐比上一个好,但每个层次都使得玩家朝正确方向前进。
机器人技术给了我们什么启发?
游戏中有很多AI 技术来源于对机器人的研究,包括非常重要的 A* 算法,主要启发包括以下几个方面:
- 设计与解决方案的简单性。Brooks设计的机器人被采纳到火星上,它不试图依靠对障碍物的识别来通过某地区,采用一般搜索方法在障碍物上强行开道。
- 心智理论。
- 多层决策体系。现代机器人平台都使用一个子系统,其上运行着多个层级的决策结构系统,以体现由高到低的决策。这种从下而上的行为设计允许机器人在某种环境下实现一定程度的自主。子系统代表了最高优先级的决策,可以覆盖和修改来自顶层决策结构的行为,层级越高,优先级越底,层级的这种独立性使得系统的鲁棒性更高,层级间可自动容错。因此一个层级的混乱并不会破坏整体结构,只要系统其他部分返回到常态,机器人仍能完成任务。这种类型结构非常适合于需要在多个层级复杂度上同时进行决策的游戏,如RTS。
相关推荐
原生js图片圆形排列按钮控制3D旋转切换插件.zip
内含二维数组与三维数组,分别为list2nd,list3rd
原生js颜色随机生成9x9乘法表代码.zip
原生js实现图片叠加滚动切换代码.zip
【Academic tailor】学术小裁缝必备知识点:全局注意力机制(GAM) 注意力机制是深度学习中的重要技术,尤其在序列到序列(sequence-to-sequence)任务中广泛应用,例如机器翻译、文本摘要和问答系统等。这一机制由 Bahdanau 等人在其论文《Neural Machine Translation by Jointly Learning to Align and Translate》中首次提出。以下将详细介绍这一机制的背景、核心原理及相关公式。 全局注意力机制(Global Attention Mechanism, GAM)由 《Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions》提出,是一篇针对计算机视觉任务提出的方法。这篇文章聚焦于增强深度神经网络中通道和空间维度之间的交互,以提高分类任务的性能。与最早由 Bahdanau 等人提出的用于序列到序列任务的注意力机制 不同,这篇文章的重点是针对图像分类任务,并未专注于序
本项目在开发和设计过程中涉及到原理和技术有: B/S、java技术和MySQL数据库等;此文将按以下章节进行开发设计; 第一章绪论;剖析项目背景,说明研究的内容。 第二章开发技术;系统主要使用了java技术, b/s模式和myspl数据库,并对此做了介绍。 第三章系统分析;包罗了系统总体结构、对系统的性能、功能、流程图进行了分析。 第四章系统设计;对软件功能模块和数据库进行详细设计。 第五章系统总体设计;对系统管理员和用户的功能进行描述, 第六章对系统进行测试, 第七章总结心得;在论文最后结束章节总结了开发这个系统和撰写论文时候自己的总结、感想,包括致谢。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
镗夹具总工艺图
原生js树叶数字时钟代码.rar
近代非线性回归分析-韦博成1989
内容概要:本文详细介绍了用 Rust 语言实现冒泡排序算法的具体步骤,以及通过设置标志位来优化算法性能的方法。示例代码包括了函数定义、内外层循环逻辑、标志位的应用,并在主函数中展示了如何调用 bubble_sort 函数并显示排序前后的数组。 适合人群:具有基本 Rust 编程基础的学习者和开发者。 使用场景及目标:适用于想要深入了解 Rust 中冒泡排序实现方式及其优化技巧的技术人员。通过本篇文章,能够掌握 Rust 基本语法以及算法优化的基本思想。 阅读建议:除了仔细阅读和理解每一部分的内容外,还可以尝试修改代码,改变数据集大小,进一步探索冒泡排序的时间复杂度和优化效果。此外,在实际应用时也可以考虑引入并发或其他高级特性以提升性能。
培训课件 -安全隐患分类与排查治理.pptx
中国各地级市的海拔标准差数据集提供了298个地级市的海拔变异性信息。海拔标准差是衡量某地区海拔高度分布离散程度的统计指标,它通过计算各测量点海拔与平均海拔之间的差异来得出。这一数据对于评估地形起伏对网络基础设施建设的影响尤为重要,因为地形的起伏度不仅会增加建设成本,还会影响信号质量。此外,由于地形起伏度是自然地理变量,它与经济社会因素关联性较小,因此被用作“宽带中国”试点政策的工具变量,以研究网络基础设施建设对经济的影响。数据集中包含了行政区划代码、地区、所属省份、所属地域、长江经济带、经度、纬度以及海拔标准差等关键指标。这些数据来源于地理空间数据云,并以Excel和dta格式提供,方便研究者进行进一步的分析和研究。
YOLO算法的原理与实现
视网膜病变是糖尿病和高血压的主要微血管并发症。如果不及时治疗,可能会导致失明。据估计,印度三分之一的成年人患有糖尿病或高血压,他们未来患视网膜病变的风险很高。我们研究的目的是检查糖化血红蛋白 (HbA1c)、血压 (BP) 读数和脂质水平与视网膜病变的相关性。我们的主要假设是,血糖控制不佳(表现为高 HbA1c 水平、高血压和异常脂质水平)会导致视网膜病变风险增加。我们使用眼底照相机筛查了 119 名印度患者的视网膜病变,并获取了他们最近的血压、HbA1c 和血脂谱值。然后,我们应用 XGBoost 机器学习算法根据他们的实验室值预测是否存在视网膜病变。我们能够根据这些关键生物标志物高精度地预测视网膜病变。此外,使用 Shapely Additive Explanations (SHAP),我们确定了对模型最重要的两个特征,即年龄和 HbA1c。这表明血糖控制不佳的老年患者更有可能出现视网膜病变。因此,这些高风险人群可以成为早期筛查和干预计划的目标,以防止视网膜病变发展为失明。
在强化学习(RL)领域,如何稳定地优化策略是一个核心挑战。2015 年,由 John Schulman 等人提出的信赖域策略优化(Trust Region Policy Optimization, TRPO)算法为这一问题提供了优雅的解决方案。TRPO 通过限制策略更新的幅度,避免了策略更新过大导致的不稳定问题,是强化学习中经典的策略优化方法之一。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
这组数据涵盖了1999至2020年间中国各地区普通小学毕业生的数量。它为我们提供了一个深入了解中国教育领域中普通小学阶段教育水平和教育资源分配情况的窗口。通过分析这些数据,可以为制定科学合理的教育政策提供依据,同时,通过比较不同城市的普通小学毕业生数,也能为城市规划和劳动力市场调查提供参考。数据来源于中国区域统计年鉴和中国各省市统计年鉴,包含了8472个样本,以面板数据的形式呈现。这些数据对于掌握中国教育态势具有重要的参考价值。
原生js制作拖拽排列排序代码.zip
PixPin截图工具,非常好用的一款截图工具