误区1:数据是可靠的
很多因素会导致你获取的数据不可靠。在考虑具体的智能算法解决方案之前,首先就要判断数据是否可信。如果数据有问题,就算是最聪明的人,通常也会得出错误的结论。
可能导致数据出错的原因有很多,在此不可能一一列举,下面列出了部分有代表性的可能导致数据出错的因素:
· 在开发过程中所使用的数据不能代表产品环境中的数据。例如,对某个社交网络中的用户按身高分类“高”、“一般”和“矮”。如果开发阶段所使用的数据中最矮的用户的身高是1米84,那就有可能会得出“你太矮了,才1米84”的可笑结论。
· 数据中可能含有缺失值。实际上,除非数据是人造的,否则数据就肯定会含有缺失值。缺失值的处理非常需要技巧,通常,既可以保持缺失值状态不变,也可以用某种默认值或是计算得到的值来填充。两种情况都可能导致不稳定的实现。
· 数据可能会改变。数据库策略可能会变,或者数据库中数据的语义也有可能发生变化。
· 数据没有规范化。假如我们关注的是每个人的体重。为了能根据体重得到有意义的结论,所有的单位应该是统一的:磅或是公斤,两者只能取其一,而不能是两者的混合。
· 所想的算法可能不适合数据。数据有不同的形式,也就是数据类型。有些数据集是数值类型的,有些则不是;有些数据集可以排序,有些则不能;有些数值的数据集是离散的(例如,房间中的人数),有些则是连续的(例如气温)。
误区2:计算能马上完成
任何解决方案的计算都需要时间,应用的反馈速度对于业务在经济方面的成功是至关重要的。不能盲目地假设应用能在限定的反馈时间内在所有的数据集上完成所有的计算,需要仔细测试算法在各种操作中的性能。
误区3:不用考虑数据规模
当我们讨论智能应用时,规模是很重要的。数据的规模会给整个应用带来两方面的影响。其一,是在误区2中提及的反馈速度问题。其二,则是如何从海量数据中获得有意义的结果。如果只有100个用户,系统可能给用户推荐非常靠谱的电影或音乐。但同样的算法在面对100000个用户时,就有可能变得非常糟糕。
反之,在某些情况下,数据越多,应用就会变得越智能。所以,数据规模带来的影响是多方面的,你应该经常问自己:我有足够的数据吗?如果数据增加10倍,会给我的智能应用带来什么影响?
误区4:不考虑解决方案的可扩展性
另一个与误区2、3有关,但又有区别的误区是认为只需要增加计算机的数量就能不断地扩展智能应用解决方案。不要轻易地认为任何一个解决方案都是可扩展的,有些算法是可扩展的,有些则不行。例如,我们要把数十亿条新闻新标题按相似性分成若干组,并不是所有的聚类算法(见第4章)都可以并行。因此,在应用的设计阶段就应该考虑到可扩展性。在某些情况下,可以分割数据,然后将算法应用到分割后的较小的数据上,从而实现并行。运气好的话,在设计中所选择的算法可能是有并行版本的,但因为算法在智能应用中的重要性,以至于很多基础设施和业务逻辑都是围绕算法展开的,所以在设计的开始阶段就要关注所选择的算法的可扩展性。
误区5:随处使用同样的方法
如果能反复用同样的成熟技术解决与应用中的智能行为有关的各种问题,这无疑充满了诱惑。要尽力拒绝这种诱惑!我曾经见过有人试图用Lucene搜索引擎解决世界上所有的问题。如果你也在做同样的事情,请记住这个经验:如果你手上握着锤子,所有的东西在你眼里都像是一颗钉子。
智能应用软件跟其他的软件类似——都有一定的应用领域,也有一定的局限性。在将你所喜爱的解决方案应用到新领域之前,要彻底地进行测试。此外,对于每一个问题都应该从新的角度去观察。不同的算法或许能更加高效地解决新问题。
误区6:总是能知道计算时间
此类误区的典型例子是涉及优化的问题。在某些应用中,参数的细微变化都会带来计算时间的大幅变动。人们总是希望在改变问题的参数后依然能够在限定的反馈时间内解决问题。如果只是计算地球上两个地理位置间的距离,计算时间当然与具体的地理位置没有关系,但这并不适用于所有的问题。在某些情况下,数据的细微变化就会造成计算时间剧烈变化,有时候甚至是几秒钟与几个小时的差别。
误区7:复杂的模型更好
任何事情都是过犹不及的。我们首先应该从最简单的模型开始。然后在解决方案中通过逐步添加其他智能元素改进效果。KISS(Keep ItSimple, Stupid)原则永远都是软件工程师的好伙伴。
误区8:存在无偏见的模型
如果有人说过这样的话,原因只有两个:无知或偏见!在选择所需的模型和选择用于训练算法的数据时,就已经引入了偏见。在这里,我们无法从科学的角度深入地讨论学习系统中的偏见,但我们应该注意解决方案中的偏见总是倾向于我们模型的描述和我们的数据。换句话说,偏见使我们的方案受到已知的事实或是我们获得这些事实的方法的限制,而泛化则是试图从已知的事实中推断出未知的事情。
本文节选自《智能WEB算法》一书。
相关推荐
本文将针对人工智能中常见的几个误区进行澄清。 首先,一个普遍的误区是认为人工智能可以像人类一样理解环境并从中学习。实际上,人工智能依赖于预设的算法和输入数据进行学习,它无法真正地像人类那样通过感官体验...
ChatGPT技术自推出以来,已经成为自然语言处理领域的一个重要里程碑,它的能力让很多领域的工作方式发生了改变。然而,围绕这一技术的使用,存在一些误区。本文将对这些误区进行解析,为用户提供更为深入的理解,...
人工智能技术在教育领域的应用已经得到了广泛的关注和探索,尤其是在因材施教方面,即根据每个学生的特点和需求,为其定制学习路径和内容,以期望达到最佳的教学效果。然而,当前的实践过程中存在一些误区和问题,...
本文主要讨论的是EMC8BIT单片机指令应用的一些常见误区和实用技巧。EMC8BIT单片机具有相对简单的指令集,但对初学者来说,理解和避免错误是提高编程效率的关键。 首先,关于减法指令的误区。在EMC8BIT单片机中,...
其次,智能家居布线设计中的另一个误区是忽视了水平系统一步到位的重要性。部分设计者可能会根据当前应用的不同,将语音和数据的水平链路区别对待,比如使用超5类线缆用于语音,而6类线缆用于数据。这种做法实际上...
工业智能应用中常见的误区包括过分依赖技术、忽视基础数据质量和忽视人员培训。解决办法是确保数据的质量和完整性,同时对员工进行必要的技能培训,以便他们能理解和应用这些智能解决方案。 组建工业智能团队时,要...
人工智能技术在语言学习中的应用和挑战涉及到教育科技的多个方面。人工智能在教育领域的渗透已成为一个趋势,尤其在语言学习这一分支,人工智能技术如语音识别、语义分析、机器翻译、人机交互和自适应学习等的应用,...
在工业生产中,对人工智能的认识存在一些误区。有观点认为,AI的应用可能造成大量低技能工作岗位的消失。然而,科学研究表明,AI实际上可能会创造更多的就业机会。这是因为AI并非完全等同于人脑的工作方式,它的当前...
然而,多元智能理论在中学历史教学中的应用还存在一些误区。首先,一些教育工作者对理论的理解不深入,可能仅停留在表面,未能全面理解其核心内涵。他们可能认为多元智能只是简单地将不同智能分类,而忽略了其强调...
在系统开发过程中,参考文献和专业指导至关重要,它们能帮助开发者理解模糊神经网络的理论基础,掌握其设计和训练技巧,并避免常见的陷阱和误区。 总的来说,模糊神经网络以其独特的灵活性和适应性,为智能交通系统...
本文将详细介绍四种常见的C++指针应用误区,并提供相应的解决策略。 #### 二、操作空指针 **定义:** 在C++中,`NULL`(或在现代C++中使用`nullptr`)表示一个未指向任何有效内存地址的指针。对空指针进行解引用会...
通过以上分析可以看出,在选购智能化楼宇门禁控制系统时,不仅要关注技术规格和功能特性,还需要综合考虑应用场景的具体需求、成本预算、售后服务等多个方面,才能做出更加合理的选择。希望本文能帮助读者避免常见的...
尽管AI技术在电气自动化中有诸多优势,但实际应用中仍存在误区和技术难题。例如,AI的理解能力受限于编程,可能存在对人类语言的误解,以及对复杂环境的适应性问题。因此,我们需要继续研发更先进的算法,优化AI的...
在实际应用中,智能建筑的楼宇自动化不仅降低了运营成本,提升了用户体验,也为实现绿色建筑和智慧城市提供了技术支持。 参考文献对于深入理解和研究楼宇自动化至关重要,它们可能涵盖最新的控制理论、通信技术、...
在此背景下,电力营销信息化建设在智能电网中的应用成为电力行业现代化进程中的重要组成部分。智能电网通过集成先进的传感测量技术、通信技术、信息技术、计算机技术和控制技术,实现了电力系统的自动化、智能化和...
同时,参考成功案例,结合行业专家的见解和建议,有助于避免设计过程中可能出现的误区,确保智能网管系统的先进性和实用性。 总结来说,智能网管系统应用的研究与设计是一个跨学科、综合性的技术项目。它不仅要求...
同时,寻求专业人士的指导,可以避免常见的设计误区,提高系统开发的效率和质量。 总结,MXT2003以其优秀的性能和灵活性,为智能安防家居系统提供了强大支持。通过深入理解和合理应用,我们可以构建出更加智能、...
智能导师系统是近年来在教育领域发展迅速的一项技术,尤其在大学英语教学中,批改网成为了一个典型的应用实例。批改网结合了人工智能技术,旨在模仿教师的经验和教学方法,为学生提供个性化的学习指导。这个系统由四...
三、区块链创新应用误区分析与反思: 随着区块链技术逐渐得到社会的广泛关注,人们开始探讨区块链在各行业中的应用潜力,同时也出现了一些误区。例如,区块链技术被误认为是万能的,可以解决所有问题,这种认识并不...
然而,尽管智能技术在理论上能够带来诸多便利,但在实际应用中仍存在一些问题和误区。 首先,智能小区的核心在于其信息化和自动化的能力,例如通过总线技术实现各个子系统的集成,使得家庭内部网络和外部通讯网络...