`

利用算法识别车厘子与樱桃

阅读更多

引言:朴素贝叶斯分类器作为基础的分类算法,早在基础数学时期就已经被使用,目前在各行各业中更是被广泛使用。近几年车厘子在中国地区卖得火热,面对车厘子和樱桃,很多老百姓很难分清楚,那么算法能帮我们区分吗? 
本文选自《大数据时代的算法:机器学习、人工智能及其典型实例》。

图片描述
  车厘子是樱桃吗?它们有区别是什么呢?通过在水果市场采集,获得了一些关于车厘子和樱桃的相关特征数据。 
图片描述
  通过现有的车厘子和樱桃的数据,在包含车厘子和樱桃的混合水果中,随机给一个车厘子或者樱桃,识别它是樱桃或者车厘子的可能性哪个大? 本文我们将用朴素贝叶斯(Naive Beyesian)来解决这个问题,但在开始之前我们来简单了解下一些相关知识。

贝叶斯定理

  朴素贝叶斯是以贝叶斯定理为基础的概率分类模型。贝叶斯定理是概率论中的一个定理,它跟随机变量的条件概率及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。这个名称来自于托马斯·贝叶斯。 
  通常,事件A在事件B(发生)的条件下的概率与事件B在事件A的条件下的概率是不一样的;然而,这两者有着确定的关系,贝叶斯定理就是对这种关系的表示。贝叶斯公式定义在事件B出现的前提下,事件A出现的概率等于事件A出现的前提下事件B发生的概率乘以时间A出现的概率再除以时间B出现的概率。通过联系事件A与事件B,计算从一个事件产生另一事件的概率,即从结果上溯原。因此,贝叶斯定理公式如下所示: 
【图2】

  在理解贝叶斯定理的基础上,可以较好地理解基于朴素贝叶斯的分类模型。信息分类是信息处理中最基本的模块,每一段信息无论长或短,都由若干特征组成,因此可以将所有特征视为一个向量集W=(w1,w2,w3,…,wn),其中wi即表示其中第i个特征。而信息的分类也可以视为一个分类标记的集合C={c1,c2,c3,…,cm}。在进行特征学习之前,特征wi与分类标记cj的关系不是确定值,因此需要提前计算P(C|W),也就是在特征wi出现的情况下,信息属于分类标记C的概率,可根据贝叶斯计算,公式如下: 
【图3】

  因此,可以从信息分类的角度理解贝叶斯公式,即表示为:在特征wi出现的情况下是否是特征类别cj取决于在特征分类标记cj情况下特征wi出现的概率以及wi在所有特征中出现的概率。P(W)的意义在于如果这个特征在所有信息中出现,那么用特征wi去判定是否属于分类标识cj的概率越低,越不具备代表性。

车厘子与樱桃问题的解决

  朴素贝叶斯是一种有监督的学习方式,可以利用伯努利模型(Bernoulli Model)以文件为粒度进行文本分类。 
(有监督学习是有监督分类的实质,有监督分类是指根据已有的训练集提供的样本,通过不断计算,从样本中学习选择特征参数,对分类器建立判别函数以对被识别的样本进行分类。有监督分类方式可以有效利用先验数据,对后验数据进行校验,但是缺点也比较明显。首先,训练数据是人为收集,具有一定的主观性,并且人为收集数据也会导致花费一定的人力成本;其次,最终分类器分类的结果中,分类结果只可能是训练数据中的分类类型,不会产生新的类型。) 
假设训练集样本的特征满足高斯分布,得到下表。 
【图4】

  我们认为两种类别是等概率的,也就是P(车厘子)=P(樱桃)=0.5。概率密度函数如下: 
【图5】

  验证过程先给出一个待确定属于车厘子还是樱桃的测试样本,见下表。 
【图6】

  验证的标准则是:得到的样本属于樱桃还是车厘子的后验概率大者。 
【图7】

  上述式子用于求取车厘子的后验概率, 
【图8】

  上式用于求取樱桃的后验概率。证据因子evidence(通常是常数)用来对各类的后验概率之和进行归一化。 
【图9】

  证据因子是一个常数(在高斯分布中通常是一个常数),所以可以忽略,只需计算后验概率式子中的分子即可。接下来通过样本的特征值来判别样本所属的类别。 
【图10】

  其中,μ=0.8,α=0.018257419,二者均为训练集样本的高斯分布参数。注意,这里计算的是概率密度而不是概率。 
【图11】

  通过上述计算可以看出,车厘子的后验概率分子较大,由此可以预计这个样本属于车厘子的可能性较大。 
  本文选自《大数据时代的算法:机器学习、人工智能及其典型实例》,点此链接可在博文视点官网查看此书。 
                     图片描述

  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                 图片描述

分享到:
评论

相关推荐

    车厘子3D模型

    车厘子3D模型,正如标题所示,是专为车厘子(又名樱桃)设计的三维模型,它在多种领域中都有广泛的应用,如游戏开发、动画制作、产品设计、室内设计、视觉特效等。下面我们将深入探讨3D模型制作的技术细节和相关知识...

    水果篇之车厘子.ppt

    水果篇之车厘子

    参考资料-车厘子特性.zip

    车厘子,又名樱桃,是一种深受人们喜爱的水果,其特性多样且富含营养价值。这份“参考资料-车厘子特性.zip”压缩包中包含的“车厘子特性.xls”文件,很可能是对车厘子的生长环境、品种分类、营养价值、种植技术、...

    一万多张15种常见蔬菜水果识别分类数据集(已划分训练集和验证集).zip

    一万多张15种常见蔬菜水果识别分类数据集(已划分训练集和验证集).zip 介绍 类别数:15类, 数量:10000多张,每类680到750张左右 类别:菠萝、草莓、车厘子、桂圆、哈密瓜、胡萝卜、黄瓜、火龙果、苦瓜、梨、荔枝...

    汉源县甜樱桃产业发展之路.rar

    甜樱桃,又称车厘子,是一种经济价值高、口感佳的水果,对于促进地方经济发展具有重要作用。 首先,汉源县地处我国四川省,其独特的地理环境和气候条件适宜甜樱桃的种植。这里的土壤肥沃,光照充足,昼夜温差大,为...

    行业资料-交通装置-一种具有同步施肥功能的车厘子种植用耕地机.zip

    行业资料-交通装置-一种具有同步施肥功能的车厘子种植用耕地机.zip

    国内历年数模竞赛题目

    同时,结合机器学习算法,利用大数据分析,可以进一步提高模型的预测精度和实用性。 ### 总结 1992年数学建模联赛A题“施肥效果分析”不仅考验参赛者的数学应用能力,也展示了数学建模在解决实际问题中的强大潜力...

    2020年车厘子行业市场调研分析报告

    2020年车厘子行业市场调研分析报告

    江苏专用2020高考地理二轮复习专题过关检测七农业与农业地域

    其次,提高国内大樱桃(车厘子的一种)的市场竞争力,关键在于提升鲜果处理能力。这涉及到农业产业链的现代化,包括采摘、包装、保鲜、运输等环节的优化,以保证水果的新鲜度和品质,满足消费者的需求。 接着,通过...

    四川省宜宾市第四中学2020届高三地理三诊模拟考试试题

    - 元旦至春节期间,中国正值冬季,新鲜水果较少,而智利车厘子的上市时间正好与中国的冬季相吻合,因此销量最大。 10. 星轨照片解析: - 图中的弧形轨迹是地球自转造成的恒星视运动轨迹,而圆心指向北极星,位于...

    BlueROV2_control.zip

    综上所述,"BlueROV2_control.zip"文件中的内容是关于如何利用MATLAB实现A*路径规划和MPC控制策略来解决水下机器人避障问题的实例。这两个算法的结合,使得ROV能在未知环境中自主导航,有效避免障碍,确保任务的顺利...

    湖北剩门市2019_2020学年高二地理上学期期末学业水平选择性考试阶段性检测试题202002160249

    【知识点解析】 ... 普罗旺斯的葡萄酒庄园与薰衣草田的分布体现了地中海气候下农业活动对地形的适应,葡萄园在阳光充足的山坡上利于葡萄成熟,而薰衣草则在海拔较高的地方生长,充分利用凉爽的气候条件。

    江西省新余市第一中学2015_2016学年高二地理上学期第二次段考试题零班新人教版必修3

    1. 地理测绘 - 地形分析:题目中的陡崖顶部与④处的相对高度计算,涉及到地理测绘中的等高线知识,包括等高线的分布、等高距的理解以及地形特征的识别。 2. 水文地理 - 湖泊与瀑布的形成:题目中提到的湖泊可能是...

    四川省眉山市2021届高三地理下学期第三次诊断性考试5月试题202105170346

    1. **电子商务模式的发展与转型**:M企业早期通过线上销售智能手机,这是一种典型的电子商务模式,利用电商平台降低了销售成本,提高了市场覆盖率。之后开设实体专卖店,实现了线上线下的融合,这种O2O(Online To ...

    成都市2018届二诊地理.doc

    智利车厘子的竞争优势在于反季节供应,与中国市场有时间差,且品质优良。出口运输方式中,海运成本低,适合大批量运输,空运速度快,适合高端市场。 6. 长江与黄河输沙量:长江入海输沙量减少可能与流域内的水土...

    山东省2015届高三地理冲刺模拟(二)试题

    - 智利位于南半球,车厘子产季与北半球相反,12月下旬至次年1月上旬是智利车厘子的收获季节。 这些知识点涉及到地理学的多个领域,包括地球运动、气候类型、地貌形成、农业地理、交通运输以及人口迁移等。它们体现...

    江西省新余市2021届高三地理下学期第二次模拟考试试题202105080166

    9. 农业生产与气候变化:车厘子种植在特定气候条件下,如新西兰中奥塔格地区,其夏季炎热、冬季寒冷的气候有利于水果生长,且干燥条件减少了病虫害。 10. 劳动力市场与全球疫情:疫情导致国际旅行限制,影响了季节...

    河北省辛集中学2020届高三地理下学期第一次月考试题(PDF)

    2. **交通运输方式的选择**:智利车厘子前期主要通过空运,后期转为海运,这种变化主要是因为市场需求和价格因素。初期,新鲜水果需求大,价格高,空运可以保证快速到达保持新鲜;后期,随着供应量增加,价格下降,...

    TaoBaoTool:Xposed插件之淘宝秒杀助手

    你可能搜的是樱桃!或者不是3 J的。车厘子知识小课堂智利的汽车厘子分为SXJ级,XJ级,J级,XL级,L级,其中SXJ级为最顶级,以杆绿,肉脆如冬枣,色紫黑如宝石为最优,等级不同差价也相当大主要是按颗粒的直径大小来...

Global site tag (gtag.js) - Google Analytics