http://blog.csdn.net/njzhujinhua/article/details/38343683
人脸检测是人脸识别的第一道工序,其技术比较成熟,但因为其检测性能因素,直到Viola和Jones于CVPR2001上文章【1】发表之后才使得其能进行实际应用。
VJ描述的物体检测框架包括三部分:
【1】feature:
VJ使用的特征仅与一个矩形区域内像素取值的和有关,类似于Haar函数,一种最简单的小波,如下图所示:
其特征取值为白色区域对应图像的像素值之和减去灰色区域对应图像的像素值之和。一副图像中这样的特征数量太多,其计算复杂性是个问题,为此作者引入积分图技术,这使得Haar特征的计算可以在常数时间内完成,使得其计算效率大大提高。VJ用到的特征只有水平与数值的特征,显得十分粗糙不精细,但其计算的简便性使其大大优于其他算法。
积分图是一张与原图大小一致的图,其每个像素/点的取值为其原图左上角所有像素取值的和。
假设积分图中某点x的取值记为ii(x)
当要计算矩形D的像素和时只需要使用ii(p4)-ii(p2)-ii(p3)+ii(p1)即可
【2】Learning
给定特征集以及正负样本的训练集,有很多的机器学习算法都可以得出其分类函数,如NN,SVM等,但考虑到前面得到的Haar特征数量巨大,即使其计算再快要想实时计算也是很难的。
VJ采用的目标检测框架第二个贡献是基于Adaboost的分类器学习方法, 其用此选择特征并训练分类器。
Adaboost的最初目的是提升一个简单分类器的性能,其通过组合多个弱分类器得到一个强分类器。所谓的弱分类器指其仅比随机猜略好。
为了对弱分类器提升,可理解为一系列弱分类器的相继学习过程,在一次学习结束后对于那些错误分类的样本通过增加其权重并重新进行学习以得到比上一次更好的分类器。因而Adaboost也是一种重采样技术。
Adaboost的过程可以达到特征选择的目的, 作者为此目的限制每个弱分类器仅依赖于一个特征。
作者定义一个弱分类器hi(x)(直接截图了)
这里x是一个24×24的图像子窗口区域
在循环中的第二步,错误率实际依赖于h_j(x_i)如果其与y_i一致即分类正确时,h_j(x_i)-y_i为0,如果分类错误则为1,错误率即增加了。第三步选择错误最少的分类器。第4步则更新每个每个样本的权重,错误率都是小于0.5的故beta_t也是小于1的,因而如果该样本分类正确,则其权重下降,否则权重不变。(Adaboost中是分类正确则权重下降,分类错误则权重提升,且提升公式也略有不同,还涉及到比重的归一化)
【3】
文中第三个贡献是通过将AdaBoost构建的强分类器进行级联来进行人脸/物体检测,其可以在提高检测性能的同时大幅加快检测速度。
级联分类器其实现方法是先将多个强分类器按复杂度排序, 简单的在前面。这些强分类器虽然对检测率有很高要求,为了效率误识屡屡可以放低。尤其是第一级的时候。
其首先构建简单的(小而高效)boosted分类器,这种分类器在检测出几乎所有正样本时可以拒绝大部分负样本。在一个复杂的低误识率的分类器执行之前通过这个较简单的分类器排除掉大部分子窗口。即只要前一级分类器拒绝的窗口不再进入下一级分类器,直接将其拒绝, 本质是一颗退化的决策树。
VJ在本文中给出的是一种添加特征的方法以构造逐渐复杂的强分类器。
在人脸检测中,级联的第一个分类器叫做attentional operator,他仅使用2个特征就能做到0漏检和40%的FPR,从而可以快速确定可能有人脸的区域。在后一级的分类器构建时逐渐增加特征以满足本级分类器的要求。
总结:
在VJ之前识别率就很高了,本文亮点不再识别率,而在识别效率。其1是采用Haar特征, 计算简单,又引入积分图技术进行加速。二是使用AdaBoost将很容易构造出的弱分类器组合成强分类器。第三使用级联cascade策略将构造这些强分类器的退化决策树,使不满足的区域直接被排除,大大提高计算效率。
参考文献
[1] Robust Real-time Object Detection.<wbr style="background-color:inherit">Paul Viola,<wbr style="background-color:inherit">Michael Jones. IJCV 2004.</wbr></wbr>
[2]模式分类 Richard Duda
相关推荐
CVPR2015 DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time
(CVPR2024) Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild
cvpr2019_金字塔特征注意网络以进行显着性检测 赵婷和吴相干撰写的CVPR 2019论文“用于显着性检测的金字塔特征注意网络”的源代码。 ( ) 下载显着性地图 为了方便起见,我们提供了本文中使用的基准数据集的显着...
DETR(End-to-End Object Detection with Transformers)是由Facebook AI Research团队在2020年的CVPR会议上提出的一种全新的目标检测方法。它彻底改变了传统的目标检测框架,将Transformer架构引入到这一领域,实现...
数据融合matlab代码对象检测资源审查 物体检测 真棒对象检测 基于handong1587的超棒物体检测 github( 论文与守则 神经网络 丰富的功能层次结构,可实现准确的对象检测和语义分割 简介:R-CNN arxiv:支持:幻灯片:...
2015_Face_Detection, 用于人脸检测的CVPR2015级联 CNNs 用于人脸检测的级联 CNNs主要思想是从 2015 CVPR级CNNs进行人脸检测。"母版"分支中的( l.hao, z 。lin 等等 ),包括培训代码。 在"测试"分支中,我包括测试...
最近 UCF 的 CV 研究中心就在 CVPR18 上发表了一篇关于监控视频异常事件检测的论文,提出了一种基于深度多实例排序的弱监督算法框架,同时提出了一个新的大规模异常事件检测数据集。 论文解读:...
- 目标检测与跟踪 - 图像分割与理解 - 视频分析与应用 - 深度学习在视觉中的应用等 #### CVPR 2019 - **时间**:2019年6月16日至6月20日 - **地点**:美国长滩 - **主要议题**: - 计算机视觉理论与方法 - 三...
YOLO(You Only Look Once)系列是实时物体检测领域的经典算法,由Joseph Redmon于2016年在CVPR会议上首次提出。YOLO的主要特点是将目标检测问题转化为回归问题,通过一次网络前向传播就能预测图像中的物体位置和...
《CVPR2016Structural-RNN: 深度学习在时空图上的应用》 在计算机视觉领域,CVPR(Computer Vision and Pattern Recognition)是每年一度的重要会议,吸引了全球众多研究人员的关注。2016年的CVPR会议上,一篇名为...
matlab放大图片的代码级联CNN用于人脸检测 主要思想来自于用于面部检测的2015 CVPR级联CNN。(L.Hao,Z.Lin等)在“ master”分支中,我包含了培训代码。 在“测试”分支中,我包含用于测试的代码。 新增功能:我用...
CVPR 2023 RIDCP: Revitalizing Real Image Dehazing via High-Quality Codebook Priors源码,真实雾天图像去雾论文源码。CVPR 2023 RIDCP: Revitalizing Real Image Dehazing via High-Quality Codebook Priors源码...
在《Sultani Real-World Anomaly Detection CVPR 2018》这篇论文中,作者探讨了异常检测这一关键问题,尤其是在视频监控场景中的应用。异常检测是计算机视觉领域的一个重要课题,旨在识别和标记出与常规行为不一致的...
多任务级联卷积神经网络的联合人脸检测与对准 2k 8 R-CNN:具有卷积神经网络特征的区域 1.8千 9 中国地球(WGS-84)与火星之间的运输坐标(GCJ-02)。 1.7千 10 自己随手记录的东西 1.3千 11 此存储库包含ICCV 2015...
"AI去水印源码 CVPR 2017"所代表的是2017年在这个会议上发表的一项技术,旨在利用深度学习的方法自动检测并去除图像中的水印。 该技术的核心在于深度学习模型,特别是卷积神经网络(CNN)。CNNs在图像处理任务中...
在这个项目中,开发者使用了TensorFlow这一强大的开源深度学习框架,实现了从2019年CVPR(计算机视觉与模式识别会议)中提出的一种先进算法。 【描述】"(秒杀 DeepLabV3 和Unet 的缺陷检测网络)"暗示了这个实现...
CVPR2021目标检测论文列表及摘要 本文档提供了CVPR2021年目标检测论文的列表和摘要,涵盖了多篇论文的研究成果。本文将从这些论文中提取关键知识点,旨在提供一个详细的IT知识点总结。 1. 3DIoUMatch: Leveraging ...
然而,WateRF将其引入到数字水印领域,通过这种模型来确保水印的鲁棒性,即使在遭受各种攻击或处理后,仍能保持水印的可检测性。 在辐射场中嵌入水印的关键在于,它可以将水印信息编码为微小的、几乎不可察觉的变化...
(G-TAD) G-TAD:用于时间动作检测的子图定位(CVPR 2020) (CMSN) CMSN:用于生成时间动作建议的连续多阶段网络和可变边距余弦损失(arxiv 2019) (DBG)通过密集边界生成器(AAAI 2020)快速学习时间行动建议 (AFO-TAD) ...
几篇CVPR关于multi-task的论文笔记整理,包括 一、 多任务课程学习Curriculum Learning of Multiple Tasks 1 --------------^CVPR2015/CVPR2016v--------------- 5 二、 词典对分类器驱动卷积神经网络进行对象检测...