`
grunt1223
  • 浏览: 422905 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
阅读更多
从输入图象到信息获取之间存在着巨大的认知空白,其间需要经过一系列十分复杂的信息处理和理解过程。想象一下,在火车站,我们可以从茫茫人群中精确地找出要迎接的伙伴,这远非现在的机器学习、搜索引擎所能解决的。这再次证明人类视觉系统的强大。对人类视觉过程本质的认识,乃是揭开机器视觉进步的关键。对计算机而言,所有的输入均是矩阵,机器视觉的目的,就是要从这些矩阵中获取有用的信息。

计算机对图像内容的识别,按照难度、应用场景、所使用方法的不同,可以划分为三类:
1、近重复图片检索,主要是查找同源图片的不同版本(光照、旋转、缩放、模糊、logo、水印等、裁剪)
2、场景图片检索,又称物件识别检索,主要是查找在不同场景中出现同一物体,主要需要克服遮挡、仿射、视角改变等效应
3、同类物体检索,即平时所说的CBIR系统,往往需要一些训练、学习过程。

下图很好地说明了这三类检索的区别:



上述1的近重复图片检索,采用edge histogram、scalable color等mpeg-7规范产生的图像签名来构建系统,辅以locality sensitive hash等相似检索的数据结构,能够达到不错的效果,可以用于版权图片保护等应用。

上述3的同类物体检索,自从IBM最早提出基于CBIR的QBIR时,就有广泛的研究。但过于复杂的模型构建以及难以提高的准确率和召回率,一直是难以逾越的鸿沟。要让计算机理解一副图片
,其难度远远大于识别一副图片。

不少学者的工作重点将集中在上述的场景图片检索。譬如,一些特征点(haar、sift、surf、mser等等)技术别用于两两图像的匹配:





这类特征点共同的特点在于,对旋转、缩放、模糊、亮度、仿射变形、视角变换等都具有很强的抵抗性,如下图所示:



前面所述均是针对两两图像之间的识别,如何构建一个规模适中的图片搜索引擎呢?我们的需求应该是类似这样的:



当前日趋成熟的文本搜索引擎,有值得我们借鉴的地方吗?



类似的方式,我们是否也可以对图片搜索采用类似的“视觉词库”的方式呢?



视觉词库和文本中的语料有一个很大的区别,就是图片的信息量以及噪音均极为丰富,因此需要使用聚类的方式对其加以量化,许多极为相似的特征可以用一个“视觉词”来表示:



有了“视觉词”的概念后,图像搜索的问题就转变为K-NN(K近邻查找)问题了,采用诸如K-mean、Hierarchy K-mean、Approximate Kmean等方法,并通过一些文本搜索中优化ranking的方法提高准确率和召回率,这些细节,都在以后的文章中介绍吧。
  • 大小: 53.1 KB
  • 大小: 86.1 KB
  • 大小: 67 KB
  • 大小: 55.6 KB
  • 大小: 59.1 KB
  • 大小: 29.8 KB
  • 大小: 72.7 KB
  • 大小: 44.3 KB
3
2
分享到:
评论

相关推荐

    CS漫谈计算机视觉它是什么以及为什么重要.pdf

    计算机视觉概论 计算机视觉是人工智能的一个领域,旨在训练计算机解释和理解视觉世界。借助摄像机和视频中的数字图像以及深度学习模型,机器可以准确地识别和分类对象,然后对它们“看到”的内容做出反应。 计算机...

    计算机网络技术在广播电视中的应用漫谈.pdf

    过去复杂的制作流程得以简化,视频衔接更加自然,提高了整体的视觉效果。 6. **适应时代发展**:面对信息化电子网络技术和智能移动设备的冲击,广播电视行业必须与之融合,通过技术创新和理念更新,保持行业竞争力...

    Matlab多维数组漫谈教程(源码).rar

    1、资源内容:Matlab多维数组...擅长计算机视觉、目标检测模型、智能优化算法、神经网络预测、信号处理、元胞自动机、图像处理、智能控制、路径规划、无人机等多种领域的算法仿真实验,更多仿真源码、数据集定制私信+。

    漫谈中小学人工智能教育.zip

    3. 技术构成:机器学习、深度学习、自然语言处理、计算机视觉等。 二、中小学AI教育的重要性 1. 培养未来竞争力:AI将成为未来职场的关键技能,早期接触能提升学生的就业竞争力。 2. 创新思维:AI教育鼓励学生探索...

    大嘴巴漫谈数据挖掘和解析卷积神经网络

    CNN是一种深度学习模型,特别适用于图像识别和计算机视觉任务。其核心特征是卷积层、池化层和全连接层。卷积层通过共享权重的滤波器对输入图像进行特征提取;池化层则用于降低数据维度,减少计算量;全连接层将前一...

    漫谈3d电脑绘图与虚拟实境vr.docx

    ### 漫谈3D电脑绘图与虚拟实境(VR) 随着计算机技术的迅猛发展,3D电脑绘图(Computer Graphics, CG)与虚拟实境(Virtual Reality, VR)成为了近年来信息技术领域的热点话题。这两种技术不仅改变了人们的生活方式...

    漫谈网站装饰风格(PPT).ppt

    简洁的配色如纯色背景能提供直观的视觉体验,如使用红色、绿色或黄色作为主色调,可以通过调整透明度来增加层次感。CSS(级联样式表)在此发挥了关键作用,它允许设计师精细控制网页的外观和交互效果,实现更一致、...

    假若真时真亦假-漫谈3d电脑绘图与虚拟实境vr.docx

    3D电脑绘图是指通过计算机软件创建三维图形的过程。它在多个行业中发挥着关键作用,包括但不限于建筑设计、产品设计、电影制作、游戏开发、医疗模拟等。以下是3D电脑绘图的一些主要应用领域: 1. **电脑辅助设计/...

    漫谈园林设计中CAD制图的注意事项.pdf

    CAD(计算机辅助设计)技术在园林设计领域中扮演着重要角色,尤其在绘制施工图方面,它能提供精确的三维视觉效果和辅助设计功能,从而提高设计的效率和质量。 首先,园林设计的施工图必须准确无误地表达设计意图和...

    C++简单爱(一)

    首先,让我们从"第01章 程序漫谈.htm"开始。这一章通常会介绍什么是程序,以及程序是如何工作的。程序是指导计算机执行特定任务的一系列指令,而C++就是一种用来编写这些指令的语言。C++程序的基本结构包括预处理...

    flash网页设计--毕业论文设计.docx

    Flash 网页设计技术漫谈 本文将围绕 Flash 网页设计毕业论文设计的技术背景、设计理念、概要设计、详细设计、最后效果展示等方面内容进行详细的介绍,旨在为读者提供 Flash 网页设计的技术背景、设计理念、设计思路...

    生活颜色十六进制

    颜色在计算机系统中通常由红(R)、绿(G)、蓝(B)三种基本色彩组合而成。每种颜色都有一个0到255之间的数值范围,用来表示其强度。在十六进制表示法中,这些数值被转换为两位的十六进制数字,从而形成了一个颜色的十六...

Global site tag (gtag.js) - Google Analytics