一、信息指纹的由来
信息有“指纹”吗?信息要“指纹”做什么呢?
“指纹”一般特指我们识别人所采用各种方式的一个总称。生活中我们需要辨认出周围的每一个人,即使是非常相似的双胞胎,因为辨别是我们进行相互交流的前提。无论是通过名字、长相、声音的辨认,还是通过有技术依据的指纹与虹膜辨认,甚至是通过
DNA
鉴定,目的都只有一个,就是能准确确认对方。
可见指纹的首要用途就是识别个体,当然作为指纹特征,需要它是可唯一确定的、不容易更改的、方便携带的。另外一个重要用途是检索,我们需要找哪个朋友的时候,可呼叫他的名字找到他,也可以把他的指纹输入电脑,很快就查询到他的详细信息。
我们说:信息需要“指纹”的目的也有两个:一是检索,二是防止有假。前一个目的容易理解,我们现在都习惯网上搜索,找寻我们需要的各种信息。搜索有两种模式:一种是将信息都先分类,
先
选择信息类别是科技的还是文学的,是文字的还是图像的;先大类再小类,逐渐细化,直到你找到需要的信息。但这种方式需要对信息做预处理,并且分类要科学,
合乎大部分人的逻辑,否则就象迷宫一样,进去就难出来了。另一种是提供一些搜寻的关键字,查询时不可能拿这些关键字与所有的信息原文进行比对,时间上是不
可能的,比对的一定是事前整理好的特征信息,能“代表”信息的规律的信息,这就是信息的指纹。所以信息提取指纹是我们在信息海洋中搜寻的前提。这个需求产
生了
Yahoo
、
Google
、百度等搜索公司。理所当然,信息指纹技术也是搜索公司特别关注的新技术之一。
信
息需要指纹的另一个目的也是互联网带来的。我们生活在金钱驱动的阶级时代,免费的午餐是没有的,虽然信息的提供者大多的奉献的,但当信息的价值显现时,版
权的问题就来了,最起码的,你使用人家的信息,也应该给人家署名吧,尊敬也好,版权也好,反正信息需要带上其“出身”的标签。这在从前是相对容易的,因为
信息的载体是纸张、广播、电视,这些都比较好管理,互联网的兴起,信息变为电子流,一个人人都可以编辑的电子文档,使用者说是他自己的写的,你很难说是你
的。若能在你发布的电子信息中,生成自身的“指纹”,别人就不容易冒充了。我们听说过影像光盘中的“电子水印”,就是在视频信息中隐藏制作者的特别信息,
作为识别的“指纹”,但对普通的电子文档,大家似乎没有好的方法,现在流行的
pdf
文档
(
只能读不能改的一种文档格式,把文字变成类似图像的信息
)
是一些厂家提供手册、说明书的保护方法,但对于互联网上的丰富信息来说不适用的。
我们很容易联想到
CA
证书的方式,在电子信息中放入证书,具有防篡改和抗抵赖的功效,然而在普通的文档中,证书与信息本身是很容易分离的,也就是说我只要信息,抛弃证书,把一次“合法”得到的信息,变成自己的,再进行
N
次复制发布,对信息的拥有者来说,是个“头痛”的问题。互联网是一个虚拟的世界,有些现实中的法律与道德规范很难落实,变化各种虚拟的身份在互联网上就想玩游戏一样方便。所以信息指纹不仅应该源自信息,信息改变了,指纹就能反应出来;而且还要廉价、容易实现。
我
们都知道互联网是信息的海洋,但它也有大量的垃圾数据、重复数据,如何有效地在检索中减少重复、剪除垃圾,就需要信息指纹的技术。比如对一个博客文章的搜
索,原始发布的应该最需要的,转载的基本属于重复的,引用的则属于有关联的,只是偶尔出现该关键词的不相关信息的就是用户不需要的了。
从
另一个需求角度讲,在涉密信息系统中,有一项重要的防护要求,就是高密级的信息不能流向低密级保护的网络区域,但如何防护却是个大问题。信息中的密级标识
是很敏感的,只是在文档中标识,则很容易删除或修改,标识被修改了,防泄密就成了问题。信息指纹具有不可篡改的特性,把密级标识放在信息指纹中,就很容易
通过密级过滤的“网络防火墙”,自动检索出高密级信息,防止信息的泄密。
综观各种需求与目的,信息不仅需要指纹,而且信息指纹将是互联网上“信息海洋”的必然技术。
二、信息指纹提取的几种方法:
信息按照其表征特性可以分为:文字信息、图形信息、图像信息、语音信息。按照其来源可以分为:文档信息
(
正式编写的信息,有标题、作者、摘要、关键字等辅助信息,如正式发表的文章、论文等
)
、自然信息
(
随意记录或编写的信息,只有信息的内容,没有或部分有辅助信息,如八卦新闻、聊天室的帖子、博客的文章等
)
、再生信息
(
对各种信息的统计信息,或通过对别人信息的重新编写,总结、联想出来的新信息,一般再生信息也都属于文档信息,有辅助说明信息
)
统计信息表明:对一个文本信息提取指纹,当选取
8
个关键词及其词频作为其指纹时,准确度在
98%
以上,查全率在
30%
左右。这说明要能“概括”该信息,找出其
8
个使用频率最高的词汇,基本可以代表这个信息。
因此文字信息提取指纹的要素一般为下面信息:
n
标题
n
作者
n
发布时期、修改日期
n
主要关键词
其中关键词的选取可以有几种方法:
★
作者提供的关键词
★
作者提供的摘要,或整理人员编写的摘要
★
提取信息中出现频率高的
8
个关键词
★
文章开头或结尾一段话
★
文章中固定位置的一段话
(
如第
5
行的第一句话
)
有了这些代表信息后,便可以形成指纹信息,若再对这些信息进行
Hash
运算、
MD5
等方式加密、变化,生成一段定长
(
如
256
字节
)
的信息,就可以作为该信息的“指纹”,经过加密主要是防止对信息内容的篡改和对指纹的替换。这种方法有些象数字签名技术,但要相对简单,并且不进行加密运算时的标题等信息可以直接作为检索的关键字使用,
这里提取信息中的高频率关键词是一个技术的难点,其原因有两个:
1
、
信息中的非特征信息关键词的剔除:如我、你、他等称谓,而且、但是等连接词,对信息标识是没有帮助的。比较“通俗”的词,如管理、学习等可以出现在任何类
型的信息中,让用户搜索的信息五花八门;比较“流行”的词,如姚明、时尚等可能出现频率极高,造成搜索信息非常多。总之,若关键字搜索的信息多得难以阅
读,并且杂乱无序,对于查询者就失去了意义。
2
、
词汇的提取本身就是问题:对于英文来说,词汇是空格隔离的,比较好提取,而对于中文来说,一句话中可以多种断句,得到的词汇会很多,识别结果有很大的差
异。目前搜索公司大多采用巨大的词汇库方式,最长匹配也好,通俗词汇管理也好,说白了就是还没有一个模型或算法可以最好地识别词汇。这也正是
Google
也好,百度也好对中文的搜索结果都不尽如人意的原因。
文字信息的指纹提取不容易,对语音、图像指纹的提取就更困难了,因为对图像、语音的描述本身就比文字要麻烦。一般的思路是:在语音、图像先进行特征编码,也就是选取有代表意义的局部,语音中的某段频率
(
人的声音都有自己的音色特点
)
,图像中的明暗对比强烈的地方、或关键图像的区域等,再对编码进行变换、加密等处理,形成指纹。下面我们介绍一个图像提取指纹的简单方法:色阶图方法
色阶图
(Color histograms)
:就是从图像中产生出,可以描述图像的色彩分布。
图像与文本信息不同,是以点阵的色彩存放,信息量非常大,算法的目的就是进行信息简化,具体步骤如下:
1.
大小:对图像进行切割,根据颗粒度不同,小块大小为
m*n
,图像分割为
M*N
个块
2.
模糊:对每个图像块进行色彩的平均处理,也就是用该块最多的颜色代表该块
3.
减色:将色彩从真彩的
65536
色减少,合并颜色,当然颜色数量可以根据颗粒度选择
8
色、
16
色、
256
色等,本例选择为
8
色
4.
替换:简化后信息为
M*N*8
,每个颜色用一个字母符号替代,如:采用
xpm
格式,每个颜色用一个字符表示:
B
对
black
.
对
blue
X
对
green
o
对
cyan
O
对
red
+
对
magenta
@
对
yellow
#
对
gray100
5.
编码:把每个图像块用其字母替代,再按顺序排列,就形成一个
M*N
的字符串。该字串作为图像的指纹信息。
三、小结
信息指纹是信息时代互联网上的新兴技术,目前还处于起步的阶段,但随着互联网的繁荣,信息指纹的未来前景是广阔的。这里只是简单的介绍,给大家一个思路,离理论探讨还相距甚远。
分享到:
相关推荐
首先,我们要理解什么是信息指纹。信息指纹的生成过程主要包括以下几个步骤: 1. 特征提取:这是第一步,涉及到从原始信息中选择最具代表性的部分。这通常是一组词或短语,甚至可能包括它们的权重。这些特征能够...
信息指纹在互联网的应用非常广泛,概括来讲,可以分为完整性和标识性两大类。所谓文件的完整性,简单说就是文件早期是什么样,经过传输后,或者经过多人转手之后,得到的那份文件,仍然跟源文件相同。而标识行指的是...
在Android系统中,为了保护用户的安全,非系统应用通常无法直接访问硬件级别的指纹信息,例如指纹的详细图像或特定指纹的唯一标识。然而,开发者有时需要获取这些信息来进行特定的功能实现,比如身份验证或者安全...
在IT领域,指纹识别是一种广泛应用于安全验证和个人身份识别的技术,它基于每个人指纹的独特性。在本项目中,“matlab指纹识别指纹匹配”是利用MATLAB编程环境实现的一个指纹识别系统,它涉及到图像处理、特征提取和...
在现代信息技术领域,生物识别技术已经广泛应用于身份验证和安全防护,其中指纹识别是最常见的一种。本文将深入探讨如何将指纹数据存入数据库,以及这一过程中的关键技术和步骤。 指纹数据的提取首先涉及到图像采集...
通过分析web指纹的检测对象、检测方法、检测原理及常用工具,设计了一个简易的指纹搜集脚本来协助发现新指纹,并提取了多个开源指纹识别工具的规则库并进行了规则重组,开发了一个简单快捷的指纹识别小工具...
在信息技术中,这种技术被广泛应用于安全系统、移动设备解锁、金融交易验证等多个场景。本数据集“指纹识别数据集”是专为开发和测试指纹识别算法而设计的,包含了多个数据库文件,如DB4_B.zip、DB2_B.zip、DB3_B....
WiFi指纹技术是一种基于无线局域网(WLAN)信号强度信息进行定位的技术。它通过收集周围环境中多个WiFi接入点的信号强度,构建出一个独特的“指纹”,这个指纹包含了特定地理位置的无线信号特征。当我们需要定位时,...
在信息技术中,指纹识别被广泛应用于安全系统、移动设备解锁、金融交易验证等多个场景。本压缩包文件“指纹识别 指纹标准库”包含了各种不同类型的指纹图像,旨在为研究、开发和测试指纹识别系统提供基础资源。 ...
这个过程会保存指纹的模板信息,但并不会实际存储指纹图像,而是将其加密并安全地存储在硬件安全模块(Trusted Execution Environment,TEE)中。 - **权限请求**:在应用中使用指纹功能之前,必须在Manifest.xml中...
【标题】"信息安全论文六(指纹识别算法)"所涉及的知识点主要集中在指纹识别技术和信息安全领域,这是一份探讨指纹识别算法在信息安全应用中的硕士论文。指纹识别是一种生物特征识别技术,它基于人类独一无二的指纹...
通常,指纹库会进行匿名化处理,只保留必要的特征信息,而不关联任何个人身份信息。 指纹识别技术的应用广泛,包括手机解锁、门禁系统、金融交易验证等。随着科技的发展,这种技术正在变得越来越普及和精确,而一个...
本文对指纹图像的特征信息提取和匹配两个部分的算法进行了相应的分析和研究。在指纹提取过程中研究了基于指纹细化后的特征提取算法,针对各种指纹特征提出相应的提取方法。在指纹特征匹配比对过程中主要研究了基于...
指纹库是存储大量指纹图像和相关信息的数据库,这些图像来源于多个个体,用于训练和测试指纹识别算法。这些数据库通常包含清晰的指纹图像、指纹的数字化表示(如 minutiae 点),以及与每个指纹关联的身份信息。在...
3. 特征提取:软件会自动或手动分析指纹图像,提取关键的脊线和谷线信息,形成指纹模板。这一过程涉及到图像处理、模式识别等算法。 4. 模板匹配:在数据库中存储了多个指纹模板后,软件可以进行比对,验证输入的...
这些特征点的坐标和方向信息被编码成特征向量,用于表示指纹的独特性。这种方法确保了每个指纹的特征向量都是唯一的,因此可以作为身份识别的基础。 对于指纹密码的描述,即问题二,作者提出将问题一中的特征表示...
在IT领域,尤其是在生物识别技术中,指纹算法是至关重要的组成部分。本文将深入探讨PC端的指纹...正确理解和应用这些接口,可以有效地实现高效、可靠的指纹识别系统,广泛应用于金融、信息安全、移动支付等多个领域。