`
yuping322
  • 浏览: 92985 次
  • 来自: ...
社区版块
存档分类
最新评论

信息采集系统的技术实现

阅读更多

信息采集系统的技术实现

        信息采集系统指的是按标准格式采集指定网络信息,同搜索引擎的区别在于其采集的目的性更强,采集源范围也比较小。这里简单介绍一下信息采集系统实现上的几个关键问题:

1) 采集网页数据
        VC,Java,VB的网络通讯功能都足够实现信息采集,VC中的Get/Post方式可采集网页信息,也可以直接用socket方式采集,但一般用前一种模式,另外为了提高采集效率都采用多线程技术,在网上的一些Spider程序都是多线程的,可以借鉴.

2) 如何按关键字来信息
        信息采集的一大特点是按多个关键字将信息拆分出来,例如供求信息中的商机标题、联系人、电话、Email、内容等,实现时需要事先定义好这些关键字,然后在网页中搜索,将夹在两个关键字当中的信息采集出来,另外还要注意,网页中的许多关键字是包含空格的,空格数量也不能确定,例如"邮   件",这就要求在查找关键字时要把关键字按单个汉字拆开来匹配,遇到中间的空格要跳过去.这一步实现了,信息就会变的非常有规则,也就可以导入本地库了.

3) 网页中的链结获取算法
        了解HTML的应该清楚,网页中的链结都是通过的标签定义的,但也会分很多情况,例如:  < a href = "...">  这是常见的链结格式,但要注意采集出来的链结可能是完整的http://...,也可能是相对路径,要分别处理;  < a href = ''> 用单引号分隔的,所以用算法获取链结的时候要根据双引号和单引号两种标记来分隔;< a href = .. onclick = javascript:view('..','')> 通过javascript的函数处理链结,算法上就麻烦了许多。

4) 无效数据的过滤
        即使通过关键字的方式摒弃了许多广告信息,但在关键字信息中也会有不少无效数据,包括一些信息开头的空格

5) 特定数据的获取算法
        Email,电话等数据符合一定的规范,一般可以用一些算法提取出来,也可以用正则表达式技术来获取,在网络上有不少此类算法.在信息采集中,Email和电话等关键信息是比较分散的,需要用提取算法把这些信息提取出来放在正确的位置.这是非常有必要的,因为信息采集系统往往会有邮件群发的功能.

信息采集的整个流程可总结如下:

 a) 首先,获取网页的完整信息
 b) 用算法获取网页中的正文信息,即抛弃HTML的标签文本
 c) 去除多余的空行
 d) 按定义好的关键字将信息分隔开
 e) 对信息进行无效数据过滤
 f) 信息入本地库
 g) 获取网页中的链结,对该链结从a)步骤开始重复,但注意网页中的许多链结是广告或无效的,因此要事先定义好一些链结关键字,只有包含关键字的链结才处理

分享到:
评论
3 楼 shmily2038 2011-12-07  
数据采集使用什么技术来实现?
2 楼 loveflying88 2009-04-23  
http://www.myspider.org.cn
1 楼 liuchaoyong 2008-12-27  
  

相关推荐

    用电信息采集系统培训.pptx

    用户用电信息采集系统的定位是营销技术支持系统的重要组成部分,既可通过文件、中间库、WebService方式为营销业务应用系统提供数据支撑,同时也可独立运行,完成档案管理、数据采集管理、负荷管理、费控管理、线损...

    电力用户用电信息采集系统安全防护技术方案.pptx

    "电力用户用电信息采集系统安全防护技术方案" 本文档介绍了电力用户用电信息采集系统安全防护技术方案,旨在提高系统的总体安全防护能力,保障电网安全稳定运行,确保业务数据安全可靠,提高用电服务质量。 一、...

    网上信息采集系统.docx

    网上信息采集系统 本系统是基于 JSP 和 Servlet 的网上信息采集系统,旨在解决传统信息采集方式的不足,提高网上信息的利用率。该系统实现了表格类信息采集、文件类信息采集、接龙式信息采集等多种信息采集方式,...

    国网用电信息采集系统2.0终端技术架构方案(初稿).zip

    《国网用电信息采集系统2.0终端技术架构方案》初稿是针对电力行业中的智能电表及用电信息管理系统的深入探讨。这份文档旨在提供一套全面的技术框架,以优化电力公司的数据采集、处理和分析能力,从而提升服务质量,...

    分布式Web信息采集系统的设计与实现.pdf

    分布式Web信息采集系统的设计与实现,是针对Web信息量爆炸性增长所带来挑战的一种应对措施。在这篇文章中,作者详细讨论了如何从并行性、负载均衡、体系结构和可扩展性四个方面,设计并实现一个高效的分布式Web信息...

    基于Java+Web的智慧农业信息采集系统的设计与实现(毕设&课设论文参考).pdf

    ### 基于Java+Web的智慧农业信息采集系统的设计与实现 #### 一、引言 随着信息技术的快速发展,特别是在互联网技术领域的突破性进展,智慧农业作为一种新兴的农业生产模式正逐渐成为农业发展的新趋势。智慧农业...

    基于主题的Web信息采集系统的设计与实现

    “天达”主题Web信息采集系统是基于这些理论和策略实现的。系统采用了分布式架构,能够并行处理大量数据,提高了采集速度。同时,系统具备智能学习能力,能够在采集过程中不断学习和调整,以适应网络环境的变化和...

    人力资源信息采集系统

    《人力资源信息采集系统详解》 在当今信息化社会中,人力资源管理已经从传统的手动操作转变为依赖于先进的...在未来,随着技术的不断发展,我们有理由相信人力资源信息采集系统将更加智能化,为企业带来更大的价值。

    信息采集系统,都是以前做的项目了

    在本项目中,我们主要关注的是如何设计和实现一个高效且实用的信息采集系统。 首先,信息采集系统的构建通常包括以下几个关键环节: 1. 数据源获取:这是系统工作的起点,数据源可以是网络上的公开信息,如新闻...

    浅谈用电信息采集系统设计实现-系统设计-设计.pdf

    本文主要探讨了用电信息采集系统的设计与实现,特别是在智能电网建设背景下的重要性。用电信息采集系统在当前已经被广泛应用,有效地提升了电力网络的管理水平,包括远程抄表、负荷电量分析等功能。传统的系统业务...

    基于物联网技术的车辆信息采集系统构建.pdf

    如今,基于物联网技术的车辆信息采集系统提供了一种新的解决方案。 物联网技术通过传感器、射频识别(RFID)、无线通信等技术,实现对车辆信息的实时采集和监控,进而构建智能化的交通管控体系。该技术具有成本低、可...

    基于云计算的农田规划区域信息采集系统设计.pdf

    8. 实现算法:表2和表4分别展示了基于云计算的农田规划信息采集算法的实现表格和基于云计算的农田规划信息采集系统数据比较表格,显示了算法效果以及不同技术的数据比较结果。 9. 地图和图形展示:文中描述了关于...

    物联网技术的关键—信息采集技术.pdf

    3.灵活性强:信息采集技术可以与其他技术结合,实现自动化识别和管理。 4. 成本低:信息采集技术可以降低成本,提高效率。 四、信息采集技术的应用 信息采集技术可以在供应链管理、物流、资产管理、库存管理等领域...

    基于Python的求职信息采集分析系统设计与实现.docx

    基于 Python 的求职信息采集分析系统设计与实现 本文提出基于 Python 语言的求职信息采集分析系统,旨在帮助求职者更精准地把握当前就业市场的变化与需求。该系统利用 Scrapy 分布式爬虫获取招聘信息,利用数据挖掘...

    信息采集系统解决方案.docx

    《信息采集系统解决方案》 信息采集系统是信息服务的基石,其目标是收集丰富、准确、实时和全面的数据,以支撑信息处理和发布。系统主要关注交通流数据,如流量、速度和密度,这些数据通常通过微波、视频、地磁等...

    关于排爆机器人手动控制信息采集系统的实现研究.docx

    关于排爆机器人手动控制信息采集系统的实现研究,主要探讨了如何设计和实施一个高效安全的信息采集系统,以供排爆机器人在高风险环境下操作。排爆机器人作为一种高科技辅助工具,主要用于处理爆炸物和其他危险品,...

    基于Python的求职信息采集分析系统设计与实现.pdf

    基于Python的求职信息采集分析系统设计与实现是一项旨在提高求职者和招聘单位效率的技术项目。该系统通过互联网技术采集和分析求职信息,旨在帮助求职者和招聘单位更好地把握就业市场变化和需求。 首先,该系统的...

    基于嵌入式单片机的移动网络信息采集系统.pdf

    总的来说,基于嵌入式单片机的移动网络信息采集系统具有抗干扰能力强,信息采集效率高,准确度高等优点,是一种非常有前景的网络信息采集技术。随着技术的不断发展,该技术将在各个领域发挥更大的作用。

Global site tag (gtag.js) - Google Analytics