`
mlzboy
  • 浏览: 724986 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

分布式信息采集程序preview

阅读更多

依旧先来段废话呵呵,程序还在开发阶段,担心开发出来的程序会走样,所以拿出来溜溜。市面上已经有n多的采集软件了,我只是在重复轮子,比它们的好不到哪去,差到没边到是极有可能。不过相比目前的一些采集程序而言,我算是基于组件的吧,各个组件间可替换,希望能算得上是一个亮点。同时也希望这次的展示,同行专家们给予建议和批评。

目前没有解决的问题是:

1.一些需要cookie的网站,怎么采集,sina我是登录进去了,不过cnblogs我没有登录成功。

2.定时的执行,怎么样让一个任务定时执行,使用Quartz.net?,由于一个采集任务的网址可能非常之多,第一个网址采集的时间,和最后一个网址采集的时间可能相隔几小时,如果整个任务的要求是间隔1h,采集一次,那么最后一个网址可能才刚采集完又要采集了,或是上一次任务都还没有执行到该网址。这里还没有考虑采集间隔策略的情况,比如如果三次采集未发生变化则延长下次采集时间等

3.储存问题,如果使用DAS、或是数据库到是一点问题都没有,但是如果各个客户端将采集的结果以文件的形式储存,怎么将各客户机上的文件汇总合并又将是一个系统的工程

4.任务流程及组件的装配界面实现的问题,目前对流程的配置都是使用文本编辑器来编辑配置文件,极易写错,对GDI+不了解,没有想到好的方法来实现界面化的组件装配。

 

我们先来看一下采集的结果,再介绍整个采集的流程。采集的结果用xml保存,使用了程序内置的Store2Xml组件,如果你想储存到特定的数据库中,你可以自己写一个组件,或者提供某个cms的webservice我们再做一个适配组件。

我考虑再做一个Store2MDB的组件,便于将数据转移也是嵌入式的,不采用sqlite是因为一般用户可能不太了解。

 

 

 

 

 

 

下面我以采集http://tech.sina.com.cn/VC/index.html下的创业资讯和创业锦囊栏目为例,展示一下这个程序

step1:分析网页

 这两个栏目的样式是一样的,因此我们只需要写一个采集规则就可以了。

 

打开任意一个栏目的列表页,查看它的源码,我们需要找到重复的片段,如下图中高亮的部分是重复出现的内容

我们将上图中的欲抽取的部分源码放到RegexBuddy中作为测试代码,用来测试我们撰写的正则

将测试完的正则放到组件的指定属性中,目前只能手工配置了,在实际中应用有一个图形化的环境,提供step by step的操作提示

最后我们来设计组件装配置执行的流程,使用的是boo解释引擎,类似ironpython

 

 在设计阶段总共有三个文件 ,其中文本文件储存的是欲采集的网址集,一行一个

Step 2:添加任务

将设计阶段制作好的任务包添加进来,填写好信息,就可以提交任务了

下图是程序后台运行的过程

附采集的结果 

http://files.cnblogs.com/lexus/Data.7z

分享到:
评论

相关推荐

    分布式温度采集系统文档资料收集,含中英文文档

    分布式温度采集系统是一种高效、灵活的监控解决方案,广泛应用于工业自动化、农业研究、环境监测、建筑能源管理等领域。本文将围绕“分布式温度采集系统”这一主题,深入解析相关知识点,结合提供的压缩包文件中的...

    水电站远程集控分布式数据采集系统设计.pdf

    水电站远程集控分布式数据采集系统设计的知识点可以详细展开如下: 首先,水电站远程集控系统是现代化水电站管理的一个重要组成部分,它旨在通过先进的信息技术实现对水电站运行状态的实时监控、远程操作和故障诊断...

    基于Flume的分布式日志采集分析系统设计与实现.pdf

    基于Flume的分布式日志采集分析系统设计与实现 Flume是一种分布式日志采集系统,可以实时地采集和处理大量日志...该系统的实现证明了基于Flume的分布式日志采集系统方案的可行性,为企业安全提供了有力的信息支撑。

    分布式数据采集系统的通信模型优化.pdf

    分布式数据采集系统是一种利用多个采集终端在不同空间进行数据采集的技术。它相较于集中式数据采集系统,在控制多采集终端时具有空间分布上的独立性,可以减少相互干扰,提高数据采集的效率和准确性。分布式数据采集...

    论文研究-一种面向分布式信息采集的应用级网络性能测量技术 .pdf

    本文所讨论的主题是一种新型的网络性能测量方法,其主要目的为平衡分布式信息采集系统中信息采集节点的负载,并通过引入分布式信息采集交互理论,提出一种结合管道数目与页面大小的应用级网络性能测量新方法。...

    基于ENC28J60分布式数据采集单元设计及扩展方法.pdf

    1. 分布式数据采集单元的设计背景与意义 在自动化产线中,为实现对生产设备的实时监控及故障诊断,需要准确采集数据。传统的串行通信方法(如RS232、RS485、CAN总线等)存在传输距离短、实时性差、抗干扰能力差等...

    网络游戏-一种分布式信息采集检索网络系统.zip

    网络游戏,作为一种广受欢迎的娱乐形式,背后其实蕴含着复杂的分布式信息采集与检索网络系统的原理和技术。这个压缩包文件“网络游戏-一种分布式信息采集检索网络系统.zip”包含了一份名为“一种分布式信息采集检索...

    分布式数据采集系统时间同步研究.pdf

    分布式数据采集系统时间同步研究是现代信息技术领域中的一个重要议题,特别是在网络技术快速发展和分布式系统规模不断扩大的背景下。时间同步对于分布式系统,尤其是分布式数据采集和测试测量系统来说至关重要,因为...

    基于单片机和以太网的分布式数据采集装置的设计与实现.pdf

    该文档介绍了基于单片机和以太网技术实现的分布式数据采集装置的设计与实现。以下是从文档中提炼的知识点: 1. 分布式数据采集系统的概念:分布式数据采集系统通常由多个位于不同地点的数据采集终端组成,这些终端...

    基于IEEE 1588协议的分布式数据采集系统.pdf

    在介绍和讨论基于IEEE 1588协议的分布式数据采集系统时,首先需要明确几个关键性的概念和知识点。IEEE 1588协议,全称IEEE 1588-2008 Precise Timing Protocol (PTP) 是一种用于网络测量和控制系统中时间同步的协议...

    电信设备-基于道路护栏的分布式信息采集系统.zip

    《基于道路护栏的分布式信息采集系统》 在现代电信设备的发展中,信息采集系统的创新设计已经成为提升通信效率和安全性的关键。本资料集中探讨了一种独特的应用案例——基于道路护栏的分布式信息采集系统,该系统...

    一种动态分层分布式数据采集算法.pdf

    动态分层分布式数据采集算法是一种针对网络数据采集领域的新型算法,它的提出主要是为了解决传统分层分布式数据采集算法在随机采集次序和固定采集周期方面的不足。下面详细介绍该算法的相关知识点。 首先,我们需要...

    电信设备-基于道路护栏的分布式信息采集与快速响应系统.zip

    《电信设备——基于道路护栏的分布式信息采集与快速响应系统》 在当今信息化社会,高效、精准的信息采集和快速响应能力对于交通管理、城市安全以及应急处理等方面具有至关重要的作用。本资料主要探讨了一种创新的...

    基于Kafka消息队列的新一代分布式电量采集方法研究.pdf

    根据提供的文件信息,本研究文件的标题为“基于Kafka消息队列的新一代分布式电量采集方法研究”,文件的描述为“#资源达人分享计划#”,而标签则包括“分布式”、“分布式系统”、“分布式开发”、“参考文献”和...

    煤矿井下中央变电所分布式智能采集分析系统.pdf

    根据提供的文件内容,我们可以提取和展开以下几个IT知识点: 1. 煤矿井下中央变电所...这些知识点详细描述了煤矿井下中央变电所分布式智能采集分析系统的研发背景、系统构成、实现技术、测试结果以及相应的技术挑战。

    基于分布式温度采集技术的中央空调节能运行方案设计.pdf

    根据提供的文件信息,本文件是关于中央空调节能运行方案设计的研究论文,利用了分布式温度采集技术和先进的控制策略来提高中央空调系统的能效。下面我将详细说明该论文所涉及的知识点。 ### 分布式温度采集技术 ...

    基于Scrapy-Redis分布式数据采集平台的设计与实现.pdf

    在当前的网络信息时代,网络爬虫技术已经成为进行数据挖掘、分析和获取网络资源的重要手段。Scrapy是一个用Python编写的快速、高层次的屏幕抓取和网络爬虫框架,它能够快速爬取网站并从页面中提取结构化的数据。然而...

    基于Android的分布式数据采集系统设计.pdf

    分布式数据采集系统是一种利用多个传感器节点进行信息收集的系统,这些节点通过无线通信技术协同工作。在环境监测、工业自动化等领域,这种系统可以实现对特定区域环境信息的实时、连续采集。分布式系统的优点在于其...

    小容量分布式光伏电站信息采集系统.pdf

    一、分布式光伏电站信息采集系统概述 分布式光伏电站通过将太阳能转化为电能,为缓解环境与资源的矛盾发挥着重要作用。小容量分布式光伏电站通常装机容量较小,一般在几千瓦及以下。在建设分布式光伏电站时,通常...

Global site tag (gtag.js) - Google Analytics