- 浏览: 724986 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (1081)
- [网站分类]1.首页原创精华.NET区(包含架构设计、设计模式)(对首页文章的要求:原创、高质量、经过认真思考并精心写作) (0)
- [网站分类]2..NET新手区(用于发表不合适发表在首页的.NET技术文章,包括小经验、小技巧) (1)
- [网站分类]3.非技术区(技术之外的文章,但不要涉及任何政治内容) (0)
- [网站分类]4.其他技术区 (0)
- [网站分类]5.企业信息化 (0)
- [网站分类]6.读书心得区(技术书籍阅读心得、书籍推荐) (0)
- [网站分类]7.提问区(.NET技术方面的提问) (2)
- [网站分类]8.技术转载区(.NET技术文章转载, 请注明原文出处) (0)
- [网站分类]9.求职招聘区(个人求职、企业招聘) (0)
- [网站分类]Dottext区 (0)
- [网站分类]GIS技术 (0)
- [网站分类]IT英才专区(IT职场交流) (0)
- [网站分类]SharePoint (0)
- [网站分类]博客园.NET俱乐部(俱乐部组织与活动方面的文章) (0)
- [网站分类]软件发布区(发布自己开发的代码、软件) (0)
- [网站分类]网站管理区(网站管理方面的疑问、建议、意见, 寻求管理员帮助) (0)
- [网站分类]业界新闻 (1)
- 技术 (1)
- [随笔分类]生活感悟 (10)
- [随笔分类]C# (30)
- [随笔分类]AjaxPro教程 (3)
- [发布至博客园首页] (5)
- [随笔分类]简历 (0)
- [随笔分类]Linux (2)
- [随笔分类]技术聚会 (2)
- [随笔分类]ORM (1)
- [随笔分类]php (1)
- [随笔分类]创业 (1)
- [随笔分类]奇技淫巧 (1)
- [随笔分类]计划 (1)
- [随笔分类]架构&分层 (1)
- [随笔分类]整合行销 (1)
- [随笔分类]mac (1)
- [网站分类].NET新手区 (45)
- [网站分类]非技术区 (5)
- [网站分类]招聘区 (0)
- [随笔分类]单元测试 (1)
- [网站分类]其他技术区 (3)
- [网站分类]代码与软件发布 (6)
- [网站分类]提问区 (24)
- [随笔分类]ASP.NET (2)
- [随笔分类]FAQ (12)
- [随笔分类]开发人员工具 (1)
- [随笔分类]朗志轻量级项目管理解决方案 (1)
- [网站分类]读书区 (1)
最新评论
-
天使建站:
写和乱七八糟的 不知道从哪复制过来的 还是看这里吧j ...
jquery数组 -
hyn450:
你好,我最近也想了解一下竞争情报。不知道能不能交流一下呢 ?
最近的工作 -
lattimore:
这个连接打不开了阿!
使用vnc连ubuntu desktop -
MZhangShao:
奉劝你一句,以后在Ubuntu 用apt-get安装成功的软件 ...
关于xrdp的安装设置 -
f002489:
strftime
python下datetime类型的转换
依旧先来段废话呵呵,程序还在开发阶段,担心开发出来的程序会走样,所以拿出来溜溜。市面上已经有n多的采集软件了,我只是在重复轮子,比它们的好不到哪去,差到没边到是极有可能。不过相比目前的一些采集程序而言,我算是基于组件的吧,各个组件间可替换,希望能算得上是一个亮点。同时也希望这次的展示,同行专家们给予建议和批评。
目前没有解决的问题是:
1.一些需要cookie的网站,怎么采集,sina我是登录进去了,不过cnblogs我没有登录成功。
2.定时的执行,怎么样让一个任务定时执行,使用Quartz.net?,由于一个采集任务的网址可能非常之多,第一个网址采集的时间,和最后一个网址采集的时间可能相隔几小时,如果整个任务的要求是间隔1h,采集一次,那么最后一个网址可能才刚采集完又要采集了,或是上一次任务都还没有执行到该网址。这里还没有考虑采集间隔策略的情况,比如如果三次采集未发生变化则延长下次采集时间等
3.储存问题,如果使用DAS、或是数据库到是一点问题都没有,但是如果各个客户端将采集的结果以文件的形式储存,怎么将各客户机上的文件汇总合并又将是一个系统的工程
4.任务流程及组件的装配界面实现的问题,目前对流程的配置都是使用文本编辑器来编辑配置文件,极易写错,对GDI+不了解,没有想到好的方法来实现界面化的组件装配。
我们先来看一下采集的结果,再介绍整个采集的流程。采集的结果用xml保存,使用了程序内置的Store2Xml组件,如果你想储存到特定的数据库中,你可以自己写一个组件,或者提供某个cms的webservice我们再做一个适配组件。
我考虑再做一个Store2MDB的组件,便于将数据转移也是嵌入式的,不采用sqlite是因为一般用户可能不太了解。
下面我以采集http://tech.sina.com.cn/VC/index.html下的创业资讯和创业锦囊栏目为例,展示一下这个程序
step1:分析网页
这两个栏目的样式是一样的,因此我们只需要写一个采集规则就可以了。
打开任意一个栏目的列表页,查看它的源码,我们需要找到重复的片段,如下图中高亮的部分是重复出现的内容
我们将上图中的欲抽取的部分源码放到RegexBuddy中作为测试代码,用来测试我们撰写的正则
将测试完的正则放到组件的指定属性中,目前只能手工配置了,在实际中应用有一个图形化的环境,提供step by step的操作提示
最后我们来设计组件装配置执行的流程,使用的是boo解释引擎,类似ironpython
在设计阶段总共有三个文件 ,其中文本文件储存的是欲采集的网址集,一行一个
Step 2:添加任务
将设计阶段制作好的任务包添加进来,填写好信息,就可以提交任务了
下图是程序后台运行的过程
附采集的结果
http://files.cnblogs.com/lexus/Data.7z
发表评论
-
关于分层架构中的业务实体层的使用一直不太清楚,可否指点一下?
2007-03-23 09:10 671我知道业务逻辑层又可细分为三个层次,分别是业务外观层业务规则层 ... -
xml反串行化
2007-07-02 17:23 7321using System; 2using Syste ... -
WriteXmlSchema(xsdFileName)和GetXmlSchema()输出的内容的差异
2007-07-04 19:00 881利用DataSet.ReadXml载入一个xml文件,再使用G ... -
对websharp中aspect的改进(待续)
2007-11-17 14:27 692缘起 为了在我的《朗志轻量级项目管理解决方案》项目中应用 ... -
WebSharp Aspect改进(续2)
2007-11-19 21:39 700接着上次在《朗志轻量级项目管理解决方案》中对Aspec ... -
TreeView(树形控件)中常用到的属性和事件
2007-11-19 22:22 12941.TreeView(树形控件) ... -
有没有适合的的面向对象的查询语言(Object Query Language)
2007-11-28 10:15 759在我做《朗志轻量级项目管理解决方案》的过程中,我希望 ... -
问题解答集
2007-11-29 18:11 4401 如何在源代码的目录下添加一个测试文件 ... -
FckEditor自定义按钮
2007-11-29 18:35 830目录 FckEditor自定义按钮 1 目录 ... -
GhstDoc2.1.1使用手册
2007-11-29 18:39 721目录 GhstDoc2.1.1使用手册 1 ... -
Log4net使用说明
2007-11-29 18:44 785Log4net使用说明 1 修改历史纪录 ... -
MySQLHelper类使用说明
2007-11-29 18:46 1315目录 MySQLHelper类使用说明 1 目录 ... -
NDoc1.3.1使用手册
2007-11-29 18:47 765目录 NDoc1.3.1使用手册 1 目录 ... -
程序中操作Word
2007-11-29 18:52 728目录 程序中操作Word 1 目录 2 ... -
利用SMTP服务发送电子邮件
2007-11-29 18:58 1353目录 利用SMTP服务发送电子邮件 1 目录 ... -
程序中操作Excel
2007-11-29 18:59 638目录 程序中操作Excel 1 目录 ... -
访问被拒绝:“AjaxPro”的解决方案
2007-11-29 19:01 532目录 访问被拒绝:&qu ... -
sqlserver的版本号
2008-02-27 21:01 820当你安装了sqlserver 2005之后你就可以使用sqls ... -
在安装有VS2008beta2版本的机子上使用vs2005进行部署出现问题的解决方法
2008-02-27 21:13 680我知道,2008rtm发布已经很久了,不巧的是同学在我的机子上 ... -
忙话codesmith
2008-07-28 15:01 867为什么不是闲话,因为我很忙,项目中新问题是接连不断,上一篇讲到 ...
相关推荐
分布式温度采集系统是一种高效、灵活的监控解决方案,广泛应用于工业自动化、农业研究、环境监测、建筑能源管理等领域。本文将围绕“分布式温度采集系统”这一主题,深入解析相关知识点,结合提供的压缩包文件中的...
水电站远程集控分布式数据采集系统设计的知识点可以详细展开如下: 首先,水电站远程集控系统是现代化水电站管理的一个重要组成部分,它旨在通过先进的信息技术实现对水电站运行状态的实时监控、远程操作和故障诊断...
基于Flume的分布式日志采集分析系统设计与实现 Flume是一种分布式日志采集系统,可以实时地采集和处理大量日志...该系统的实现证明了基于Flume的分布式日志采集系统方案的可行性,为企业安全提供了有力的信息支撑。
分布式数据采集系统是一种利用多个采集终端在不同空间进行数据采集的技术。它相较于集中式数据采集系统,在控制多采集终端时具有空间分布上的独立性,可以减少相互干扰,提高数据采集的效率和准确性。分布式数据采集...
本文所讨论的主题是一种新型的网络性能测量方法,其主要目的为平衡分布式信息采集系统中信息采集节点的负载,并通过引入分布式信息采集交互理论,提出一种结合管道数目与页面大小的应用级网络性能测量新方法。...
1. 分布式数据采集单元的设计背景与意义 在自动化产线中,为实现对生产设备的实时监控及故障诊断,需要准确采集数据。传统的串行通信方法(如RS232、RS485、CAN总线等)存在传输距离短、实时性差、抗干扰能力差等...
网络游戏,作为一种广受欢迎的娱乐形式,背后其实蕴含着复杂的分布式信息采集与检索网络系统的原理和技术。这个压缩包文件“网络游戏-一种分布式信息采集检索网络系统.zip”包含了一份名为“一种分布式信息采集检索...
分布式数据采集系统时间同步研究是现代信息技术领域中的一个重要议题,特别是在网络技术快速发展和分布式系统规模不断扩大的背景下。时间同步对于分布式系统,尤其是分布式数据采集和测试测量系统来说至关重要,因为...
该文档介绍了基于单片机和以太网技术实现的分布式数据采集装置的设计与实现。以下是从文档中提炼的知识点: 1. 分布式数据采集系统的概念:分布式数据采集系统通常由多个位于不同地点的数据采集终端组成,这些终端...
在介绍和讨论基于IEEE 1588协议的分布式数据采集系统时,首先需要明确几个关键性的概念和知识点。IEEE 1588协议,全称IEEE 1588-2008 Precise Timing Protocol (PTP) 是一种用于网络测量和控制系统中时间同步的协议...
《基于道路护栏的分布式信息采集系统》 在现代电信设备的发展中,信息采集系统的创新设计已经成为提升通信效率和安全性的关键。本资料集中探讨了一种独特的应用案例——基于道路护栏的分布式信息采集系统,该系统...
动态分层分布式数据采集算法是一种针对网络数据采集领域的新型算法,它的提出主要是为了解决传统分层分布式数据采集算法在随机采集次序和固定采集周期方面的不足。下面详细介绍该算法的相关知识点。 首先,我们需要...
《电信设备——基于道路护栏的分布式信息采集与快速响应系统》 在当今信息化社会,高效、精准的信息采集和快速响应能力对于交通管理、城市安全以及应急处理等方面具有至关重要的作用。本资料主要探讨了一种创新的...
根据提供的文件信息,本研究文件的标题为“基于Kafka消息队列的新一代分布式电量采集方法研究”,文件的描述为“#资源达人分享计划#”,而标签则包括“分布式”、“分布式系统”、“分布式开发”、“参考文献”和...
根据提供的文件内容,我们可以提取和展开以下几个IT知识点: 1. 煤矿井下中央变电所...这些知识点详细描述了煤矿井下中央变电所分布式智能采集分析系统的研发背景、系统构成、实现技术、测试结果以及相应的技术挑战。
根据提供的文件信息,本文件是关于中央空调节能运行方案设计的研究论文,利用了分布式温度采集技术和先进的控制策略来提高中央空调系统的能效。下面我将详细说明该论文所涉及的知识点。 ### 分布式温度采集技术 ...
在当前的网络信息时代,网络爬虫技术已经成为进行数据挖掘、分析和获取网络资源的重要手段。Scrapy是一个用Python编写的快速、高层次的屏幕抓取和网络爬虫框架,它能够快速爬取网站并从页面中提取结构化的数据。然而...
分布式数据采集系统是一种利用多个传感器节点进行信息收集的系统,这些节点通过无线通信技术协同工作。在环境监测、工业自动化等领域,这种系统可以实现对特定区域环境信息的实时、连续采集。分布式系统的优点在于其...
一、分布式光伏电站信息采集系统概述 分布式光伏电站通过将太阳能转化为电能,为缓解环境与资源的矛盾发挥着重要作用。小容量分布式光伏电站通常装机容量较小,一般在几千瓦及以下。在建设分布式光伏电站时,通常...