`
wyuch
  • 浏览: 74249 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

ZCMS的Web采集(一):千万级别的网络爬虫

阅读更多
ZCMS的网页采集功能界面简洁,但功能强大,共由五部分组成:

一、一个大容量的页面文件容器。
1.1 该容器能保存上千万的HTML、图片、视频,但又不能产生过多的小文件。
1.2 该容器能通过URL快速存取文件(类似于HashMap)
1.3 该容器支持压缩存放。
1.4 该容器将页面的概要信息和内容分开存放。
1.5 该容器的存取性能不随存取文件数量的增长有大的变化。

二、一个高效的HTTP下载器
2.1 完全支持HTTP 1.0/1.1
2.2 支持Cookie
2.3 支持HTTP压缩
2.4 自动识别网页字符集
2.5 能够处理链接跳转,包括302/303跳转、通过JS跳转以及通过Meta的refresh跳转。
2.6 能够识别无限URL循环。
2.7 能够自动识别分页的URL(即列表中的下一页,第几页等链接)
2.8 能够处理ASP.NET形式的通过表单回发处理的分页。
2.9 能够避免无限分页的情况(有的网站上永远有下一页,但下一页的内容总是和上一页相似)
2.10 支持通过代理下载
2.11 支持超时设置
2.12 支持最大下载数
2.13 支持多线程,可以设置线程数

三、一个完善的URL提取器
3.1 能够从HTML中正确提取全路径URL
3.2 支持过滤后缀
3.3 为URL编码,但己编码的URL要能自动识别,避免再次编码
3.4 只有符合指定形式的URL才提取
3.5 支持过滤指定形式的URL

四、一个便利的结构化数据提取器
4.1 能够通过模板方式提取结构化信息,模板应该简易,从代表性HTML中摘取经过简单修改即可提取(不能使用正则表达式,对于HTML正则表达式需要转义的字符过多)
4.2 提取时能够自动得到一个二维表
4.3 提取结果支持过滤掉指定形式的内容块(比如正文中的广告)
4.4 能够自动下载正文中的图片
4.5 能够去掉正文中的超链接

五、一个准确率较高的正文提取器
5.1 以95%以上的准确率从HTML中提取文章正文
5.2 自动识别首页和列表页,不从其中提取正文
5.3 未成功提取正文时将Meta的Content中置为正文

将会以较多篇幅逐个介绍各部分的设计原理。
可以通过http://demo.zving.com体验
分享到:
评论
4 楼 jeve 2012-07-11  
太长知识了,期待楼主细节讲解。恶补啊。
3 楼 hahaeye 2009-06-03  
自己写个抓取的工具,太难了,html解析太复杂了,为什么不用开源的hetrix,nutch,
不过感觉这两个东西用起来,也挺费劲的,容量大,环境配置还挺麻烦,希望楼主开源啊。。。
2 楼 abeet 2009-06-02  
强大,
没想到一个完善爬虫要考虑这么多东西
期待楼主对技术细节的分享
1 楼 rainsky 2009-06-01  
一个完善的爬虫系统需要考虑的细节真不少

相关推荐

    A2ZCMS-CI:带有 Codeigniter 框架的 A2Z CMS 版本

    A2ZCMS - CI ====== 基于 Codeigniter 2.2.0 的 A2Z CMS A2Z CMS 特点: 代码点火器 2.2.0 推特引导程序 3.0.0 后端 自动安装和设置网站。 用户和角色管理。 查看用户登录历史。 管理博客帖子和评论。 管理...

    ZCMS泽元内容管理系统 v2.1.0.10018

    (简称ZCMS) 是一套基于J2EE和插件技术的、面向高端用户的网站内容管理软件,集内容规划、内容创作、内容编辑、内容审核、基于模板的内容发布等功能于一身,并提供互动组件、可视化专题、内容采集、内容检索、访问...

    thinkphp-zcms, 一个基于thinkphp3.2开发的cms系统,功能比较全面。.zip

    总之,ThinkPHP-ZCMS是一个强大的开源CMS系统,利用ThinkPHP3.2的优秀特性,为开发者提供了一个高效、灵活的平台,无论是小型企业网站还是大型门户站点,都能找到适合的解决方案。通过持续学习和实践,开发者可以...

    zcms.zip视频转码工具

    虽然zcms是一个桌面应用,但考虑到它可能包含Web服务或Web接口,用于管理和上传待转码的视频文件,因此Tomcat可能作为其后端服务的一部分,提供网络通信和支持。 “应用软件”一词表明zcms是一个独立的软件应用,...

    ZCMS内容管理系统_功能说明文档

    例如,单服务器支持的最大同时在线后台用户数可达2000人,最大站点数为1000个,最大栏目数为100万个,每分钟的文章发布性能超过5000篇,内容采集性能也相当出色,达到每秒100页以上(取决于网络带宽)。这些特性确保...

    ZCMS弹出框架最新版3.0.rar

    【ZCMS弹出框架最新版3.0】是一款专为ZCMS内容管理系统设计的弹出对话框组件,其核心是zDialog3.0,这是zDialog的最新升级版本。zDialog作为ZCMS中的一个关键模块,它极大地提升了用户体验,使得在进行页面交互时...

    泽元网站内容管理系统ZCMS v1.2.rar

    泽元网站内容管理系统 (简称ZCMS) 是一套基于J2EE和 AJAX 技术的企业级网站内容管理软件(CMS),集站点管理、内容创作、内容审核、基于模板的内容发布、内容采集、内容检 索、多媒体内容管理于一身。ZCMS 允许非专业...

    ZCMS:炒菜内容管理系统

    ZCMS(Zhacai Content Management System)是由Zhacai学习并开发的一个基于Vue和JQuery的内容管理系统。此为WEB应用技术的期末大作业,遵循GPL-3.0协议开源,欢迎提出改进意见。 ZCMS (Zhacai Content Management ...

    ZCMS泽元内容管理系统 v2.1.0.10018.zip

    (简称ZCMS) 是一套基于J2EE和插件技术的、面向高端用户的网站内容管理软件,集内容规划、内容创作、内容编辑、内容审核、基于模板的内容发布等功能于一身,并提供互动组件、可视化专题、内容采集、内容检索、访问...

    ZCMS弹出框架最新版 V2.3

    ZCMS弹出框架最新版V2.3是一个专为ZCMS(泽元内容管理系统)设计的弹出对话框解决方案,其核心组件为zDialog2.3。这个框架旨在提升用户体验,提供更加灵活、功能丰富的弹窗功能,适用于各种管理系统的交互需求。 ...

    ZCMS系统中文章的相关设置详细介绍

    #### 一、ZCMS系统概述 ZCMS是一款功能强大的内容管理系统(Content Management System),广泛应用于网站建设和管理之中。它提供了丰富的工具和选项,帮助用户轻松创建、编辑和管理网站内容。对于文章的管理,ZCMS...

    大家需要的看看--zcms使用说明书

    **ZCMS**(泽元网站内容管理系统)是一款由北京泽元迅长软件有限公司开发的专业级内容管理系统,旨在为用户提供一套全面、高效的网站内容管理和发布解决方案。该系统版本为V1.0,发布于2009年05月。 ##### 1.1 ZCMS...

    zcms.zip_jsp毕业设计_zcms

    【标题】"zcms.zip_jsp毕业设计_zcms"是一个基于JSP技术的毕业设计项目,主要用于构建一个在线BBS论坛系统。这个项目对于初学者来说是一个很好的学习资源,特别是那些正在学习JSP编程的学生。它展示了如何使用JSP来...

Global site tag (gtag.js) - Google Analytics