`
libohan.life
  • 浏览: 3477 次
社区版块
存档分类
最新评论

WebCollector爬虫学习记录(一)

阅读更多

一、爬取国际石油网知识板块

要爬取的网站为:http://oil.in-en.com/zhishi/

网站结构比较标准,新闻列表页单一且包含href链接,下一页链接等信息

1.1 添加种子

	}else if (crawler.webMoudle == 38) {
			if (crawler.mk.equals("Sybk")) {
				/* 起始页 */
				crawler.addSeed("http://oil.in-en.com/zhishi/");
				crawler.addRegex("http://oil.in-en.com/html/oil.*");
			}	
		}

 1.2 visit覆写

  1. 先提取列表页的Elements,他的class为”clist sborder“
  2. 过滤其中的a[href],如果包含"http://oil.in-en.com/html/oil"就加入清洗和入库
  3. 如果indexOf("下一页")就next.add(href);,即将此链接设置为下一页的种子
else if (this.webMoudle == 38) {
				Elements pageHaveClass = page.select("div[class]");
				for (Iterator it = pageHaveClass.iterator(); it.hasNext();) {
					Element pageSelectedClass = (Element) it.next();
					String classAttr = pageSelectedClass.attr("class");
					if (classAttr.equals("clist sborder")) {
						Elements es = pageSelectedClass.select("a[href]");
						for (Iterator itHref = es.iterator(); itHref.hasNext();) {
							Element e = (Element) itHref.next();
							String href = e.attr("abs:href");
							if (e.text().indexOf("下一页") >= 0) {
								next.add(href);
							}
							if (href.indexOf("http://oil.in-en.com/html/oil") != -1) {

								String title = e.text();
								datebaseByContentExtractor(href, title);
							}
						}
					}
				}
			}

 

清洗、时间条件过滤、关键词过滤和入库的过程此处省略

在过滤class="clist sborder"的步骤好像麻烦了,但是jsoup的css选择器对于属性中间有空格的解决方法这边不是很了解,也没有查到,看下面可不可以解决。

0
0
分享到:
评论

相关推荐

    WebCollector爬虫、网页正文提取

    WebCollector爬虫、网页正文提取

    WebCollector 爬虫

    8. **日志与异常处理**:良好的日志记录和异常处理机制对于调试和监控爬虫运行状态非常关键。WebCollector提供了一套日志系统,方便开发者追踪和定位问题。 9. **持久化队列**:为了防止爬虫重启后丢失待抓取的URL...

    微博爬虫 WebCollector

    使用 WebCollector 的一个微博爬虫 WebCollector中提供模拟登陆的weibo.cn的功能,然后根据连接进行抓取一个用户的所有微博

    基于SSM实现的招聘考试系统 试题爬取通过WebCollector爬虫框架网上爬取试题+源代码+文档说明

    试题爬取通过WebCollector爬虫框架网上爬取试题,通过Lucene全文搜索试题,通过遗传算法生成试卷 ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合...

    webcollector 开源爬虫源码包

    总的来说,WebCollector是一个强大的开源爬虫框架,它的设计考虑了实际开发中的各种需求,通过学习和使用这个源码包,开发者可以快速掌握网络爬虫的开发技巧,提升数据获取和处理的能力。无论是对于个人项目还是企业...

    考试类精品--基于SSM实现的招聘考试系统。试题爬取通过WebCollector爬虫框架网上爬取试题,通过Lucen.zip

    这是一个基于SSM(Spring、SpringMVC和MyBatis)框架开发的招聘考试系统,它利用...总之,这个基于SSM的招聘考试系统结合了Web爬虫、全文搜索引擎和现代Web开发技术,为用户提供了一个高效、便捷的在线学习和测试平台。

    WebCollector:WebCollector爬虫框架原始码

    #WebCollector WebCollector爬虫框架原始码WebCollector是基于Java的开源Web爬网程序框架。它提供了一些用于爬网的简单界面,您可以在不到5分钟的时间内设置多线程Web爬网程序。 ## Homehttps ## Document ##安装...

    爬虫-Spiderman+WebCollector

    爬虫-Spiderman+WebCollector Spiderman2 Web Collector Spiderman2 WebCollector 爬虫-Spi derman+WebCollector 爬虫-Spiderman+WebColl ector 爬虫-Spiderman+WebCollector 爬虫-Spide rman+WebCollector

    基于SSM实现的招聘考试系统。试题爬取通过WebCollector爬虫框架网上爬取试题,通过Lucene全文搜索试题,通过遗传算法生成试卷源码+文档+全部资料(高分项目).zip

    试题爬取通过WebCollector爬虫框架网上爬取试题,通过Lucene全文搜索试题,通过遗传算法生成试卷源码+文档+全部资料(高分项目).zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95...

    使用Java的WebCollector爬虫框架采集网易云音乐5亿首歌.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    webcollector 开源爬虫源码包2.x版

    WebCollector是一款基于Java开发的开源网络爬虫框架,它的2.x版本提供了更加完善的爬虫功能和性能优化。这款工具主要用于从互联网上自动化地抓取数据,适用于数据分析、学术研究、市场监控等多种场景。以下是关于...

    webcollector

    【标题】"webcollector"指的是一个用于网络数据采集的工具,它是一个爬虫框架,能够帮助开发者高效地抓取和处理网页数据。WebCollector的核心功能是自动化地浏览互联网,提取所需信息,支持定制化的需求,比如按照...

    WebCollector网络爬虫框架 v2.x.zip

    标签中的“软件工具”表明WebCollector是一个可以被开发者直接使用的工具,而“源码程序”意味着用户不仅可以使用它,还能查看和修改其内部实现,这对于学习爬虫技术或者进行毕业设计是非常有价值的。在毕业设计中,...

    WebCollector教程

    WebCollector是一个基于Java的网页爬虫框架,它使得开发者能够方便地构建自己的网络爬虫程序。在Eclipse中配置和使用WebCollector非常直观,无需复杂的额外设置,只需要添加相应的jar包到项目的类路径中。 首先,你...

    基于SSM实现的招聘考试系统。试题爬取通过WebCollector爬虫网上爬取试题,Lucene全文搜索试题,遗传算法生成试卷

    遗传算法通常用于优化和搜索问题,例如函数优化、调度问题、机器学习等。 遗传算法包括以下几个步骤: 1. 初始化种群:生成一个包含一定数量个体的种群,每个个体代表问题的一个可能解。个体通常由染色体组成,...

    基于SSM实现的招聘考试系统。试题爬取通过WebCollector爬虫框架网上爬取试题,通过Lucene全文搜索试题.zip

    适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究...

    WebCollector+Selenium+Phantomjs

    WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行...

    网络爬虫webcollector

    WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次...

    WebCollector网络爬虫框架 v2.x-源码.zip

    WebCollector是一个广泛使用的网络爬虫框架,主要用于自动化地抓取互联网上的信息。v2.x版本是该框架的一个重要迭代,提供了更多的功能和优化,以适应不断变化的网页结构和网络环境。源码的公开使开发者能够深入理解...

    webcollector的wavenJAR依赖

    WebCollector是一个强大的网页爬虫框架,它允许开发者自定义规则来收集网络上的信息。在本话题中,重点是确保WebCollector的运行需要的所有JAR依赖已经正确配置,这样用户就可以直接下载并进行无修改的使用。此外,...

Global site tag (gtag.js) - Google Analytics