本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
Nutch爬去中文网站乱码
今天使用Nutch1.7抓取中文网站的时候,发现抓取后的数据是乱码,网上找了很多资料都没有解决。于是查看源代码发现,Nutch解析文件使用的是HtmlParser类,此类中有获取网页编码的代码:
// NUTCH-1006 Meta equiv with single quotes not accepted
private static Pattern metaPatter ...
(转)三、htmlparser使用指南
需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉 nekohtml的测试用例和文档都比htmlparser都少,而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求,因此先研究一 下htmlparser的使用,有空再研究neko ...
(转)二、基于htmlparser实现网页内容解析
网页解析,即程序自动分析网页内容、获取信息,从而进一步处理信息。
网页解析是实现网络爬虫中不可缺少而且十分重要的一环,由于本人经验也很有限,我仅就我们团队开发基于关键词匹配和模板匹配的主题爬虫的经验谈谈如何实现网页解析。
首先,必须说在最前的是我们使用的工具——htmlparser
简要地说,htmlparser包提供方便、简洁的处理html文件的方法,它将html页面中的标签按树形结构解析 ...
(转)一、HTMLParser分析器详解例子使用
HTMLParser使用
HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足。
这里我根据自己这几个月来的经验,写了一点入门的东西,希望能对新学习HTMLParser的朋友们有所帮助。(不过当年高考本人语文只比 ...
HTMLParser 详细 使用
原文地址 http://www.cnblogs.com/loveyakamoz/archive/2011/07/27/2118937.html
HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足。 这里我根据自己 ...
htmlparser的一处危险用法
最近通过同事的一次测试,正好发现了htmlparser的一处危险用法。姑且记录在博客里面,如果你恰好也用到了htmlpaser,可以检查一下自己的代码。
htmlparser(主页地址)是一个用的比较广泛的java解析html的库。
如下的代码使用会带来问题:
import org.htmlparser.Parser;
.... ...
HTMLParser的HasAttributeFilter过滤方式分析网页
HTMLParser 在分析网页的时候有两种方式,一种是Visitor方式另外一种是Filter方式。
在这里我们看看使用filter分析网页信息的方法。
使用Filter方式访问网页,目的就是提取网页上的节点。在这里我们就可以使用HasAttributeFilter来进行分析。例如,我们要在百度上查询www.javaeerun.com的收录情况,那么根据上一篇文章 简单收录查询工具的原理 ...
HtmlParserUtil 解析HTML文本
import java.util.ArrayList;
import java.util.List;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilt ...
九Python之HTML的解析(网页抓取一)
对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。
HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它主要的 ...
【转】几个open source的html parser的比较
转自:http://javashow.blog.163.com/blog/static/12109964200491452690/
几个open source的html parser的比较
HTMLParser
最先是看见SourceForge上下载的包,真是有点 ...
利用HtmlParser来提取网页内容
本文参考:李腾飞CSM实战
使用正则表达式来分析网页的内容比较麻烦,因为html标签不区分大小写,而且有的时候没有结尾。
HtmlParser也有下载网页的功能,不过他不是专门用来做这个,所以我们这边不用他的这个功能。
具体内容请看下面代码及注释:
public class PageParserTest extends TestCase {
private Str ...
htmlparser页面解析(基础运用)
Htmlparser 简介
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或
提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。
基础运用
目标页面代码
<ul class="list_ul">
<li class="title_li&q ...
jsoup 简介
jsoup 简介
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下:
1. 从一个 URL,文件或字符串中解析 HTML;
2. 使用 DOM 或 CSS 选择器来查找、取出数据;
FastJson-api
<!-- [if gte mso 9]><xml><w:WordDocument><w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel><w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDra ...
jeecms 扩展插件 爬虫 2.0 整合包
jeecms 爬虫 2.0正式版
这次新增了评论采集,采集界面也重新布局,数据库表,整合代码都独立了出来,可以与官方的采集共存,完全不用修改JEECMS的源代码(XML配置文件还是要改的哈,不然咋个整合进去啊!),另外,还整理了几个文档,采集参数设置说明,整合说明等,见附件。如有什么问题请QQ交流: 164863067
jeecms 交流群:217868618,爬虫交流群:217690017
...
用htmlparser提取table信息
htmlparser1.6提取tr似乎有些问题,直接用css selector提取的tr冗余,tr里面还有tr。所以这里多做了些处理。请看代码。
public static Map<String,String> parseList(String url) {
Map<String,String> rlt=new LinkedHashMap<String, ...
CssSelectorNodeFilter用法
这里演示htmlparser1.6中CssSelectorNodeFilter的用法。这个版本的CssSelector不支持pseudoclasses,比如:parent是不能用的。
import org.htmlparser.Parser;
import org.htmlparser.filters.CssSelectorNodeFilter;
import org.htmlpa ...
HttpClient模拟ajax提交
这几天开始做一些爬虫方面的东西,但是在解析页面是碰到了分页数据的爬取问题,如果分页是get方式的url还好,但是如果是Post方式的ajax提交那就感觉比较纠结
思路:
因为是post所以首先想到使用Post的参数方式来做:
public String doHttpSend(String keyWord,String searchType,int pageNum) throws Exceptio ...