Jsoup网页内容抓取分析(1)

cjp1989

浏览: 163402 次
性别:
来自: 武汉

最近访客更多访客>>

猫狸粽子

picking

lzylin

csnd_one

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java爬虫搜索

jsoup java爬虫 java搜索引擎

在Java 程序在解析HTML 文档时，大家应该晓得htmlparser 这个开源项目，我也是使用过，不过这个程序到了2006年就没有更新了。由于我的基础较差，对于扩展自定义的标签还是不太懂，还是有超时问题困扰，偶然的机会中发现有jsoup，而且更新到了1.72版，使用起来还是很容易上手的。下面写些使用心得：

jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.

jsuop是一款java的html解析器，提供一套非常省力的API，通过dom模型css和类似于jquery的方式来获取和操作数据。

功能：1.解析一个Html文档，2.解析一个body片段

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);//分析文档，使用doc.toString()可以转为文本
Element body=doc.body();//获取body片段，使用body.toString()可以转为文本

获取方式：1.从本地文件加载 2.根据url地址获取

/**使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法
 *其中baseUri参数用于解决文件中URLs是相对路径的问题。
 *如果不需要可以传入一个空的字符串。
 */
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

/**
 *根据url直接获取内容，可以加入超时，get方法不行，就用post方法
 *我在实际应用中，出现404,405,504等错误信息
 *将get改为post就可以，或者反过来改
 *如果等以后弄明白了，再来解释清楚
 */
Document doc1 = Jsoup.connect("http://www.hao123.com/").get();
String title = doc1.title(); //获取网页的标题
String content=doc1.toString();//将网页转为文本

Document doc2 = Jsoup.connect("http://www.hao123.com")
  .data("query", "Java")//请求参数
  .userAgent("Mozilla")//设置urer-agent
  .cookie("auth", "token")//设置cookie
  .timeout(50000)//设置连接超时
  .post();//或者改为get

16
顶

5
踩

分享到：

jsoup网页内容抓取分析(2) | jdbcTemplate的CRUD操作总结

2013-02-19 09:00
浏览 7978
评论(17)
分类:开源软件
查看更多

17 楼 fwjuinsun 2013-12-20

mz0827 写道

superchinaren 写道

问一个问题。如何我要爬不同的网站上的内容。是不是要针对不同的网站写不同的解析代码？有没有统一处理的。

我开发的这个功能已经大范围在使用了。主要也是基于配置，配置的对象包括：
1.网站
提供要采集的网站的信息
2.栏目
采集某一栏目的内容，比如新浪的新闻
3.页面
列表页面、数据页面，有的有跳转页面
4.字段
挂在页面上。就是要从一个页面上获取哪些信息，每一个信息就是一个字段

我现在也对这块有兴趣，但问题是我需要抓取的内容是分页，有没有什么好主意才能把分页的内容全都抓到呢？还有就是对于一些在网址上不带参的，如果去抓取结果页面呢？

16 楼 cjp1989 2013-02-26

mz0827 写道

superchinaren 写道

问一个问题。如何我要爬不同的网站上的内容。是不是要针对不同的网站写不同的解析代码？有没有统一处理的。

不错的思路！

15 楼 mz0827 2013-02-26

superchinaren 写道

问一个问题。如何我要爬不同的网站上的内容。是不是要针对不同的网站写不同的解析代码？有没有统一处理的。

14 楼 cjp1989 2013-02-21

superchinaren 写道

cjp1989 写道

superchinaren 写道

问一个问题。如何我要爬不同的网站上的内容。是不是要针对不同的网站写不同的解析代码？有没有统一处理的。

这个我正在做通用配置，有很多的参数要设置，根据div，table不同，从数据库里读取配置信息。大部分的网站是可以统一处理的额

做出来后。欢迎也写写BLOG 学习一下。个人目前对这块比较感兴趣

目前已经在测试，性能还是很好的，通用配置只能针对大部分的网站，要费些时间才能做出来，而且可能不完善...因为有些网页结构真的很蛋疼

13 楼 superchinaren 2013-02-21

cjp1989 写道

superchinaren 写道

问一个问题。如何我要爬不同的网站上的内容。是不是要针对不同的网站写不同的解析代码？有没有统一处理的。

这个我正在做通用配置，有很多的参数要设置，根据div，table不同，从数据库里读取配置信息。大部分的网站是可以统一处理的额

做出来后。欢迎也写写BLOG 学习一下。个人目前对这块比较感兴趣

12 楼 cjp1989 2013-02-20

linweibin 写道

用jsoup大部分的网站都是可以做同意处理的，特别是像新闻类的网站或者微博

我现在就是做的新闻类网站的内容截取，分析

11 楼 linweibin 2013-02-20

superchinaren 写道

问一个问题。如何我要爬不同的网站上的内容。是不是要针对不同的网站写不同的解析代码？有没有统一处理的。

用jsoup大部分的网站都是可以做同意处理的，特别是像新闻类的网站或者微博

10 楼 cjp1989 2013-02-19

superchinaren 写道

问一个问题。如何我要爬不同的网站上的内容。是不是要针对不同的网站写不同的解析代码？有没有统一处理的。

这个我正在做通用配置，有很多的参数要设置，根据div，table不同，从数据库里读取配置信息。大部分的网站是可以统一处理的额

9 楼 superchinaren 2013-02-19

问一个问题。如何我要爬不同的网站上的内容。是不是要针对不同的网站写不同的解析代码？有没有统一处理的。

8 楼 cjp1989 2013-02-19

linweibin 写道

mz0827 写道

我觉得jsoup还是只用来解析html比较好。获取html可以使用Apache的HttpClient，3或者4都可以

这两个一般都是结合使用的

赞同，谢谢指教，现在在做通用配置，还有好多要解决的问题！

7 楼 linweibin 2013-02-19

mz0827 写道

我觉得jsoup还是只用来解析html比较好。获取html可以使用Apache的HttpClient，3或者4都可以

这两个一般都是结合使用的

6 楼 cjp1989 2013-02-19

sanshizi 写道

这个库不错

确实是很好的！

5 楼 sanshizi 2013-02-19

这个库不错

4 楼 cjp1989 2013-02-19

asialee 写道

jsoup的api定义的非常好

完全赞同，我也是觉得这个好用！

3 楼 cjp1989 2013-02-19

mz0827 写道

我觉得jsoup还是只用来解析html比较好。获取html可以使用Apache的HttpClient，3或者4都可以

谢谢，我一定试下。
我用java自带的httpURLConnection获取链接，发现耗时比较大，而且还有的无法加载出来，自己写了个demo比较耗时，发现jsoup综合还是快于HttpURLConnection。

2 楼 asialee 2013-02-19

jsoup的api定义的非常好

1 楼 mz0827 2013-02-19

我觉得jsoup还是只用来解析html比较好。获取html可以使用Apache的HttpClient，3或者4都可以

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论