jsoup 是一款 Java 的HTML
解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操
作数据。请参考:
http://jsoup.org/
jsoup的主要功能如下:
从一个URL,文件或字符串中解析HTML;
使用DOM或CSS选择器来查找、取出数据;
可操作HTML元素、属性、文本;
jsoup是基于MIT协议发布的,可放心使用于商业项目。
下载和安装:
maven安装方法:
把下面放入pom.xml下
<dependency>
<!-- jsoup HTML parser
library @ http://jsoup.org/ -->
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.5.2</version>
</dependency>
用jsoup解析html的方法如下:
解析url html方法
Document
doc
=
Jsoup
.
connect
(
"http://example.com"
)
.
data
(
"query"
,
"Java"
)
.
userAgent
(
"Mozilla"
)
.
cookie
(
"auth"
,
"token"
)
.
timeout
(
3000
)
.
post
();
从文件中解析的方法:
File
input
=
new
File
(
"/tmp/input.html"
);
Document
doc
=
Jsoup
.
parse
(
input
,
"UTF-8"
,
"http://example.com/"
);
类试js jsoup提供下面方法:
同时还提供下面的方法提供获取兄弟节点:
siblingElements()
, firstElementSibling()
, lastElementSibling()
;nextElementSibling()
, previousElementSibling()
用下面方法获得元素的数据:
操作html提供了下面方法:
通过类似jquery的方法操作html
File
input
=
new
File
(
"/tmp/input.html"
);
Document
doc
=
Jsoup
.
parse
(
input
,
"UTF-8"
,
"http://example.com/"
);
Elements
links
=
doc
.
select
(
"a[href]"
);
// a with href
Elements
pngs
=
doc
.
select
(
"img[src$=.png]"
);
// img with src ending .png
Element
masthead
=
doc
.
select
(
"div.masthead"
).
first
();
// div with class=masthead
Elements
resultLinks
=
doc
.
select
(
"h3.r > a"
);
// direct a after h3
支持的操作有下面这些:
-
tagname
操作tag
-
ns|tag
ns或tag
-
#id
用id获得元素
-
.class
用class获得元素
-
[attribute]
属性获得元素
-
[^attr]
: 以attr开头的属性
-
[attr=value] 属性值为
value
-
[attr^=value]
, [attr$=value]
, [attr*=value]
-
[attr~=regex]
正则
-
*
:所以的标签
选择组合
-
el#id
el和id定位
-
el.class
e1和class定位
-
el[attr]
e1和属性定位
-
ancestor child
ancestor下面的
child
等等
抓取网站标题和内容及里面图片的事例:
-
public
void
parse(String urlStr) {
-
-
-
Document doc = null
;
-
try
{
-
doc = Jsoup
-
.connect(urlStr)
-
.userAgent(
-
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.15)"
)
-
.timeout(5000
)
-
.get();
-
} catch
(MalformedURLException e) {
-
log.error( e);
-
return
;
-
} catch
(IOException e) {
-
if
(e
instanceof
SocketTimeoutException) {
-
log.error( e);
-
return
;
-
}
-
if
(e
instanceof
UnknownHostException){
-
log.error(e);
-
return
;
-
}
-
log.error( e);
-
return
;
-
}
-
system.out.println(doc.title());
-
Element head = doc.head();
-
Elements metas = head.select("meta"
);
-
for
(Element meta : metas) {
-
String content = meta.attr("content"
);
-
if
(
"content-type"
.equalsIgnoreCase(meta.attr(
"http-equiv"
))
-
&& !StringUtils.startsWith(content, "text/html"
)) {
-
log.debug( urlStr);
-
return
;
-
}
-
if
(
"description"
.equalsIgnoreCase(meta.attr(
"name"
))) {
-
system.out.println(meta.attr("content"
));
-
}
-
}
-
Element body = doc.body();
-
for
(Element img : body.getElementsByTag(
"img"
)) {
-
String imageUrl = img.attr("abs:src"
);
-
for
(String suffix : IMAGE_TYPE_ARRAY) {
-
if
(imageUrl.indexOf(
"?"
)>
0
){
-
imageUrl=imageUrl.substring(0
,imageUrl.indexOf(
"?"
));
-
}
-
if
(StringUtils.endsWithIgnoreCase(imageUrl, suffix)) {
-
imgSrcs.add(imageUrl);
-
break
;
-
}
-
}
-
}
-
}
public void parse(String urlStr) {
// 返回结果初始化。
Document doc = null;
try {
doc = Jsoup
.connect(urlStr)
.userAgent(
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.15)") // 设置User-Agent
.timeout(5000) // 设置连接超时时间
.get();
} catch (MalformedURLException e) {
log.error( e);
return ;
} catch (IOException e) {
if (e instanceof SocketTimeoutException) {
log.error( e);
return ;
}
if(e instanceof UnknownHostException){
log.error(e);
return ;
}
log.error( e);
return ;
}
system.out.println(doc.title());
Element head = doc.head();
Elements metas = head.select("meta");
for (Element meta : metas) {
String content = meta.attr("content");
if ("content-type".equalsIgnoreCase(meta.attr("http-equiv"))
&& !StringUtils.startsWith(content, "text/html")) {
log.debug( urlStr);
return ;
}
if ("description".equalsIgnoreCase(meta.attr("name"))) {
system.out.println(meta.attr("content"));
}
}
Element body = doc.body();
for (Element img : body.getElementsByTag("img")) {
String imageUrl = img.attr("abs:src");//获得绝对路径
for (String suffix : IMAGE_TYPE_ARRAY) {
if(imageUrl.indexOf("?")>0){
imageUrl=imageUrl.substring(0,imageUrl.indexOf("?"));
}
if (StringUtils.endsWithIgnoreCase(imageUrl, suffix)) {
imgSrcs.add(imageUrl);
break;
}
}
}
}
这里重点要
提的是怎么获得图片或链接的决定地址:
如上获得绝对地址的方法String imageUrl = img.attr("abs:src");//获得绝对路径
,前面添加abs:jsoup就会获得决定地址;
想知道原因,咱们查看下源
码,如下:
-
-
-
public
String attr(String attributeKey) {
-
Validate.notNull(attributeKey);
-
-
if
(hasAttr(attributeKey))
-
return
attributes.get(attributeKey);
-
else
if
(attributeKey.toLowerCase().startsWith(
"abs:"
))
-
return
absUrl(attributeKey.substring(
"abs:"
.length()));
-
else
return
""
;
-
}
//该方面是先从map中找看是否有该属性key,如果有直接返回,如果没有检查是否
//以abs:开头
public String attr(String attributeKey) {
Validate.notNull(attributeKey);
if (hasAttr(attributeKey))
return attributes.get(attributeKey);
else if (attributeKey.toLowerCase().startsWith("abs:"))
return absUrl(attributeKey.substring("abs:".length()));
else return "";
}
接着查看absUrl方法:
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
public
String absUrl(String attributeKey) {
-
Validate.notEmpty(attributeKey);
-
-
String relUrl = attr(attributeKey);
-
if
(!hasAttr(attributeKey)) {
-
return
""
;
-
} else
{
-
URL base;
-
try
{
-
try
{
-
base = new
URL(baseUri);
-
} catch
(MalformedURLException e) {
-
-
URL abs = new
URL(relUrl);
-
return
abs.toExternalForm();
-
}
-
-
if
(relUrl.startsWith(
"?"
))
-
relUrl = base.getPath() + relUrl;
-
URL abs = new
URL(base, relUrl);
-
return
abs.toExternalForm();
-
} catch
(MalformedURLException e) {
-
return
""
;
-
}
-
}
-
}
/**
* Get an absolute URL from a URL attribute that may be relative (i.e. an <code><a href></code> or
* <code><img src></code>).
* <p/>
* E.g.: <code>String absUrl = linkEl.absUrl("href");</code>
* <p/>
* If the attribute value is already absolute (i.e. it starts with a protocol, like
* <code>http://</code> or <code>https://</code> etc), and it successfully parses as a URL, the attribute is
* returned directly. Otherwise, it is treated as a URL relative to the element's {@link #baseUri}, and made
* absolute using that.
* <p/>
* As an alternate, you can use the {@link #attr} method with the <code>abs:</code> prefix, e.g.:
* <code>String absUrl = linkEl.attr("abs:href");</code>
*
* @param attributeKey The attribute key
* @return An absolute URL if one could be made, or an empty string (not null) if the attribute was missing or
* could not be made successfully into a URL.
* @see #attr
* @see java.net.URL#URL(java.net.URL, String)
*/
//看到这里大家应该明白绝对地址是怎么取的了
public String absUrl(String attributeKey) {
Validate.notEmpty(attributeKey);
String relUrl = attr(attributeKey);
if (!hasAttr(attributeKey)) {
return ""; // nothing to make absolute with
} else {
URL base;
try {
try {
base = new URL(baseUri);
} catch (MalformedURLException e) {
// the base is unsuitable, but the attribute may be abs on its own, so try that
URL abs = new URL(relUrl);
return abs.toExternalForm();
}
// workaround: java resolves '//path/file + ?foo' to '//path/?foo', not '//path/file?foo' as desired
if (relUrl.startsWith("?"))
relUrl = base.getPath() + relUrl;
URL abs = new URL(base, relUrl);
return abs.toExternalForm();
} catch (MalformedURLException e) {
return "";
}
}
}
分享到:
相关推荐
Jsoup可以连接到网络上的页面,发送请求并获取响应,然后解析HTML内容,以方便开发者获取和操作文档结构、表单、链接、图片等信息。 ### HttpClient工具包 HttpClient是Apache提供的一个用于发送HTTP请求的客户端...
1. **连接与解析**:JSoup使用`Jsoup.connect()`方法建立HTTP连接,并通过`get()`或`post()`方法发送请求。之后,调用`parse()`方法解析返回的HTML文档。 ```java Document doc = Jsoup.connect(...
Java的HttpURLConnection或者Apache HttpClient库可用于发送HTTP请求,获取网页内容。在此项目中,Java是实现爬虫逻辑的主要工具。 Jsoup 是一个Java库,用于解析HTML并提取结构化数据。它提供了强大的CSS选择器和...
在使用Jsoup连接到网站并获取内容时,默认情况下,它不会发送任何特定的User-Agent信息。因此,服务器可能无法识别Jsoup的请求,将其误认为是某种移动设备的请求,导致返回了针对手机优化的页面。 解决这个问题的...
首先,它通过`connect()`方法建立到目标URL的连接,然后使用`get()`或`post()`方法发送HTTP请求。例如: ```java Jsoup.connect("http://example.com").get(); ``` 获取到网页内容后,jsoup利用其强大的解析能力,...
- 执行方法发送请求并获取响应。 - 查看和处理响应中的Cookies信息。 4. 页面抓取过程: - 使用HttpClient获取登录后的页面。 - 可以通过Jsoup解析获取的HTML文档,并对元素进行选择、遍历和抽取。 - 修改HTML...
1. **连接和下载页面**:使用`Jsoup.connect(url).get()`发送HTTP请求并获取HTML内容。 2. **解析HTML**:将下载的HTML内容传递给`Jsoup.parse()`,得到`Document`对象。 3. **查询和提取数据**:使用CSS选择器...
在这个项目中,我们可能会使用如HttpURLConnection或Apache HttpClient等HTTP客户端库来发送HTTP请求,同时结合Jsoup来解析返回的HTML内容。为了实现IP轮换,我们可以设计一个代理IP池,并在每次请求前从池中取出一...
8. 连接和下载:Jsoup还可以用来发送HTTP请求,获取网页内容,支持GET和POST方法,设置cookies和headers,处理重定向等。 9. 错误处理:当遇到无法解析的HTML时,Jsoup会尝试恢复而不是抛出异常,这使得处理非标准...
5. **遍历分页**:为了爬取多页内容,我们需要写一个循环,递增页码并重新发送请求。在每次迭代中,更新URL的页码参数,然后再次执行解析和提取过程。 6. **异步处理**:为了提高爬取效率,可以考虑使用异步或者...
在爬虫编写过程中,开发者通常需要模拟浏览器的行为去发送HTTP请求获取网页内容,然后解析HTML以提取所需数据。使用这个工具,开发者可以快速将已知的HTTP请求转换为Jsoup的解析代码,从而专注于数据提取逻辑,而...
网络爬虫需要通过HttpClient来与服务器交互,获取网页内容。 这些依赖文件组合在一起,为开发高效、可靠的网络爬虫提供了完整的工具集。在使用Jsoup时,它们共同作用于网络请求、HTML解析、数据提取和错误处理等...
5. **下载图片**:使用`HttpURLConnection`或第三方库如Apache HttpClient发送GET请求,获取图片的`InputStream`。然后,创建一个`FileOutputStream`,将`InputStream`的数据写入到本地文件。 ```java URL url = ...
1. **发送请求**:使用Jsoup的`connect()`方法向目标URL发送GET请求,获取初始HTML。 2. **解析HTML**:使用Jsoup的`parse()`方法解析接收到的HTML,构建DOM树。 3. **识别JavaScript**:检查HTML中的标签或Ajax请求...
- 发送请求:调用execute方法发送请求并获取HttpResponse对象。 - 处理响应:从HttpResponse中获取状态码、响应头和响应体,根据需要进行解析。 2. **Jsoup的介绍**: Jsoup是一个强大的Java库,设计用于解析...
例如,可以先发送一个GET请求获取HTML,然后用Jsoup解析其中的JavaScript动态加载的数据源,再发送额外的请求来获取这些资源。 此外,Jsoup的兼容性极佳,它能很好地处理各种不规范的HTML,尽可能地恢复其结构,这...
爬虫开发中,需要考虑网络错误、服务器拒绝、动态加载内容等问题。jsoup提供了一些异常处理机制,如重试策略、超时设置等。同时,为了提高效率,可以并行处理多个URL,或者缓存已解析的页面,避免重复请求。 7. **...
虽然在给出的内容片段中没有直接提供有关jsoup模拟登录的具体步骤,但可以推断该文档将涉及如何使用jsoup进行网络请求,尤其是HTTP POST请求来模拟用户登录过程。 标签“模拟登陆”说明了本文将重点讲解如何模拟...
本教程将详细介绍如何通过URL地址获取网页并生成jpg图片,同时解决32位和64位运行环境下的兼容性问题。我们将主要使用Java语言来实现这一功能,因为它具有丰富的库和跨平台的特性。 首先,我们需要一个能够处理网络...
例如,如果你想要抓取一个新闻网站的最新文章标题,可以先使用HttpClient发送请求获取网页源码,再用Jsoup解析HTML,找到包含文章标题的元素: ```java CloseableHttpClient httpClient = HttpClients.create...