`

jsoup 通过网络地址获取内容发送请求

 
阅读更多

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操 作数据。请参考 http://jsoup.org/

 

 

     jsoup的主要功能如下:

 

      从一个URL,文件或字符串中解析HTML;

      使用DOM或CSS选择器来查找、取出数据;

      可操作HTML元素、属性、文本;

      jsoup是基于MIT协议发布的,可放心使用于商业项目。

     下载和安装:

      maven安装方法:

       把下面放入pom.xml下

        <dependency>

          <!-- jsoup HTML parser library @ http://jsoup.org/ -->

         <groupId>org.jsoup</groupId>

         <artifactId>jsoup</artifactId>

         <version>1.5.2</version>

        </dependency>

      用jsoup解析html的方法如下:

        解析url html方法

 

Document
 doc 
=
 
Jsoup
.
connect
(
"http://example.com"
)
  
.
data
(
"query"
,
 
"Java"
)

  
.
userAgent
(
"Mozilla"
) 

  
.
cookie
(
"auth"
,
 
"token"
)

  
.
timeout
(
3000
)

  
.
post
();

 

      从文件中解析的方法:

 

 

File
 input 
=
 
new
 
File
(
"/tmp/input.html"
);


Document
 doc 
=
 
Jsoup
.
parse
(
input
,
 
"UTF-8"
,
 
"http://example.com/"
);

 

 

  类试js  jsoup提供下面方法:

 

 

 同时还提供下面的方法提供获取兄弟节点:

 siblingElements() firstElementSibling() lastElementSibling() ;nextElementSibling() previousElementSibling()

用下面方法获得元素的数据:

 

 

操作html提供了下面方法:

 

通过类似jquery的方法操作html
File
 input 
=
 
new
 
File
(
"/tmp/input.html"
);


Document
 doc 
=
 
Jsoup
.
parse
(
input
,
 
"UTF-8"
,
 
"http://example.com/"
);



Elements
 links 
=
 doc
.
select
(
"a[href]"
);
 
// a with href


Elements
 pngs 
=
 doc
.
select
(
"img[src$=.png]"
);

  
// img with src ending .png



Element
 masthead 
=
 doc
.
select
(
"div.masthead"
).
first
();

  
// div with class=masthead



Elements
 resultLinks 
=
 doc
.
select
(
"h3.r > a"
);
 
// direct a after h3

 

支持的操作有下面这些:

 

  • tagname 操作tag
  • ns|tag ns或tag
  • #id  用id获得元素 
  • .class 用class获得元素
  • [attribute] 属性获得元素
  • [^attr] : 以attr开头的属性
  • [attr=value] 属性值为 value
  • [attr^=value][attr$=value][attr*=value] 
  • [attr~=regex] 正则
  • * :所以的标签

选择组合

  • el#id el和id定位
  • el.class e1和class定位
  • el[attr]  e1和属性定位
  • ancestor child  ancestor下面的 child
等等
抓取网站标题和内容及里面图片的事例:

 

 

Java 代码  收藏代码
  1. public    void  parse(String urlStr) {  
  2.     // 返回结果初始化。   
  3.   
  4.     Document doc = null ;  
  5.     try  {  
  6.         doc = Jsoup  
  7.                 .connect(urlStr)  
  8.                 .userAgent(  
  9.                         "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.15)" // 设置User-Agent   
  10.                 .timeout(5000 // 设置连接超 时时间   
  11.                 .get();  
  12.     } catch  (MalformedURLException e) {  
  13.         log.error( e);  
  14.         return  ;  
  15.     } catch  (IOException e) {  
  16.         if  (e  instanceof  SocketTimeoutException) {  
  17.             log.error( e);  
  18.                                return  ;  
  19.         }  
  20.         if (e  instanceof  UnknownHostException){  
  21.             log.error(e);  
  22.             return  ;  
  23.         }  
  24.         log.error( e);  
  25.         return  ;  
  26.     }  
  27.     system.out.println(doc.title());  
  28.     Element head = doc.head();  
  29.     Elements metas = head.select("meta" );  
  30.     for  (Element meta : metas) {  
  31.         String content = meta.attr("content" );  
  32.         if  ( "content-type" .equalsIgnoreCase(meta.attr( "http-equiv" ))  
  33.                 && !StringUtils.startsWith(content, "text/html" )) {  
  34.             log.debug( urlStr);  
  35.             return  ;  
  36.         }  
  37.         if  ( "description" .equalsIgnoreCase(meta.attr( "name" ))) {  
  38.             system.out.println(meta.attr("content" ));  
  39.         }  
  40.     }  
  41.     Element body = doc.body();  
  42.     for  (Element img : body.getElementsByTag( "img" )) {  
  43.         String imageUrl = img.attr("abs:src" ); //获 得绝对路径   
  44.         for  (String suffix : IMAGE_TYPE_ARRAY) {  
  45.             if (imageUrl.indexOf( "?" )> 0 ){  
  46.                 imageUrl=imageUrl.substring(0 ,imageUrl.indexOf( "?" ));  
  47.             }  
  48.             if  (StringUtils.endsWithIgnoreCase(imageUrl, suffix)) {  
  49.                 imgSrcs.add(imageUrl);  
  50.                 break ;  
  51.             }  
  52.         }  
  53.     }  
  54. }  
	public  void parse(String urlStr) {
		// 返回结果初始化。

		Document doc = null;
		try {
			doc = Jsoup
					.connect(urlStr)
					.userAgent(
							"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.15)") // 设置User-Agent
					.timeout(5000) // 设置连接超时时间
					.get();
		} catch (MalformedURLException e) {
			log.error( e);
			return ;
		} catch (IOException e) {
			if (e instanceof SocketTimeoutException) {
				log.error( e);
                                return ;
			}
			if(e instanceof UnknownHostException){
				log.error(e);
				return ;
			}
			log.error( e);
			return ;
		}
		system.out.println(doc.title());
		Element head = doc.head();
		Elements metas = head.select("meta");
		for (Element meta : metas) {
			String content = meta.attr("content");
			if ("content-type".equalsIgnoreCase(meta.attr("http-equiv"))
					&& !StringUtils.startsWith(content, "text/html")) {
				log.debug( urlStr);
				return ;
			}
			if ("description".equalsIgnoreCase(meta.attr("name"))) {
				system.out.println(meta.attr("content"));
			}
		}
		Element body = doc.body();
		for (Element img : body.getElementsByTag("img")) {
			String imageUrl = img.attr("abs:src");//获得绝对路径
			for (String suffix : IMAGE_TYPE_ARRAY) {
				if(imageUrl.indexOf("?")>0){
					imageUrl=imageUrl.substring(0,imageUrl.indexOf("?"));
				}
				if (StringUtils.endsWithIgnoreCase(imageUrl, suffix)) {
					imgSrcs.add(imageUrl);
					break;
				}
			}
		}
	}
 

里重点要 提的是怎么获得图片或链接的决定地址:

  如上获得绝对地址的方法String imageUrl = img.attr("abs:src");//获得绝对路径
,前面添加abs:jsoup就会获得决定地址;

想知道原因,咱们查看下源 码,如下:

Java 代码  收藏代码
  1. //该方面是先从map中找看是否有该属性key,如果有直接返回,如果没有检查是否   
  2. //以abs:开头   
  3.   public  String attr(String attributeKey) {  
  4.         Validate.notNull(attributeKey);  
  5.   
  6.         if  (hasAttr(attributeKey))  
  7.             return  attributes.get(attributeKey);  
  8.         else   if  (attributeKey.toLowerCase().startsWith( "abs:" ))  
  9.             return  absUrl(attributeKey.substring( "abs:" .length()));  
  10.         else   return   "" ;  
  11.     }  
//该方面是先从map中找看是否有该属性key,如果有直接返回,如果没有检查是否
//以abs:开头
  public String attr(String attributeKey) {
        Validate.notNull(attributeKey);

        if (hasAttr(attributeKey))
            return attributes.get(attributeKey);
        else if (attributeKey.toLowerCase().startsWith("abs:"))
            return absUrl(attributeKey.substring("abs:".length()));
        else return "";
    }

 

 接着查看absUrl方法:

 

Java 代码  收藏代码
  1.       
  2.   
  3.   /**  
  4.      * Get an absolute URL from a URL attribute that may be relative (i.e. an <code>&lt;a href></code> or  
  5.      * <code>&lt;img src></code>).  
  6.      * <p/>  
  7.      * E.g.: <code>String absUrl = linkEl.absUrl("href");</code>  
  8.      * <p/>  
  9.      * If the attribute value is already absolute (i.e. it starts with a protocol, like  
  10.      * <code>http://</code> or <code>https://</code> etc), and it successfully parses as a URL, the attribute is  
  11.      * returned directly. Otherwise, it is treated as a URL relative to the element's {@link #baseUri}, and made  
  12.      * absolute using that.  
  13.      * <p/>  
  14.      * As an alternate, you can use the {@link #attr} method with the <code>abs:</code> prefix, e.g.:  
  15.      * <code>String absUrl = linkEl.attr("abs:href");</code>  
  16.      *  
  17.      * @param attributeKey The attribute key  
  18.      * @return An absolute URL if one could be made, or an empty string (not null) if the attribute was missing or  
  19.      * could not be made successfully into a URL.  
  20.      * @see #attr  
  21.      * @see java.net.URL#URL(java.net.URL, String)  
  22.      */   
  23. //看到这里大家应该明白绝对地址是怎么取的了   
  24. public  String absUrl(String attributeKey) {  
  25.         Validate.notEmpty(attributeKey);  
  26.   
  27.         String relUrl = attr(attributeKey);  
  28.         if  (!hasAttr(attributeKey)) {  
  29.             return   "" // nothing to make absolute with   
  30.         } else  {  
  31.             URL base;  
  32.             try  {  
  33.                 try  {  
  34.                     base = new  URL(baseUri);  
  35.                 } catch  (MalformedURLException e) {  
  36.                     // the base is unsuitable, but the attribute may be abs on its own, so try that   
  37.                     URL abs = new  URL(relUrl);  
  38.                     return  abs.toExternalForm();  
  39.                 }  
  40.                 // workaround: java resolves '//path/file + ?foo' to '//path/?foo', not '//path/file?foo' as desired   
  41.                 if  (relUrl.startsWith( "?" ))  
  42.                     relUrl = base.getPath() + relUrl;  
  43.                 URL abs = new  URL(base, relUrl);  
  44.                 return  abs.toExternalForm();  
  45.             } catch  (MalformedURLException e) {  
  46.                 return   "" ;  
  47.             }  
  48.         }  
  49.     }  
    

  /**
     * Get an absolute URL from a URL attribute that may be relative (i.e. an <code>&lt;a href></code> or
     * <code>&lt;img src></code>).
     * <p/>
     * E.g.: <code>String absUrl = linkEl.absUrl("href");</code>
     * <p/>
     * If the attribute value is already absolute (i.e. it starts with a protocol, like
     * <code>http://</code> or <code>https://</code> etc), and it successfully parses as a URL, the attribute is
     * returned directly. Otherwise, it is treated as a URL relative to the element's {@link #baseUri}, and made
     * absolute using that.
     * <p/>
     * As an alternate, you can use the {@link #attr} method with the <code>abs:</code> prefix, e.g.:
     * <code>String absUrl = linkEl.attr("abs:href");</code>
     *
     * @param attributeKey The attribute key
     * @return An absolute URL if one could be made, or an empty string (not null) if the attribute was missing or
     * could not be made successfully into a URL.
     * @see #attr
     * @see java.net.URL#URL(java.net.URL, String)
     */
//看到这里大家应该明白绝对地址是怎么取的了
public String absUrl(String attributeKey) {
        Validate.notEmpty(attributeKey);

        String relUrl = attr(attributeKey);
        if (!hasAttr(attributeKey)) {
            return ""; // nothing to make absolute with
        } else {
            URL base;
            try {
                try {
                    base = new URL(baseUri);
                } catch (MalformedURLException e) {
                    // the base is unsuitable, but the attribute may be abs on its own, so try that
                    URL abs = new URL(relUrl);
                    return abs.toExternalForm();
                }
                // workaround: java resolves '//path/file + ?foo' to '//path/?foo', not '//path/file?foo' as desired
                if (relUrl.startsWith("?"))
                    relUrl = base.getPath() + relUrl;
                URL abs = new URL(base, relUrl);
                return abs.toExternalForm();
            } catch (MalformedURLException e) {
                return "";
            }
        }
    }
 

 

 

分享到:
评论

相关推荐

    Java爬虫Jsoup+httpclient获取动态生成的数据

    Jsoup可以连接到网络上的页面,发送请求并获取响应,然后解析HTML内容,以方便开发者获取和操作文档结构、表单、链接、图片等信息。 ### HttpClient工具包 HttpClient是Apache提供的一个用于发送HTTP请求的客户端...

    jsoup实现网络爬虫

    1. **连接与解析**:JSoup使用`Jsoup.connect()`方法建立HTTP连接,并通过`get()`或`post()`方法发送请求。之后,调用`parse()`方法解析返回的HTML文档。 ```java Document doc = Jsoup.connect(...

    spring boot+java +jsoup+ 爬虫

    Java的HttpURLConnection或者Apache HttpClient库可用于发送HTTP请求,获取网页内容。在此项目中,Java是实现爬虫逻辑的主要工具。 Jsoup 是一个Java库,用于解析HTML并提取结构化数据。它提供了强大的CSS选择器和...

    Jsoup解析网址与浏览器查看内容不一致

    在使用Jsoup连接到网站并获取内容时,默认情况下,它不会发送任何特定的User-Agent信息。因此,服务器可能无法识别Jsoup的请求,将其误认为是某种移动设备的请求,导致返回了针对手机优化的页面。 解决这个问题的...

    jsoup网络爬虫

    首先,它通过`connect()`方法建立到目标URL的连接,然后使用`get()`或`post()`方法发送HTTP请求。例如: ```java Jsoup.connect("http://example.com").get(); ``` 获取到网页内容后,jsoup利用其强大的解析能力,...

    Jsoup+httpclient 模拟登陆和抓取

    - 执行方法发送请求并获取响应。 - 查看和处理响应中的Cookies信息。 4. 页面抓取过程: - 使用HttpClient获取登录后的页面。 - 可以通过Jsoup解析获取的HTML文档,并对元素进行选择、遍历和抽取。 - 修改HTML...

    JSOUP 网络爬虫

    1. **连接和下载页面**:使用`Jsoup.connect(url).get()`发送HTTP请求并获取HTML内容。 2. **解析HTML**:将下载的HTML内容传递给`Jsoup.parse()`,得到`Document`对象。 3. **查询和提取数据**:使用CSS选择器...

    Jsoup 网络爬虫(动态ip代理,突破ip访问次数限制) 爬取全国各省市区数据

    在这个项目中,我们可能会使用如HttpURLConnection或Apache HttpClient等HTTP客户端库来发送HTTP请求,同时结合Jsoup来解析返回的HTML内容。为了实现IP轮换,我们可以设计一个代理IP池,并在每次请求前从池中取出一...

    Jsoup

    8. 连接和下载:Jsoup还可以用来发送HTTP请求,获取网页内容,支持GET和POST方法,设置cookies和headers,处理重定向等。 9. 错误处理:当遇到无法解析的HTML时,Jsoup会尝试恢复而不是抛出异常,这使得处理非标准...

    jsoup分页爬取网页

    5. **遍历分页**:为了爬取多页内容,我们需要写一个循环,递增页码并重新发送请求。在每次迭代中,更新URL的页码参数,然后再次执行解析和提取过程。 6. **异步处理**:为了提高爬取效率,可以考虑使用异步或者...

    本工具可以帮你把原生http请求转换成Jsoup请求代码

    在爬虫编写过程中,开发者通常需要模拟浏览器的行为去发送HTTP请求获取网页内容,然后解析HTML以提取所需数据。使用这个工具,开发者可以快速将已知的HTTP请求转换为Jsoup的解析代码,从而专注于数据提取逻辑,而...

    Jsoup-1.72极网络爬虫需要包

    网络爬虫需要通过HttpClient来与服务器交互,获取网页内容。 这些依赖文件组合在一起,为开发高效、可靠的网络爬虫提供了完整的工具集。在使用Jsoup时,它们共同作用于网络请求、HTML解析、数据提取和错误处理等...

    动态爬虫jsoup+jdic实现

    1. **发送请求**:使用Jsoup的`connect()`方法向目标URL发送GET请求,获取初始HTML。 2. **解析HTML**:使用Jsoup的`parse()`方法解析接收到的HTML,构建DOM树。 3. **识别JavaScript**:检查HTML中的标签或Ajax请求...

    httpClient+jsoup 抓取网页数据

    - 发送请求:调用execute方法发送请求并获取HttpResponse对象。 - 处理响应:从HttpResponse中获取状态码、响应头和响应体,根据需要进行解析。 2. **Jsoup的介绍**: Jsoup是一个强大的Java库,设计用于解析...

    Jsoup操作解析Html文件

    例如,可以先发送一个GET请求获取HTML,然后用Jsoup解析其中的JavaScript动态加载的数据源,再发送额外的请求来获取这些资源。 此外,Jsoup的兼容性极佳,它能很好地处理各种不规范的HTML,尽可能地恢复其结构,这...

    jsoup解析网页

    爬虫开发中,需要考虑网络错误、服务器拒绝、动态加载内容等问题。jsoup提供了一些异常处理机制,如重试策略、超时设置等。同时,为了提高效率,可以并行处理多个URL,或者缓存已解析的页面,避免重复请求。 7. **...

    jsoup step to step 模拟登陆

    虽然在给出的内容片段中没有直接提供有关jsoup模拟登录的具体步骤,但可以推断该文档将涉及如何使用jsoup进行网络请求,尤其是HTTP POST请求来模拟用户登录过程。 标签“模拟登陆”说明了本文将重点讲解如何模拟...

    通过URL地址获取网页生成jpg图片

    本教程将详细介绍如何通过URL地址获取网页并生成jpg图片,同时解决32位和64位运行环境下的兼容性问题。我们将主要使用Java语言来实现这一功能,因为它具有丰富的库和跨平台的特性。 首先,我们需要一个能够处理网络...

    httpClient采集jsoup解析

    例如,如果你想要抓取一个新闻网站的最新文章标题,可以先使用HttpClient发送请求获取网页源码,再用Jsoup解析HTML,找到包含文章标题的元素: ```java CloseableHttpClient httpClient = HttpClients.create...

    jsoup+httpclient+jar包

    3. **执行请求**:使用HttpClient的execute方法发送请求,并获取HttpResponse。 4. **解析响应**:从HttpResponse中提取出HTTP状态码和响应体,如果成功,将响应体转换为字符串。 5. **使用JSoup解析HTML**:将...

Global site tag (gtag.js) - Google Analytics