`
endual
  • 浏览: 3579357 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

java 解析页面的Jsoup

    博客分类:
  • java
 
阅读更多

python 有beautifulSoup,java有Jsoup,当前前者的功能更强点,与java的NekoHtml有相同的功能,能够补全和排序

HTML原生的页面。

 

下面是Jsoup的代码很简单,解析HTML的页面,当然还有一个很著名的HTMLprarse是同样的。貌似里面的方法名都类似。

 

package endual;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class MainApp {

	/**
	 * @param args
	 * @throws Exception 
	 */
	public static void main(String[] args) throws Exception {


		Document doc = Jsoup.connect("http://www.baidu.com").get() ; //连接
		String title = doc.title() ;
		System.out.println(title);
		
	    String msg = doc.html() ;//获取原生页面
	    
	    Elements el =  doc.getElementsByTag("head") ;
	
	    int el_size = el.size() ;
	    System.out.println(el_size); 
	    
		//System.out.println(msg);
		
	}

}
 
分享到:
评论

相关推荐

    java html解析 工具jsoup和一个简单例子

    Jsoup能够连接到网页,下载HTML内容,然后进行解析,允许开发者以结构化的方式访问和修改页面元素。 首先,让我们了解一下Jsoup的核心概念。Jsoup的主要类是`org.jsoup.Jsoup`,它提供了连接到网站并获取HTML内容的...

    java网页抓取Jsoup包全

    在实际应用中,Java开发者可以利用Jsoup进行各种网页抓取任务,例如爬虫项目、数据挖掘、信息监控等。由于其易用性和强大的功能,Jsoup已经成为Java开发者处理HTML数据的首选工具之一。结合完整的包集(javadoc和...

    Java爬虫Jsoup+httpclient获取动态生成的数据

    本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据,特别是那些通过JavaScript动态加载的数据。 ### Java爬虫基础 Java爬虫是指使用Java语言编写的一类程序,这些程序...

    Jsoup库文件;Jsoup解析Java包

    此外,Jsoup还提供了链接处理能力,可以解析页面上的链接,包括相对链接和绝对链接,这对于网页爬虫和数据抓取来说非常有用。 XML解析方面,虽然Jsoup主要设计用于HTML处理,但它也具备解析XML文档的能力。XML与...

    java源码:HTML解析器 jsoup.rar

    本压缩包包含的就是jsoup的源代码,对于学习Java Web开发,特别是网页抓取和数据提取的开发者来说,这是一个宝贵的资源。 jsoup库的核心功能包括: 1. 解析HTML:jsoup能够从URL、文件或字符串中加载HTML,并将其...

    基于Java的HTML解析器 jsoup.zip

    - **Web自动化**:在Selenium等自动化测试框架中,`jsoup`可以辅助解析和验证页面内容。 - **数据抓取**:从社交媒体、电商网站抓取信息,进行数据分析。 - **移动应用**:移动应用在离线模式下加载和解析HTML...

    使用Jsoup解析html网页

    Jsoup是一款Java库,它为了解析、提取以及操作HTML提供了强大的工具。在Web开发中,我们常常需要处理各种HTML文档,比如抓取网页数据、自动化测试或是构建爬虫。Jsoup以浏览器的方式解析HTML,使得我们可以方便地...

    Java开源的xpath解析器Jsoupxpath.zip

    JsoupXpath 是一款纯Java开发的使用xpath解析html的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath.为了在java里也享受xpath的强大与方便但又苦于找不到一款足够强大的xpath...

    基于java的HTML解析器 jsoup.zip

    Java语言在处理HTML解析方面有许多库,其中jsoup是一个非常受欢迎的选择。jsoup是一个用于处理实际世界HTML的Java库,它提供了非常...在实际的开发工作中,无论是数据抓取还是网页解析,jsoup都是一款不可多得的工具。

    java爬虫jsoup包

    总的来说,Jsoup是Java开发者进行网页解析和数据提取的利器,其简洁的API和强大的功能使其在爬虫开发中受到广泛欢迎。通过熟练掌握Jsoup,你可以构建出高效、稳定的Web爬虫,实现对HTML内容的深度挖掘和分析。

    JAVA jSOUP解析html

    总结,jSoup是Java中解析和操作HTML的强大工具,其易于使用的API简化了网页数据的提取过程。结合`UrlUtils.java`这样的辅助工具类,可以构建高效稳定的网页爬虫系统,进行定制化的数据采集任务。

    基于Java的实例开发源码-HTML解析器 jsoup.zip

    HTML解析器是软件开发中的一个重要工具,特别是在处理网页数据时。在这个基于Java的实例中,我们探讨的是一个名为jsoup的库,它是一个强大的...通过学习和使用jsoup,开发者可以高效地构建处理网页数据的Java应用程序。

    基于Java的源码-HTML解析器 jsoup.zip

    **HTML解析器jsoup简介** ...总结来说,jsoup是Java开发中处理HTML的强大工具,它的易用性和灵活性使其在网页抓取、内容解析、数据提取等场景中广泛应用。通过学习和掌握jsoup,开发者可以更高效地与HTML文档进行交互。

    jsoup Java HTML解析器

    - **爬虫开发**:jsoup是构建Java爬虫的基础工具,用于解析和导航网页结构。 ### 结论 jsoup作为一个强大的HTML解析库,对于Java开发者来说是处理HTML数据不可或缺的工具。其易用性、灵活性和丰富的功能使得它在...

    使用java-jsoup解析html页面内容,爬取想要的信息(如号段)

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 可以从包括字符串、URL 地址...

    spring boot+java +jsoup+ 爬虫

    在图片爬取过程中,首先,我们需要设置一个起始URL,然后使用Jsoup解析该页面的HTML内容。通过选择器如`img[src]`,可以找到所有的图片链接。接下来,可以使用Java的HttpURLConnection或HttpClient库,向每个图片URL...

    java+idea+jsoup 爬虫

    Java + IntelliJ IDEA + Jsoup 爬虫是一个高效且便捷的网页抓取解决方案。Jsoup 是一个用于处理实际世界HTML的Java库,它提供了非常方便的API,用于提取和操作数据,使用DOM、CSS以及类似于jQuery的方法。在这个项目...

    java+jsoup抓取网页数据

    以下是关于如何使用Java+Jsoup抓取网页数据的详细讲解。 首先,你需要了解HTML的基础结构,因为Jsoup的工作原理是解析HTML文档并提供类似于DOM的API来操作这些文档。HTML是由标签组成的树形结构,每个标签都有属性...

    java爬虫需要的jsoup包和httpclient包.rar

    通常,HttpClient负责发起HTTP请求,获取网页源码,然后Jsoup解析这个源码,提取出所需的数据。这样的组合提供了灵活性和效率,使Java成为编写网络爬虫的有力工具。 总之,这两个库在Java爬虫开发中扮演着不可或缺...

    HTML解析器 jsoup资料

    HTML解析器jsoup是Java库,专为处理真实世界的HTML而设计。它提供了一种方便、安全的方式来抓取和操作Web页面数据。jsoup模仿了浏览器的行为,能够解析HTML文档,提取结构化数据,并可以执行DOM操作。在这个资料包中...

Global site tag (gtag.js) - Google Analytics