`

Java:用HtmlParser抓取新浪博客文章内容

    博客分类:
  • html
阅读更多

htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件. 下载地址为:    http://htmlparser.sourceforge.net

 

新浪博客文章html页面:

 

 

 // 新浪博客韩寒的一篇文章内容部分的tag, 文章地址:http://blog.sina.com.cn/s/blog_4701280b0100jbqq.html 

			<div class="articalContent" id="sina_keyword_ad_area2"><p STYLE="TexT-inDenT: 2em">
谢谢我的对手,你们让我学到很多,让我知道长路漫漫。关于类似的一切,我的看法从未改变。两年前我就已经说过一遍,雷同观点如今不想再多说了,说来说去都是一样,说多了就累了,在累之前我认输,否则就灰心了。你们胜利了,请随意。如果你是我的读者,我希望你们不要以任何名义去驱逐任何一种文化,更不要想教训和消灭它的受众群体,无论是文化还是政治都不能排他,也不能代替别人做出选择,哪怕它很傻,哪怕它不合你的口味,只要它不反人类。我曾经无意识的带领你们去往各个博客铲除异己,如今我欣喜的看到我们共同的进步,四年前的我一定带不走今天的你。热血一定要洒在它该洒的地方,否则它就叫鸡血。在此我也正式向现代诗歌以及现代诗人道歉,三年前我的观点是错的,对你们造成的伤害带来的误会,我很愧疚,碍于面子,一直没说,希望你们的原谅与理解。愿文化之间,年代之间,国家之间都能消除成见,为了……你知道的。</P>
<p STYLE="TexT-inDenT: 2em">我看好阿根廷。</P></div>
		

 

 观察html文档可知, 只要抽取出名为div 且属性class为articlecontent的tag(标签)就可以找到文章正文. 下面看代码:

  public static String getContent(String urlString)
    throws Exception
  {
    URL url = new URL(urlString);

    URLConnection conn = url.openConnection();
    conn.setDoInput(true);
    conn.setDoOutput(true);
    conn.setRequestProperty("User-Agent", 
      "Mozilla/4.0 (compatible; MSIE 7.0;)");
    conn
      .setRequestProperty(
      "Accept", 
      "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/msword, application/vnd.ms-excel, application/vnd.ms-powerpoint, */*");

    BufferedReader reader = new BufferedReader(
      new InputStreamReader(conn.getInputStream(), "utf-8"));
    String line = "";
    StringBuilder sb = new StringBuilder();
    while ((line = reader.readLine()) != null) {
      sb.append(line + "\r\n");
    }

    return sb.toString();
  }

   private String processText(String content)
  {
    content = content.trim().replaceAll("&nbsp;", " ");

    return content;
  }

   public String getSinaArticleContent(String url)
    throws Exception
  {
    String content = getContent(url);

    StringBuilder sb = new StringBuilder();

    Parser parser = Parser.createParser(content, "utf-8");
    AndFilter filter = new AndFilter(new TagNameFilter("div"), 
      new HasAttributeFilter("class", "articalContent"));

    Node node = null;
    NodeList nodeList = parser.extractAllNodesThatMatch(filter);
    for (int i = 0; i < nodeList.size(); ++i) {
      node = nodeList.elementAt(i);
      sb.append(node.toPlainTextString());
    }

    return processText(sb.toString());
  }

  public static void main(String[] args)
    throws Exception
  {
    ParserTester pt = new ParserTester();

    System.out.println(pt.getSinaArticleContent("http://blog.sina.com.cn/s/blog_4701280b0100jbqq.html"));
  }

 

效果:



 

  • 大小: 17.6 KB
5
0
分享到:
评论
2 楼 c.zhiwu 2012-02-20  
你好,我使用了这些包


httpclient-4.0.1.jar
httpcore-4.0.1.jar
nekohtml.jar
commons-codec-1.4-bin.zip


chen106106 写道
楼主你好,我最近也在研究这个网络爬取一个网站的文章,我刚才测试你的代码,发现我用的jsoup是1.6.1 ,怎么一些类找不到?请问你用的是哪个版本的jsoup包?
1 楼 chen106106 2012-02-20  
楼主你好,我最近也在研究这个网络爬取一个网站的文章,我刚才测试你的代码,发现我用的jsoup是1.6.1 ,怎么一些类找不到?请问你用的是哪个版本的jsoup包?

相关推荐

    java利用htmlparser抓取网页数据

    本篇将重点讲解如何利用HTMLParser库在Java中抓取网页数据。 HTMLParser是Java的一个开源库,专门用于解析HTML文档,提取其中的数据。它的设计目标是简化HTML解析过程,即使面对不规范的HTML代码也能有效地处理。...

    htmlparser抓取网页内容

    本项目以"htmlparser抓取网页内容"为主题,具体实践了如何利用HTMLParser库来从国家专利局的网站上抓取专利状态信息。 首先,我们要理解HTMLParser的工作原理。HTMLParser是Python的内置库,它提供了一个基础的事件...

    Htmlparser 网页内容抓取java

    在网页内容抓取领域,HTMLParser扮演着至关重要的角色,它可以帮助开发者高效、准确地解析复杂的网页结构,从而获取所需的信息。以下是对HTMLParser及其应用的详细介绍。 首先,HTMLParser提供了对HTML文档的解析...

    htmlparser抓取论坛帖子内容的代码

    本篇将详细讲解如何使用HTMLParser来抓取论坛帖子的内容。 首先,我们需要了解HTMLParser的基本使用。HTMLParser遵循事件驱动的模式,它会解析HTML文档并触发一系列的事件,如开始标签、结束标签、文本内容等。...

    Java使用HtmlParser实现简单的网络爬虫

    在Java编程中,实现一个...通过理解以上知识点,你就能构建一个基本的Java网络爬虫,使用HtmlParser库抓取和解析HTML文档中的数据。随着需求的复杂性增加,你可以学习更多的高级技巧,如并发抓取、数据清洗和存储等。

    JAVA htmlparser 使用实例

    ### JAVA HtmlParser 使用实例详解 在Java开发过程中,解析HTML文档是一项常见的需求,尤其是在处理Web爬虫、数据抓取等应用场景时。`HtmlParser`库为开发者提供了一种简便的方式来解析HTML文档,并从中提取所需的...

    htmlparser(c#,java)

    本文将深入探讨HTMLParser的核心功能、使用场景、以及如何在C#和Java中集成和使用。 1. HTMLParser的核心功能: HTMLParser的主要目标是解析不规则的HTML代码,它能够识别并提取出标签、属性、文本内容等关键元素...

    java 新浪网易搜狐新闻抓取源码

    总结,"java 新浪网易搜狐新闻抓取源码"项目展示了如何使用Java和HTMLParser库来实现新闻数据的抓取和处理。通过学习和实践这样的项目,开发者不仅可以掌握网页抓取的基本技能,还能深入理解HTTP协议、HTML解析以及...

    htmlparser网页分析

    5. 应用场景:HTMLParser适用于数据抓取、网页自动化测试、内容过滤等多种场景。比如,你可以使用它来提取网页上的特定数据,如价格、评论、链接等;也可以用于验证网页的结构是否符合预期,或者在不影响页面展示的...

    Java使用HtmlParser实现简单的网络爬虫.zip

    Java使用HtmlParser实现简单的网络爬虫是一种常见的技术实践,它涉及到网络编程、HTML解析和数据提取等核心概念。本文将详细讲解如何运用Java语言结合HtmlParser库来构建一个基础的网络爬虫,以便从网页中获取所需...

    htmlparser实现从网页上抓取数据

    本文将详细介绍如何使用HTMLParser从网页上抓取数据,并通过一个具体的Java代码示例来演示其实现过程。 #### HTMLParser简介 HTMLParser是一个纯Java编写的HTML解析库,其最大的特点在于不需要依赖其他Java库即可...

    javajsp中使用HTMLParser

    在Java和JSP开发中,有时我们需要处理HTML文档,例如抓取网页数据、解析DOM结构或者提取特定信息。这时,HTMLParser就成为一个非常实用的工具。HTMLParser是一个开源的Java库,专门设计用来解析HTML文档,它允许...

    htmlparser1.6最新版

    - **数据抓取**:开发者可以使用HTMLParser抓取网站上的结构化信息,如新闻标题、产品价格等。 - **搜索引擎优化(SEO)**:分析网页内容,提取关键词,以优化网站的搜索引擎排名。 - **内容过滤**:过滤掉网页中的...

    java解析html工具htmlparser的jar包及api文档

    API文档是使用HTMLParser的关键,它详尽地解释了库中每个类、方法和接口的用途。通过API文档,开发者可以了解如何初始化解析器,如何遍历HTML元素,以及如何处理各种HTML标签。例如,HTMLParser库可能会提供如`...

    HTMLParser 使用举例

    最后,我们使用 InputStreamReader 对象来读取网页的内容,并使用 HTMLParser 来解析网页。 HTMLParser 是一个功能强大且灵活的类库,用于解析和处理网页内容。它提供了多种使用方式和机制,适合不同的应用场景。

    java htmlparser 类JAR包下载

    比如,你可以用它来抓取网页上的特定信息,如商品价格、评论内容等,也可以用于验证网页是否按照预期结构生成。 总的来说,Java HTMLParser是一个强大的工具,它提供了一种灵活且健壮的方式来处理HTML文档,即使...

    htmlparser实现网页上抓取数据

    本文将深入探讨HTMLParser的工作原理、如何使用以及其在爬虫中的应用。 首先,理解HTMLParser的基本工作方式至关重要。HTMLParser是一个事件驱动的解析器,它读取HTML文档并触发预定义的事件,如遇到开始标签、结束...

    htmlparser实现从网页上抓取数据.doc

    本文将详细讲解如何使用Java的htmlparser库实现网页抓取,并探讨其核心概念和用法。 首先,从给定的代码示例中可以看出,这是一个简单的Java程序,用于从指定的URL抓取HTML内容并将其保存到本地文件。这个程序的...

    Java正则表达式入门 + HTMLParser使用详解

    自从Java 1.4引入`java.util.regex`包以来,Java程序员就可以方便地使用正则表达式来处理字符串操作。下面将详细介绍Java正则表达式的常用语法和特性。 1. **转义字符**: - `\a`: 响铃符 (ASCII 07) - `\f`: ...

    htmlparser2.1.jar

    HTMLParser2.1.jar 是一个基于Java的网页解析库,主要功能是帮助开发者抓取、解析和处理HTML网页内容。这个库特别适用于构建网络爬虫项目,它提供了丰富的API和功能,使得处理复杂的HTML结构变得相对简单。在Java...

Global site tag (gtag.js) - Google Analytics