`

htmlparser提取网页正文

    博客分类:
  • HTML
阅读更多
Java代码 复制代码
  1. mport org.htmlparser.Parser;    
  2. import org.htmlparser.beans.StringBean;    
  3. import org.htmlparser.filters.NodeClassFilter;    
  4. import org.htmlparser.parserapplications.StringExtractor;    
  5. import org.htmlparser.tags.BodyTag;    
  6. import org.htmlparser.util.NodeList;    
  7. import org.htmlparser.util.ParserException;    
  8.     
  9. public class GetContent {    
  10.        
  11.     public void getContentUsingStringBean(String url) {    
  12.         StringBean sb = new StringBean();    
  13.         sb.setLinks(true);              
  14.         sb.setCollapse(true);     
  15.         sb.setReplaceNonBreakingSpaces(true);// If true regular space    
  16.         sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");    
  17.         System.out.println("The Content is :\n" + sb.getStrings());    
  18.     
  19.     }    
  20.        
  21.     public void getContentUsingStringExtractor(String url, boolean link) {    
  22.         StringExtractor se = new StringExtractor(url);    
  23.         String text = null;    
  24.         try {    
  25.             text = se.extractStrings(link);    
  26.             System.out.println("The content is :\n" + text);    
  27.         } catch (ParserException e) {    
  28.             e.printStackTrace();    
  29.         }    
  30.     }    
  31.     
  32.     public void getContentUsingParser(String url) {    
  33.         NodeList nl;    
  34.         try {    
  35.             Parser p = new Parser(url);    
  36.             nl = p.parse(new NodeClassFilter(BodyTag.class));    
  37.             BodyTag bt = (BodyTag) nl.elementAt(0);    
  38.             System.out.println(bt.toPlainTextString());    
  39.             } catch (ParserException e) {    
  40.             e.printStackTrace();    
  41.         }    
  42.     }    
  43.        
  44.     public static void main(String[] args) {   
  45.         GetContent g = new GetContent();   
  46. //      g.getContentUsingStringBean("");   
  47. //      g.getContentUsingParser("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");   
  48.         g.getContentUsingStringExtractor("http://www.sina.com.cn/"false);   
  49.     }  
分享到:
评论

相关推荐

    HTMLParser提取网页内容

    在Web抓取或数据挖掘领域,HTMLParser是一个常用的工具,可以帮助我们从HTML源码中抽取有价值的文本信息,如网页正文、标题等。 在提供的代码片段中,`cleanHtml` 方法展示了如何使用正则表达式来清理HTML,移除...

    HTMLParser提取网页超链接研究

    ### HTMLParser提取网页超链接研究 #### 一、引言 随着互联网技术的快速发展和普及,全球信息资源呈爆炸式增长。在这个过程中,各种互联网搜索引擎(例如百度、谷歌等)应运而生,它们极大地便利了人们获取所需...

    HtmlParser提取网页信息的设计与实现

    ### HtmlParser提取网页信息的设计与实现 #### 一、引言 随着互联网的快速发展和信息量的爆炸式增长,从海量网页数据中提取有价值的信息变得日益重要。这不仅有助于提高信息检索的效率,还能为自动化的数据分析...

    基于HttpClient与HTMLParser 的网页正文提取

    本文主要介绍了如何利用HttpClient与HTMLParser这两种技术来实现网页正文的提取。文章首先阐述了互联网信息飞速增长的背景下,网页数据提取的重要性,以及自动化的网页抓取与分析对于科研、工程和商业活动的意义。...

    HTMLParser抽取Web网页正文信息.doc

    ### HTMLParser抽取Web网页正文信息的关键知识点 #### 一、HTMLParser简介与应用 HTMLParser是一种用于解析HTML文档的工具,特别适用于从Web网页中提取有用的信息。它能够有效地识别和解析HTML标签,帮助开发者从...

    java使用htmlparser提取网页纯文本例子

    【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中,提取网页纯文本是一项常见的任务,尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库,专门用于解析HTML文档,提取其中的文本内容。下面我们将...

    C#正则+HTMLParser进行网页信息提取的实例。

    在IT领域,尤其是在Web开发中,提取网页信息是一项常见的任务。C#作为.NET框架下的主要编程语言,提供了强大的工具和库来实现这一功能。在这个实例中,我们将探讨如何结合C#中的正则表达式(Regular Expressions)和...

    htmlparser抓取网页内容

    标签"网页抓取"提示我们,这个项目不仅涉及HTMLParser,还可能涵盖了网络请求、网页解析、数据提取等多方面的知识。在实际操作中,开发者通常会编写爬虫程序,实现批量抓取和存储数据,可能还会涉及到异常处理、请求...

    java利用htmlparser抓取网页数据

    本篇将重点讲解如何利用HTMLParser库在Java中抓取网页数据。 HTMLParser是Java的一个开源库,专门用于解析HTML文档,提取其中的数据。它的设计目标是简化HTML解析过程,即使面对不规范的HTML代码也能有效地处理。...

    HTMLParser抽取Web网页正文信息

    HTMLParser 是一个强大的工具,用于解析和...通过上述方法,HTMLParser可以帮助我们有效地从网页中抽取出主要内容,提高信息检索的精确性和效率。这种方法在网页爬虫、内容分析和信息提取等领域具有广泛的应用价值。

    基于htmlparser的网页爬虫和java调用excel代码

    它可以识别HTML标签、属性、文本等元素,使得开发者能够方便地提取网页中的结构化信息。 2. **网页爬虫的基本原理**:网页爬虫通过发送HTTP请求到目标网站,获取HTML响应,然后解析这些HTML内容来提取所需信息。在...

    htmlparser实现网页上抓取数据

    HTMLParser是Python中用于解析HTML文档的一个库,它允许开发者高效地从网页中提取所需的数据。在Web开发和数据挖掘领域,爬虫技术是获取大量网络数据的重要手段,而HTMLParser则是实现这一目标的关键工具之一。本文...

    提取网页内容的源码(htmlparser)

    这个名为"提取网页内容的源码(htmlparser)"的项目,显然使用了HTMLParser库来实现这一功能。HTMLParser是Python中一个用于解析HTML和XML文档的库,它允许我们以编程的方式处理网页的源代码,从中获取我们需要的...

    htmlparser进行网页信息的抽取

    在网页抓取和信息采集领域,HTMLParser 提供了高效的处理机制,能够帮助开发者有效地解析复杂的HTML结构,提取所需的数据。以下是对HTMLParser及其在网页信息抽取中应用的详细说明: 1. **HTMLParser基本概念**: ...

    htmlparser网页分析

    比如,你可以使用它来提取网页上的特定数据,如价格、评论、链接等;也可以用于验证网页的结构是否符合预期,或者在不影响页面展示的情况下替换或添加HTML元素。 6. 扩展性:HTMLParser提供了丰富的API,允许开发者...

Global site tag (gtag.js) - Google Analytics