`
gcgmh
  • 浏览: 354279 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

htmlparser提取正文

阅读更多
htmlparser提取正文,提取新浪等门户首页是不太干净

mport org.htmlparser.Parser; 
import org.htmlparser.beans.StringBean; 
import org.htmlparser.filters.NodeClassFilter; 
import org.htmlparser.parserapplications.StringExtractor; 
import org.htmlparser.tags.BodyTag; 
import org.htmlparser.util.NodeList; 
import org.htmlparser.util.ParserException; 
 
public class GetContent { 
    
	public void getContentUsingStringBean(String url) { 
        StringBean sb = new StringBean(); 
        sb.setLinks(true);           
        sb.setCollapse(true);  
        sb.setReplaceNonBreakingSpaces(true);// If true regular space 
        sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html"); 
        System.out.println("The Content is :\n" + sb.getStrings()); 
 
    } 
    
    public void getContentUsingStringExtractor(String url, boolean link) { 
        StringExtractor se = new StringExtractor(url); 
        String text = null; 
        try { 
            text = se.extractStrings(link); 
            System.out.println("The content is :\n" + text); 
        } catch (ParserException e) { 
            e.printStackTrace(); 
        } 
    } 
 
    public void getContentUsingParser(String url) { 
        NodeList nl; 
        try { 
            Parser p = new Parser(url); 
            nl = p.parse(new NodeClassFilter(BodyTag.class)); 
            BodyTag bt = (BodyTag) nl.elementAt(0); 
            System.out.println(bt.toPlainTextString()); 
            } catch (ParserException e) { 
            e.printStackTrace(); 
        } 
    } 
    
    public static void main(String[] args) {
    	GetContent g = new GetContent();
//    	g.getContentUsingStringBean("");
//    	g.getContentUsingParser("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");
    	g.getContentUsingStringExtractor("http://www.sina.com.cn/", false);
	}
分享到:
评论

相关推荐

    HtmlParser提取网页信息的设计与实现

    ### HtmlParser提取网页信息的设计与实现 #### 一、引言 随着互联网的快速发展和信息量的爆炸式增长,从海量网页数据中提取有价值的信息变得日益重要。这不仅有助于提高信息检索的效率,还能为自动化的数据分析...

    使用HtmlParser 提取百度贴吧中的图片

    使用HtmlParser 提取百度贴吧中的图片

    HTMLParser提取网页超链接研究

    ### HTMLParser提取网页超链接研究 #### 一、引言 随着互联网技术的快速发展和普及,全球信息资源呈爆炸式增长。在这个过程中,各种互联网搜索引擎(例如百度、谷歌等)应运而生,它们极大地便利了人们获取所需...

    HTMLParser提取网页内容

    4. **提取正文和标题**: 虽然上述代码主要关注的是清理HTML,但要提取网页的正文和标题,还需要进一步的处理。通常,正文可能包含在`<p>`(段落)、`<div>`(分块元素)或其他内容容器中。而标题通常位于`<h1>`到`...

    基于HttpClient与HTMLParser 的网页正文提取

    本文主要介绍了如何利用HttpClient与HTMLParser这两种技术来实现网页正文的提取。文章首先阐述了互联网信息飞速增长的背景下,网页数据提取的重要性,以及自动化的网页抓取与分析对于科研、工程和商业活动的意义。...

    用htmlparser分析并抽取正文

    正文抽取的主要目标是从HTML文档中提取出主要的文字内容,去除广告、脚本、样式和其他非正文元素。在尝试使用HTMLParser进行正文抽取时,作者提到了几种常见的方法及其局限性: 1. **配置模板**:由于网页结构各异...

    HTMLParser抽取Web网页正文信息.doc

    ### HTMLParser抽取Web网页正文信息的关键知识点 ...通过上述步骤,HTMLParser不仅能够高效地从网页中提取正文信息,还能通过一系列智能算法确保提取的内容与主题高度相关,极大地提高了信息处理的效率和质量。

    HtmlParser

    使用HTMLParser,我们可以解析网页内容,提取所需信息,如文章标题、链接、图片等。以下是一些核心概念和步骤: 1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_...

    htmlparser.jar文件

    HTMLParser.jar 文件是一个Java库...总的来说,HTMLParser.jar是一个强大的Java HTML解析库,适用于需要处理HTML数据的场景,如爬虫、信息提取或者自动化测试。正确地导入和使用这个库,可以大大简化对HTML文档的操作。

    c#版htmlparser htmlparser.dll htmlparser源代码

    标签`c# htmlparser`表明这个库是为C#语言设计的,这意味着它可以无缝集成到任何.NET Framework或.NET Core项目中,利用C#的特性如 LINQ 来简化数据提取。 标签`dll`提醒我们这个库是以DLL形式提供的,这意味着它是...

    java使用htmlparser提取网页纯文本例子

    【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中,提取网页纯文本是一项常见的任务,尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库,专门用于解析HTML文档,提取其中的文本内容。下面我们将...

    htmlparser库与教程

    这个库在处理网页数据抓取、信息提取以及网页自动化等方面非常有用,尤其对于那些需要从网页中提取结构化信息的项目。 在“htmlparser.jar”中,包含了HTMLParser库的所有类和方法,使得开发人员可以将这个库集成到...

    htmlparser

     提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。  毫不夸张地说,htmlparser就是目前最好的html解析和分析的工具。  无论你是想抓取网页数据还是改造html的内容,用了htmlparser...

    HTMLParser.net源代码HTMLParser.net使用demo

    这个库使得开发者能够方便地从HTML中提取数据,处理DOM(文档对象模型),以及与网页内容进行交互。本项目名为"HTMLParser.net源代码HTMLParser.net使用demo",显然是一个包含示例代码的压缩包,用于展示如何在实际...

    Winista.Htmlparser.Net 源码 +Demo

    2. **WebParser**:可能是一个简单的网页抓取器,利用HtmlParser解析网页,提取所需信息,例如新闻标题、链接等。 开发者可以打开`AnalyzeHtml.sln`,编译并运行这两个项目,以了解HtmlParser的具体使用方法和实际...

    htmlparser网页分析

    4. 使用示例:在"HTMLParser使用详解-Node内容.doc"中,可能详细介绍了如何创建和配置解析器对象,设置解析事件处理器,以及如何通过遍历节点来提取或修改HTML内容。例如,可以使用`TagStart`事件捕获元素开始,`...

Global site tag (gtag.js) - Google Analytics