`
digyso
  • 浏览: 142202 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

html截取摘要并补齐标签(htmlparser)一

阅读更多
从html里面截取摘要关键在于在截取的时候不能截断它里面的标签,所以就要想法让它在截取的时候能截全标签:方法是写一个算法让它在截取所指定长度时只计算标签

外面文本的数量而标签里面的长度不计算在内,这样才能以指定的长度截取到不会断节的标签:

  下面就是这个小算法(见笑了):

Java代码 复制代码
  1. publicstaticStringreadWithTag(Filefilename,intlength)throwsIOException{
  2. Stringcontent=readFileByLines(filename);
  3. intpos=0,len=0,count=0;
  4. Strings="";
  5. StringBuffersb=newStringBuffer();
  6. while(true)
  7. {
  8. if(count>=length)
  9. break;
  10. s=content.substring(pos,pos+1);
  11. if(s.equals("<"))
  12. {
  13. len=content.indexOf(">",pos)-pos;
  14. for(inti=0;i<len;i++)
  15. {
  16. s=content.substring(pos+i,pos+i+1);
  17. sb.append(s);
  18. }
  19. pos+=len;
  20. }
  21. else
  22. {
  23. if(count<length)
  24. {
  25. if(s.equals(">"))
  26. {
  27. sb.append(s);
  28. pos++;
  29. }
  30. sb.append(s);
  31. count++;
  32. pos++;
  33. }
  34. }
  35. }
  36. returnsb.toString();
  37. }
详情请见下一篇:html截取摘要并补齐标签二
分享到:
评论

相关推荐

    用htmlparser截取html摘要实现源码

    要使用HTMLParser截取摘要,我们首先需要导入相关的库。HTMLParser库提供了DOM(文档对象模型)和SAX(简单API for XML)两种解析模式,这里我们将主要介绍基于DOM的解析方法,因为它更容易理解和操作。 1. **安装...

    扩展HTMLParser对自定义标签的处理能力

    资源名称:扩展HTMLParser对自定义标签的处理能力内容简介: HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 现在该项目的最新版本是Integration Build ...

    java解析html工具htmlparser的jar包及api文档

    例如,以下是一个简单的使用示例,展示如何使用HTMLParser解析一个HTML字符串并打印出所有的`&lt;a&gt;`标签: ```java import org.htmlparser.Parser; import org.htmlparser.util.NodeIterator; import org.htmlparser....

    HtmlParser

    1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_starttag`、`handle_endtag`和`handle_data`,以便在遇到HTML标签开始、结束或数据时执行特定操作。 2. **启动爬虫*...

    c#版htmlparser htmlparser.dll htmlparser源代码

    HTMLParser是一款用于解析HTML文档的库,主要针对C#编程语言设计。在.NET环境中,开发者经常需要处理HTML数据,例如从网页抓取信息或者进行网页自动化。HTMLParser库提供了便捷的方式来解析复杂的HTML结构,提取所需...

    htmlparser(HTML页面解析)例子

    HTMLParser是Python中用于解析HTML文档的一个库,它允许开发者以事件驱动的方式处理HTML文档的结构。这个库特别适用于从不规范的HTML源码中提取数据,因为网页内容的格式可能会因各种原因而不尽完美。在本例中,我们...

    Html解析助手htmlparser.jar

    2. **创建解析器**:通过实例化解析器类,如`HtmlParser`,并设置相应的解析模式和配置。 3. **解析HTML**:调用解析器的`parse`方法,传入HTML源码或输入流,开始解析过程。 4. **处理解析事件**:注册事件处理器,...

    htmlparser.jar文件

    HTMLParser提供了多种方法来访问和操作解析树,比如`parseContent()`用于获取整个文档的节点列表,`visitAllNodesWith()`可以遍历所有节点并应用自定义的访问器,`getFirstNodeWithTag()`用于找到第一个特定标签的...

    htmlparser

    htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或  提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。  毫不夸张地说,htmlparser就是目前最好...

    htmlparser库与教程

    HTMLParser库是一个强大的Java库,专门用于解析HTML文档。它为开发者提供了一种方便的方式来处理HTML,即使HTML的格式不规范或包含错误。这个库在处理网页数据抓取、信息提取以及网页自动化等方面非常有用,尤其对于...

    htmlParser2.0.jar

    1. **HTML标签解析**:HTMLParser2.0能识别并处理HTML文档中的各种标签,如`&lt;div&gt;`, `&lt;p&gt;`, `&lt;a&gt;`等,帮助开发者提取所需信息。 2. **自定义标签处理**:一个独特的特性是它支持处理自定义的HTML标签,这对于解析...

    htmlParser.jar包

    HTMLParser.jar包是一款专门用于解析HTML网页的框架,它的特点是运行速度快且体积小巧,因此在处理HTML解析任务时,能够高效地完成工作。这个框架主要适用于那些需要从HTML文档中提取数据、分析网页结构或者进行自动...

    htmlparser1.6最新版

    HTMLParser是一个Java库,专为处理HTML文档而设计,它在网页信息提取和解析领域扮演着重要角色。本文将深入探讨HTMLParser 1.6版本的功能、用途、使用方法以及其在IT领域的应用。 HTMLParser的核心功能是解析HTML...

    HtmlParser源码及demo

    HTMLParser是一个Java库,用于解析HTML文档,提取结构化数据并处理HTML标记。这个库特别适合在不完全符合标准的HTML文档中导航和操作元素,因为网页在实际环境中经常会出现这种情况。以下是对`HtmlParser`及其相关...

    跨平台的Html解析代码_武稀松_HtmlParser.rar

    【标题】"跨平台的Html解析代码_武稀松_HtmlParser.rar" 涉及的是一个关于跨平台HTML解析的编程项目,由开发者武稀松创建。这个项目的核心是HtmlParser,它可能是一个用Delphi编写的库或框架,旨在帮助程序员在不同...

    htmlparser网页分析

    HTMLParser是一款用Java编写的库,专门用于解析HTML文档。在网页分析中,HTMLParser扮演着核心角色,它能够帮助开发者有效地处理HTML源代码,提取所需的信息,甚至进行DOM(Document Object Model)操作。以下是对...

    HTMLParser 2.0

    HTMLParser库的设计基于事件驱动的模式,它会为遇到的每一个HTML标签、属性、文本等内容触发特定的事件。通过继承自HTMLParser类并重写其方法,用户可以定制化解析过程,对HTML元素进行处理。例如,当遇到开始标签时...

    HTMLParser.net源代码HTMLParser.net使用demo

    HTMLParser.net是一个强大的.NET框架库,专为解析HTML文档而设计。这个库使得开发者能够方便地从HTML中提取数据,处理DOM(文档对象模型),以及与网页内容进行交互。本项目名为"HTMLParser.net源代码HTMLParser.net...

Global site tag (gtag.js) - Google Analytics