从html里面截取摘要关键在于在截取的时候不能截断它里面的标签,所以就要想法让它在截取的时候能截全标签:方法是写一个算法让它在截取所指定长度时只计算标签
外面文本的数量而标签里面的长度不计算在内,这样才能以指定的长度截取到不会断节的标签:
下面就是这个小算法(见笑了):
- publicstaticStringreadWithTag(Filefilename,intlength)throwsIOException{
- Stringcontent=readFileByLines(filename);
-
intpos=0,len=0,count=0;
-
Strings="";
-
StringBuffersb=newStringBuffer();
-
while(true)
- {
-
if(count>=length)
-
break;
-
s=content.substring(pos,pos+1);
-
if(s.equals("<"))
- {
-
len=content.indexOf(">",pos)-pos;
-
for(inti=0;i<len;i++)
- {
-
s=content.substring(pos+i,pos+i+1);
- sb.append(s);
- }
- pos+=len;
- }
-
else
- {
-
if(count<length)
- {
-
if(s.equals(">"))
- {
- sb.append(s);
- pos++;
- }
- sb.append(s);
- count++;
- pos++;
- }
- }
- }
-
-
returnsb.toString();
- }
详情请见下一篇:html截取摘要并补齐标签二
分享到:
相关推荐
要使用HTMLParser截取摘要,我们首先需要导入相关的库。HTMLParser库提供了DOM(文档对象模型)和SAX(简单API for XML)两种解析模式,这里我们将主要介绍基于DOM的解析方法,因为它更容易理解和操作。 1. **安装...
资源名称:扩展HTMLParser对自定义标签的处理能力内容简介: HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 现在该项目的最新版本是Integration Build ...
例如,以下是一个简单的使用示例,展示如何使用HTMLParser解析一个HTML字符串并打印出所有的`<a>`标签: ```java import org.htmlparser.Parser; import org.htmlparser.util.NodeIterator; import org.htmlparser....
1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_starttag`、`handle_endtag`和`handle_data`,以便在遇到HTML标签开始、结束或数据时执行特定操作。 2. **启动爬虫*...
HTMLParser是一款用于解析HTML文档的库,主要针对C#编程语言设计。在.NET环境中,开发者经常需要处理HTML数据,例如从网页抓取信息或者进行网页自动化。HTMLParser库提供了便捷的方式来解析复杂的HTML结构,提取所需...
HTMLParser是Python中用于解析HTML文档的一个库,它允许开发者以事件驱动的方式处理HTML文档的结构。这个库特别适用于从不规范的HTML源码中提取数据,因为网页内容的格式可能会因各种原因而不尽完美。在本例中,我们...
2. **创建解析器**:通过实例化解析器类,如`HtmlParser`,并设置相应的解析模式和配置。 3. **解析HTML**:调用解析器的`parse`方法,传入HTML源码或输入流,开始解析过程。 4. **处理解析事件**:注册事件处理器,...
HTMLParser提供了多种方法来访问和操作解析树,比如`parseContent()`用于获取整个文档的节点列表,`visitAllNodesWith()`可以遍历所有节点并应用自定义的访问器,`getFirstNodeWithTag()`用于找到第一个特定标签的...
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。 毫不夸张地说,htmlparser就是目前最好...
HTMLParser库是一个强大的Java库,专门用于解析HTML文档。它为开发者提供了一种方便的方式来处理HTML,即使HTML的格式不规范或包含错误。这个库在处理网页数据抓取、信息提取以及网页自动化等方面非常有用,尤其对于...
1. **HTML标签解析**:HTMLParser2.0能识别并处理HTML文档中的各种标签,如`<div>`, `<p>`, `<a>`等,帮助开发者提取所需信息。 2. **自定义标签处理**:一个独特的特性是它支持处理自定义的HTML标签,这对于解析...
HTMLParser.jar包是一款专门用于解析HTML网页的框架,它的特点是运行速度快且体积小巧,因此在处理HTML解析任务时,能够高效地完成工作。这个框架主要适用于那些需要从HTML文档中提取数据、分析网页结构或者进行自动...
HTMLParser是一个Java库,专为处理HTML文档而设计,它在网页信息提取和解析领域扮演着重要角色。本文将深入探讨HTMLParser 1.6版本的功能、用途、使用方法以及其在IT领域的应用。 HTMLParser的核心功能是解析HTML...
HTMLParser是一个Java库,用于解析HTML文档,提取结构化数据并处理HTML标记。这个库特别适合在不完全符合标准的HTML文档中导航和操作元素,因为网页在实际环境中经常会出现这种情况。以下是对`HtmlParser`及其相关...
【标题】"跨平台的Html解析代码_武稀松_HtmlParser.rar" 涉及的是一个关于跨平台HTML解析的编程项目,由开发者武稀松创建。这个项目的核心是HtmlParser,它可能是一个用Delphi编写的库或框架,旨在帮助程序员在不同...
HTMLParser是一款用Java编写的库,专门用于解析HTML文档。在网页分析中,HTMLParser扮演着核心角色,它能够帮助开发者有效地处理HTML源代码,提取所需的信息,甚至进行DOM(Document Object Model)操作。以下是对...
HTMLParser库的设计基于事件驱动的模式,它会为遇到的每一个HTML标签、属性、文本等内容触发特定的事件。通过继承自HTMLParser类并重写其方法,用户可以定制化解析过程,对HTML元素进行处理。例如,当遇到开始标签时...
HTMLParser.net是一个强大的.NET框架库,专为解析HTML文档而设计。这个库使得开发者能够方便地从HTML中提取数据,处理DOM(文档对象模型),以及与网页内容进行交互。本项目名为"HTMLParser.net源代码HTMLParser.net...