htmlpar

uyerp

浏览: 12304 次
性别:
来自: 广州

最近访客更多访客>>

浅绿蓂荚

goldtoad

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (9)

社区版块

存档分类

HTML 数据结构 JDK 工作 .net

1、简介
htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。它提供了接口，支持线性和嵌套HTML文本。在实际的项目中只需要将htmlparser.jar 导入classpath中，就可以使用HTMLParser提供的API了。

2、主要应用

HTML Parser项目主要可以用在以下两个方面：
1．信息提取
· 文本信息抽取，例如对HTML进行有效信息搜索
· 链接提取，用于自动给页面的链接文本加上链接的标签
· 资源提取，例如对一些图片、声音的资源的处理
· 链接检查，用于检查HTML中的链接是否有效
· 页面内容的监控
2．信息转换
· 链接重写，用于修改页面中的所有超链接
· 网页内容拷贝，用于将网页内容保存到本地
· 内容检验，可以用来过滤网页上一些令人不愉快的字词
· HTML信息清洗，把本来乱七八糟的HTML信息格式化
· 转成XML格式数据
3、数据组织分析

HTML有3种类型的节点：RemarkNode：html中的注释，TagNode：标签节点，TextNode：文本节点。HTMLParser将读取的二进制数据流，进行编码转换、词法分析等操作，生成树形层次结构的Node节点集合。
HtmlParser主要靠Node和Tag来表达Html。

Node是形成树结构表示HTML的基础，所有的数据表示都是接口Node的实现，Node定义了与页面树结构所表达的页面Page对象，定义了获取父、子、兄弟节点的方法，定义了节点到对应html文本的方法，定义了该节点对应的起止位置，定义了过滤方法，定义了Visitor访问机制。AbstractNode是Node的一种具体的类实现，起到构成树形结构的作用，除了同具体Node相关的accetp方法，toString，toHtml，toPlainTextString方法以外，AbstractNode实现了大多基本的方法，使得它的子类，不用理会具体的树操作。
Node分成三类：
§ RemarkNode:代表Html中的注释
§ TagNode：标签节点，是种类最多的节点类型，上述Tag的具体节点类都是TagNode的实现。
§ TextNode：文本节点
Tag是具体分析的主要内容。Tag分成composite的Tag和不能包含其他Tag的简单Tag两类，其中前者的基类是CompositeTag，其子类包含BodyTag,Div,FrameSetTag,OptionTag，等27个子类；而简单Tag有BaseHrefTag、DoctypeTag,FrameTag，ImageTag，InputTag，JspTag，MetaTag，ProcessingInstructionTag这八类。

4、Visitor方式访问Html：
(1)、整体解析过程
§ 用一个URL或页面String做一个Parser
§ 用这个Parser做一个Visitor
§ 使用Parser.visitAllNodeWith(Visitor)来遍历节点
§ 获取Visitor遍历后得到的数据
(2)、系统Visitor功能简介：
§ ObjectFindingVisitor：用来找出所有指定类型的节点，采用getTags()来获取结果。
§ StringBean：用来从一个指定的URL获取移除了<SCRIPT></SCRIPT>和<PRE></PRE>之间代码的Html代码，也可以用做Visitor，用来移除这两种标签内部的代码，采用StringBean.getStrings()来获取结果。
§ HtmlPage：提取Title，body中的节点和页面中的TableTag节点。
§ LinkFindingVisitor:找出节点中包含某个链接的总个数。
§ StringFindingVisitor：找出遍历的TextNode中含有指定字符串的个数。
§ TagFindingVisitor：找出指定Tag的所有节点，可以指定多种类型。
§ TextExtractingVisitor：从网页中把所有标签去掉来提取文本，这个提取文本的Visitor有时是很实用的，只是注意在提取文本时将标签的属性也去掉了，也就是说只剩下标签之间的文本，例如<a>中的链接也去掉了。
§ UrlModifyingVisitor：用来修改网页中的链接。
(3)、Filter
如果说visitor是遍历提取信息，当然这个信息可以包括某些节点或者从节点分析出来的更有效的信息，这都取决于我们的Visitor做成什么样子，那么Filter则目标很明确，就是用来提取节点的。
系统定义了17种具体的Filter，包括依据节点父子关系的Filter，连接Filter组合的Filter，依据网页内容匹配情况的filter，等等。我们也可以implement Filter来做自己的Filter来提取节点。
Filter的调用是同Visitor独立的，因为也无需先filter出一些NodeList，再用Visitor来访问。调用Filter的方法是：
NodeList nodeList = myParser.parse(someFilter);
解析之后，我们可以采用：
Node[] nodes = nodeList.toNodeArray();
来获取节点数组，也可以直接访问：
Node node = nodeList.elementAt(i)来获取Node。
另外，在Filter后得到NodeList以后，我们仍然可以使用NodeList的extractAllNodesThatMatch (someFilter)来进一步过滤，同时又可以用NodeList的isitAllNodesWith(someVisitor)来做进一步的访问。

这样，我们可以看到HtmlParser为我们提供了非常方便的Html解析方式，针对不同的应用可以采用visitor来遍历Html节点提取数据，也可以用Filter来过滤节点，提取出我们所关注的节点，再对节点进行处理。通过这样的组合，一定能够找出我们所需要的信息。

5、乱码问题
对于HTMLParser 工具包我们需要修改其中的htmlparser.java文件使其适用中文的html文件分析。htmlparser.java文件中具体实现细节就不再介绍。这里主要是把protected static final String DEFAULT_CHARSET = "ISO-8859-1"；修改成protected static final String DEFAULT_CHARSET = "gb2312"；因为采用默认的字符集"ISO-8859-1"对含有中文的html文件进行分析的时候就会出现乱码。必须进行new String(str.getBytes("ISO-8859-1")，"GB2312")的转换工作。对于修改好的htmlparser工具包，需要重新压缩成.jar文件，放到jdk的工作环境中。

6、自定义标签：
注意这个类PrototyicalNodeFactory，首先创建一个它的实例，然后注册你说自定义的Tag，再将这个工厂放置到你的parser中：
factory.registerTag(new IFrameTag());
parser.setNodeFactory(factory);
然后你再试试看，保证能够解析到你想要得那些标准htmlparser不支持的tag。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/rrong_m/archive/2009/06/04/4242964.aspx

分享到：

剪贴板

2010-06-22 00:32
浏览 852
评论(0)
分类:编程语言
查看更多

发表评论

文章已被作者锁定，不允许评论。

相关推荐

(源码)基于 Koa2 的 FEBLOG API.zip: # 基于 Koa2 的 FEBLOG API ## 项目简介 FEBLOG API 是一个基于 Node.js 和 Koa2 框架的 RESTful API 服务器，支持多种关系型数据库（如 PostgreSQL、MySQL、MariaDB、SQLite、MSSQL），并使用 Sequelize 作为 ORM。项目支持跨域请求、JSON 数据传输、JWT 身份认证等功能，适用于构建前后端分离的应用。 ## 主要特性和功能跨域支持通过配置支持跨域请求。数据传输格式支持 applicationxwwwformurlencoded、multipartformdata、applicationjson 格式的 POST、PUT、DELETE 请求。 JWT 身份认证通过 JWT 实现用户身份认证。数据库支持使用 Sequelize ORM 支持 PostgreSQL、MySQL、MariaDB、SQLite、MSSQL 等多种数据库。

存储器实验资料.zip: 存储器实验资料.zip

(源码)基于 Python 的知乎热榜爬虫及数据处理项目.zip: # 基于 Python 的知乎热榜爬虫及数据处理项目 ## 项目简介本项目基于 Python 编程语言，旨在实现知乎热榜的定时跟踪以及相关数据的存储与查询操作。通过爬虫技术获取知乎热榜问题的详细信息，将数据存入数据库，同时提供一系列 SQL 查询示例帮助用户熟悉 SQL 基本语法，还包含使用 Selenium 实现 GPA 计算器的功能。 ## 项目的主要特性和功能 1. 知乎热榜爬虫定期爬取知乎热榜，获取问题摘要、描述、热度、访问人数、回答数量等基本信息，并将数据存入数据库。 2. 可定制爬虫逻辑用户可以选择删除已有代码从零开始编写，也可以完成代码填空实现相应功能。 3. GPA 计算器使用 Selenium 模拟点击登录 WebVPN，登录 info 并访问成绩单页面，查询成绩并计算每学期的绩点。 4. SQL 练习提供一系列基于 MySQL 数据库的 SQL 查询练习，帮助用户熟悉基本的 SQL 语法，如添加新列、数据填充、关键词查询等。

(源码)基于C语言的学生信息管理系统.zip: # 基于C语言的学生信息管理系统 ## 项目简介这是一个基于文本界面的学生信息管理系统，旨在通过简单的文本输入实现学生信息的添加、查找、修改和删除操作。系统采用链表数据结构存储学生信息，并支持文件读写功能以持久化存储数据。 ## 项目的主要特性和功能 ### 主要特性 1. 文本界面操作用户通过控制台输入指令完成操作。 2. 链表数据结构使用链表存储学生信息，方便信息的添加和删除。 3. 文件操作支持将学生信息数据保存到文件，以及从文件中读取数据。 ### 功能详解登录验证用户需输入正确的学号和密码才能进入系统。主界面展示显示系统主菜单，包括学生信息查找、删除、添加、修改和录入等功能。学生信息查找根据学号查找学生信息。学生信息删除根据学号删除学生信息。学生信息添加可以添加新的学生信息到系统中。学生信息修改可以修改已存在的学生信息。学生信息录入展示所有存储的学生信息。辅助功能

(源码)基于VS Code的px到rpx转换工具.zip: # 基于VS Code的px到rpx转换工具 ## 项目简介本项目是一款VS Code插件，旨在将前端代码里的单位px转换为rpx。当设计师在设计稿中使用px单位时，开发者能够借助该工具快速把代码中的px转换为小程序适用的rpx单位。它借助语法分析技术实现精准转换，避免误改其他属性里的px。 ## 项目的主要特性和功能 1. 自动转换功能能通过简单命令自动识别并转换style标签内所有声明中的px为rpx。 2. 精准转换利用语法分析，仅对真正的单位值进行转换，防止错误修改其他内容中的px字符。 3. 部分转换支持可选择部分样式代码进行转换，操作灵活便捷。 ## 安装使用步骤假设用户已下载本项目源码文件且安装了VS Code环境。 1. 安装插件打开VS Code，进入侧边栏的扩展视图，搜索并安装“px2rpx”插件。 2. 重启VS Code安装完成后重启VS Code使插件生效。

test文件资包传递使用: test文件资包。传递使用

LCCC2701 智能车灯控制系统设计 20250329: 主控：AT89C52 显示：LCD1602 光照检测：光敏电阻距离检测：超声波测距远光灯近光灯按键（设置阈值） 1、使用光敏电阻实时检测环境光线强度，设置阈值判断是否开启远光灯； 2、利用超声波传感器测量迎面车辆距离，设置安全距离阈值，自动切换到近光灯； 3、加入延时功能（例如在检测到迎面车辆后等待3秒再切换灯光），以减少频繁切换，提升平滑性。 4、所选传感器模块、执行器模块、电源与接口电路等模块的型号需要是便宜的。

ESP32之阿里云OTA固件升级（源码）: esp-idf-v5.3.2

信息安全领域实战项目【信息安全领域】实战项目汇总：涵盖网络渗透测试、Web应用安全加固、企业安全策略制定等内容多个信息安全领域的实战: 内容概要：本文介绍了多个信息安全领域的实战项目，涵盖网络渗透测试、Web应用安全加固、企业安全策略制定与实施、恶意软件分析、数据泄露应急响应、物联网设备安全检测、区块链安全审计和云安全防护。每个项目都详细描述了其目标和具体实施步骤，包括信息收集、漏洞扫描、利用和修复、安全配置、风险评估、制度建设、培训教育、样本获取与分析、事件响应、遏制措施、调查取证、数据恢复、安全检测、架构分析、智能合约审计、共识机制审查、云环境评估、访问管理、网络安全防护等方面。适合人群：信息安全从业者、IT管理人员、安全顾问、系统管理员、开发人员以及对信息安全感兴趣的人员。使用场景及目标：①为信息安全从业人员提供实际操作指导，帮助其掌握不同场景下的安全防护技能；②为企业提供全面的信息安全保障方案，确保其信息系统和数据的安全性；③为开发人员提供安全编码和系统设计的最佳实践指南，提高应用程序的安全性；④为安全研究人员提供深入分析恶意软件和区块链系统的工具和方法。阅读建议：读者可以根据自身需求选择感兴趣的部分进行深入学习，建议结合实际案例进行实践操作，同时关注最新的安全技术和法规要求，以确保所学知识与时俱进并能应用于实际工作中。

(源码)基于C语言和STM32F0系列微控制器的宏键盘系统.zip: # 基于C语言和STM32F0系列微控制器的宏键盘系统 ## 项目简介本项目是基于C语言和STM32F0系列微控制器开发的宏键盘系统。该系统可让用户自定义宏按键，实现快速输入或自动化任务，涵盖硬件的GPIO输入输出控制、USB通信以及中断处理等功能。 ## 项目的主要特性和功能宏定义用户能通过定义keymappings.h文件中的宏按键，自定义按键行为。 USB通信利用STM32F0系列微控制器的USB库，支持HID类通信。 GPIO控制实现对键盘按键读取和发送操作的控制。中断处理可处理按键状态变化、USB通信等外部中断请求。电源管理对微控制器的睡眠、停止和待机等电源模式进行管理。 ## 安装使用步骤 ### 硬件准备确保STM32F0系列微控制器（如STM32F042K6）的GPIO引脚、USB接口等硬件连接正确。保证所有必要外设（如LED、按键）正确连接且可用。 ### 软件准备下载并解压项目源代码。

COMSOL多物理场仿真中熔池枝晶模型的构建与应用: 内容概要：本文详细介绍了如何利用COMSOL Multiphysics软件构建熔池枝晶模型，用于模拟金属在凝固过程中枝晶的生长行为。主要内容涵盖三个关键模块：传热、流体流动和相场。通过定义相应的偏微分方程（如传热方程、Navier-Stokes方程和相场方程），设置适当的边界条件和初始条件，并进行多物理场耦合求解，最终实现了对熔池温度分布、速度场及枝晶生长过程的精确模拟。此外，还探讨了如何优化求解器配置、处理移动边界条件、引入各向异性效应以及提高计算效率的方法。适合人群：从事材料科学、冶金工程、增材制造等领域研究的专业人士和技术人员。使用场景及目标：适用于需要深入了解金属凝固过程中微观结构演变机制的研究项目，特别是在激光熔覆、焊接等工艺中，帮助研究人员预测和优化材料性能。其他说明：文中不仅提供了详细的建模步骤指导，还包括一些实用技巧，如参数选择、网格划分策略、热源耦合方式等，有助于解决实际建模过程中可能遇到的问题。

基于COMSOL的地下二氧化碳封存多物理场耦合仿真研究: 内容概要：本文详细介绍了利用COMSOL Multiphysics进行地下二氧化碳封存仿真的方法和技术要点。主要内容涵盖两相流模块设置、温度场耦合、地层分层建模以及力学模块处理等方面。文中不仅提供了具体的数学模型和代码片段，如相对渗透率函数、热膨胀系数函数等，还分享了许多实际操作中的经验和教训，强调了不同物理场之间的相互作用及其对模拟结果的影响。适合人群：从事地质工程、环境科学、石油工程等领域研究的专业人士，尤其是那些需要进行地下流体运移和储层特性研究的科研工作者。使用场景及目标：适用于希望深入了解地下二氧化碳封存机制的研究人员，帮助他们掌握如何使用COMSOL软件构建复杂的多物理场耦合模型，从而更好地预测和评估二氧化碳封存的安全性和有效性。其他说明：文章中提到的技术细节对于确保模拟精度至关重要，例如正确处理单位转换、选择合适的渗透率模型、考虑温度变化对岩石性质的影响等。此外，作者还提醒读者应注意避免一些常见的错误配置，以免导致不可靠的结果。

ENCAP 2023打分表: ENCAP 2023打分表

中国上市公司协会：2022年中国上市公司董事会秘书履职报告.pdf: 中国上市公司协会：2022年中国上市公司董事会秘书履职报告

MATLAB遗传算法解决电动车带时间窗路径规划与充电优化问题: 内容概要：本文详细介绍了利用MATLAB遗传算法解决带有时间窗约束的电动车路径规划和充电优化问题。首先，构建了客户点、充电站以及电动车的基本参数模型，然后设计了一套完整的遗传算法框架，包括染色体编码、适应度函数、交叉变异操作等。适应度函数综合考虑了总行驶距离、时间窗违约、电量透支等多个因素。通过多次迭代优化，最终得到了较优的路径规划方案，并展示了实验结果的可视化图形。此外，文中还讨论了一些调参技巧和实际应用中的注意事项。适合人群：具有一定编程基础和技术背景的研究人员、工程师，特别是从事智能交通系统、物流配送优化领域的专业人士。使用场景及目标：适用于需要进行电动车路径规划和充电管理的实际应用场景，如城市物流配送公司。主要目标是在满足客户需求和服务质量的前提下，最小化运营成本，提高车辆利用率。其他说明：文中提供了详细的代码实现步骤和部分实验数据，有助于读者理解和复现研究结果。同时提到了一些实用的小技巧，如适当放宽时间窗惩罚系数可以降低总成本等。

(源码)基于Arduino的超声波距离测量系统.zip: # 基于Arduino的超声波距离测量系统 ## 项目简介本项目是一个基于Arduino平台的超声波距离测量系统。系统包含四个超声波传感器（SPS）模块，用于测量与前方不同方向物体的距离，并通过蜂鸣器（Buzz）模块根据距离范围给出不同的反应。 ## 项目的主要特性和功能 1. 超声波传感器（SPS）模块每个模块包括一个超声波传感器和一个蜂鸣器。传感器用于发送超声波并接收回波，通过计算超声波旅行时间来确定与物体的距离。 2. 蜂鸣器（Buzz）模块根据超声波传感器测量的距离，蜂鸣器会给出不同的反应，如延时发声。 3. 主控制器（Arduino）负责控制和管理所有传感器和蜂鸣器模块，通过串行通信接收和发送数据。 4. 任务管理通过主控制器（Arduino）的 loop() 函数持续执行传感器任务（Task），包括测距、数据处理和蜂鸣器反应。 ## 安装使用步骤 1. 硬件连接

COMSOL仿真中偶极光源的建模与优化方法详解: 内容概要：本文详细介绍了如何使用COMSOL进行偶极光源的建模与仿真。首先解释了偶极子光源的物理本质及其重要性，然后逐步指导读者完成从创建新模型、设置电流源、配置边界条件到最终结果分析的全过程。文中强调了关键步骤如正确设置电流分量、选择合适的边界条件（如PML）、合理划分网格以及如何解读远场辐射图等。此外，还提供了多个实用技巧和常见错误规避方法，帮助用户提高仿真的准确性和效率。适合人群：从事光学仿真、电磁场研究的专业人士和技术爱好者。使用场景及目标：适用于需要精确模拟微纳尺度下电磁波行为的研究项目，特别是涉及偶极子光源的应用场合。通过掌握这些技能，可以更好地理解和预测实际物理现象，从而为相关领域的科研工作提供有力支持。其他说明：文章不仅涵盖了基本的操作流程，还包括了许多作者亲身经历的经验分享，使读者能够避开一些常见的陷阱并获得更好的仿真效果。同时，文中提供的代码片段可以帮助用户快速上手，将理论知识转化为具体实践。

COMSOL在多物理场扩散模型中的应用及优化：从电化学到地质工程: 内容概要：本文详细介绍了COMSOL Multiphysics在多种扩散模型中的应用，涵盖电化学、多孔介质中的流体运移、岩石裂隙中的浆液扩散等领域。通过具体的代码片段展示了如何模拟电双层纳米电极中的扩散、二氧化碳混相驱替、岩石裂隙中的浆液扩散以及三层顶板随机裂隙浆液扩散等过程。文中强调了COMSOL的强大多物理场耦合能力和灵活性，特别是在处理复杂系统如煤颗粒的吸附/解吸行为时的优势。此外，还讨论了模型参数调整、边界条件设置、数值稳定性等问题，并分享了一些实践经验和技术细节。适合人群：从事电化学、地质工程、油气田开发等相关领域的科研人员和工程师。使用场景及目标：①研究电化学过程中离子迁移和电荷分布的变化；②模拟二氧化碳在多孔介质中的运移规律，优化油气采收率；③分析浆液在岩石裂隙中的扩散规律，指导注浆工程的设计；④探讨煤颗粒的吸附/解吸行为，提升煤层气开采和CO2封存的效果。其他说明：文中提供了大量具体的技术细节和代码片段，有助于读者理解和复现相关模型。同时，作者分享了许多实际操作中的经验和技巧，对于初学者和有一定经验的研究人员都有很高的参考价值。

时序预测领域的CPO-ELM-ABKDE模型：融合豪猪优化与自适应核密度估计的高效预测系统: 内容概要：本文介绍了一种新颖的时序预测模型CPO-ELM-ABKDE，它结合了冠豪猪优化(CPO)、极限学习机(ELM)以及自适应带宽核密度估计(ABKDE)，用于多变量时序预测和区间概率预测。首先，利用时间滑窗技术将原始数据转换为多变量输入矩阵，然后采用CPO优化ELM的输入权重和偏置，提高预测准确性并防止过拟合。接着，通过ABKDE对预测残差进行建模，生成自适应的概率预测区间。实验结果显示，该模型在电力负荷预测任务中表现出色，点预测R²达到0.97，95%置信区间的覆盖率达到92.3%。适用人群：从事数据分析、机器学习研究的专业人士，尤其是关注时序预测及其应用的研究者和技术开发者。使用场景及目标：适用于需要精确时序预测的应用场合，如电力系统负荷预测、金融市场价格走势预测等。主要目标是在确保较高预测精度的同时提供可靠的不确定度量化，帮助决策者更好地应对潜在的风险。其他说明：文中提供了详细的代码实现步骤，包括数据预处理、模型搭建、训练优化以及结果评估等多个环节。此外，还讨论了不同优化算法之间的性能比较，并强调了本模型对于处理实际工业数据的良好适应性和稳定性。

git 服务 windows 服务端 gitblit-1.9.3: Gitblit 1.9.3 是 Gitblit 这个 Git 服务器工具的一个特定版本（即 1.9.3 版）。 Gitblit 是一个基于 Java 的 Git 仓库管理服务器，它可以让你在局域网或服务器上搭建自己的 Git 仓库系统，主要用于团队协作中的代码托管、权限管理、项目浏览等功能。

最近访客 更多访客>>