1、 简介
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它提供了接口,支持线性和嵌套HTML文本。在实际的项目中只需要将htmlparser.jar 导入classpath中,就可以使用HTMLParser提供的API了。
2、 主要应用
HTML Parser项目主要可以用在以下两个方面:
1. 信息提取
· 文本信息抽取,例如对HTML进行有效信息搜索
· 链接提取,用于自动给页面的链接文本加上链接的标签
· 资源提取,例如对一些图片、声音的资源的处理
· 链接检查,用于检查HTML中的链接是否有效
· 页面内容的监控
2. 信息转换
· 链接重写,用于修改页面中的所有超链接
· 网页内容拷贝,用于将网页内容保存到本地
· 内容检验,可以用来过滤网页上一些令人不愉快的字词
· HTML信息清洗,把本来乱七八糟的HTML信息格式化
· 转成XML格式数据
3、 数据组织分析
HTML有3种类型的节点:RemarkNode:html中的注释,TagNode:标签节点,TextNode:文本节点。HTMLParser将读取的二进制数据流,进行编码转换、词法分析等操作,生成树形层次结构的Node节点集合。
HtmlParser主要靠Node和Tag来表达Html。
Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现,Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法,定义了节点到对应html文本的方法,定义了该节点对应的起止位置,定义了过滤方法 ,定义了Visitor访问机制。AbstractNode是Node的一种具体的类实现,起到构成树形结构的作用,除了同具体Node相关的accetp方法,toString,toHtml,toPlainTextString方法以外,AbstractNode实现了大多基本的方 法,使得它的子类,不用理会具体的树操作。
Node分成三类:
§ RemarkNode:代表Html中的注释
§ TagNode:标签节点,是种类最多的节点类型,上述Tag的具体节点类都是TagNode的实现。
§ TextNode:文本节点
Tag是具体分析的主要内容。Tag分成composite的Tag和不能包含其他Tag的简单Tag两类,其中前者的基类是CompositeTag,其子类包含BodyTag,Div,FrameSetTag,OptionTag,等27个子类 ;而简单Tag有BaseHrefTag、DoctypeTag,FrameTag,ImageTag,InputTag,JspTag,MetaTag,ProcessingInstructionTag这八类。
4、Visitor方式访问Html:
(1)、整体解析过程
§ 用一个URL或页面String做一个Parser
§ 用这个Parser做一个Visitor
§ 使用Parser.visitAllNodeWith(Visitor)来遍历节点
§ 获取Visitor遍历后得到的数据
(2)、系统Visitor功能简介:
§ ObjectFindingVisitor:用来找出所有指定类型的节点,采用getTags()来获取结果。
§ StringBean:用来从一个指定的URL获取移除了<SCRIPT></SCRIPT>和<PRE></PRE>之间代码的Html代码,也可以用做Visitor,用来移除这两种标签内部的代码,采用StringBean.getStrings()来获取结果。
§ HtmlPage:提取Title,body中的节点和页面中的TableTag节点。
§ LinkFindingVisitor:找出节点中包含某个链接的总个数。
§ StringFindingVisitor:找出遍历的TextNode中含有指定字符串的个数。
§ TagFindingVisitor:找出指定Tag的所有节点,可以指定多种类型。
§ TextExtractingVisitor:从网页中把所有标签去掉来提取文本,这个提取文本的Visitor有时是很实用的 ,只是注意在提取文本时将标签的属性也去掉了,也就是说只剩下标签之间的文本,例如<a>中的链接也去掉了。
§ UrlModifyingVisitor:用来修改网页中的链接。
(3)、Filter
如果说visitor是遍历提取信息,当然这个信息可以包括某些节点或者从节点分析出来的更有效的信息,这都取决于我们的Visitor做成什么样子,那么Filter则目标很明确,就是用来提取节点的。
系统定义了17种具体的Filter,包括依据节点父子关系的Filter,连接Filter组合的Filter,依据网页内容匹配情况的filter,等等。我们也可以implement Filter来做自己的Filter来提取节点。
Filter的调用是同Visitor独立的,因为也无需先filter出一些NodeList,再用Visitor来访问。调用Filter的方法是:
NodeList nodeList = myParser.parse(someFilter);
解析之后,我们可以采用:
Node[] nodes = nodeList.toNodeArray();
来获取节点数组,也可以直接访问:
Node node = nodeList.elementAt(i)来获取Node。
另外,在Filter后得到NodeList以后,我们仍然可以使用NodeList的extractAllNodesThatMatch (someFilter)来进一步过滤,同时又可以用NodeList的isitAllNodesWith(someVisitor)来做进一步的访问。
这样,我们可以看到HtmlParser为我们提供了非常方便的Html解析方式,针对不同的应用可以采用visitor来遍历Html节点提取数据,也可以用Filter来过滤节点,提取出我们所关注的节点,再对节点进行处理。通过这样的组合,一定能够找出我们所需要的信息。
5、乱码问题
对于HTMLParser 工具包我们需要修改其中的htmlparser.java文件使其适用中文的html文件分析。htmlparser.java文件中具体实现细节就不再介绍。这里主要是把protected static final String DEFAULT_CHARSET = "ISO-8859-1";修改成protected static final String DEFAULT_CHARSET = "gb2312";因为采用默认的字符集"ISO-8859-1"对含有中文的html文件进行分析的时候就会出现乱码。必须进行new String(str.getBytes("ISO-8859-1"),"GB2312")的转换工作。对于修改好的htmlparser工具包,需要重新压缩成.jar文件,放到jdk的工作环境中。
6、自定义标签:
注意这个类PrototyicalNodeFactory,首先创建一个它的实例,然后注册你说自定义的Tag,再将这个工厂放置到你的parser中:
factory.registerTag(new IFrameTag());
parser.setNodeFactory(factory);
然后你再试试看,保证能够解析到你想要得那些标准htmlparser不支持的tag。
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/rrong_m/archive/2009/06/04/4242964.aspx
分享到:
相关推荐
内容概要:本文详细介绍了基于MATLAB的语音信号加密解密系统的开发过程及其关键技术。系统主要分为三大模块:录音、加密和解密。录音功能利用audiorecorder对象进行音频采集,支持多种采样率设置。加密算法采用了相位扰动方法,通过傅里叶变换将语音信号转换到频域,添加随机相位偏移并用密码作为随机种子确保唯一性和安全性。解密过程则是逆向操作,通过正确的密码恢复原始相位。此外,系统还包括了一个友好的图形用户界面(GUI),方便用户操作和查看波形变化。文中还探讨了一些实际应用中的挑战,如硬件兼容性和误码容忍度等问题。 适用人群:适用于对语音信号处理、信息安全以及MATLAB编程感兴趣的科研人员和技术爱好者。 使用场景及目标:本系统可用于保护隐私通话、防止窃听等场合,旨在提供一种简单易用且高效的语音加密解决方案。它不仅能够满足日常生活中对于私人对话安全性的需求,也为相关领域的研究提供了有价值的参考资料。 其他说明:作者分享了许多开发过程中遇到的问题及解决办法,强调了细节处理的重要性。例如,针对不同设备间的采样率差异进行了适配调整;为了提高用户体验,加入了密码记忆功能和支持中文密码等功能。
题目:非接触式转速测量仪 主控:STM32 显示屏:Oled 电机驱动:L298 电机(带编码器可测速的三线电机) 按键(增速或者减速等)
内容概要:本文详细介绍了如何利用MATLAB实现含齿轮啮合误差激励的轴系动力学模型。首先,文章解释了为什么传统欧拉梁理论在轴系建模时存在局限性,并引入了Timoshenko梁单元来考虑剪切变形和转动惯量。接着,重点讲解了Newmark-β法的具体实现步骤,包括预处理系数矩阵、迭代公式的推导以及如何处理时变刚度和误差激励。此外,还提供了关于稀疏矩阵优化、频谱分析等方面的实用技巧。最后,通过具体案例演示了整个仿真的流程和注意事项。 适合人群:机械工程领域的研究人员和技术人员,尤其是那些从事齿轮传动系统振动分析工作的专业人士。 使用场景及目标:适用于需要精确模拟齿轮传动轴系动态特性的场合,如汽车变速箱、风力发电机等设备的设计与故障诊断。主要目标是提高仿真精度,缩短计算时间,从而更好地指导实际工程应用。 其他说明:文中不仅给出了详细的数学推导和代码实现,还分享了许多宝贵的实践经验,如如何避免常见的数值不稳定性和调试技巧等。这使得读者不仅能学到理论知识,还能掌握解决实际问题的方法。
内容概要:本文详细介绍了如何使用元胞自动机(Cellular Automaton, CA)和Matlab来模拟增材制造过程中微观组织的生长,尤其是枝晶生长及其从柱状晶到等轴晶的转变(CET)。首先解释了元胞自动机的基本概念,即通过定义网格和状态转移规则来模拟微观结构的变化。接着给出了具体的Matlab代码实现步骤,包括初始化、生长规则制定、枝晶生长模拟以及CET转变的模拟方法。文中还探讨了温度梯度、晶核密度等参数对CET转变的影响,并提供了优化后的高效算法版本。最后强调了此类仿真的重要性和应用价值,如帮助预测和优化增材制造产品的微观结构和性能。 适合人群:从事材料科学、增材制造领域的研究人员和技术人员,以及对元胞自动机和材料微观结构建模感兴趣的学习者。 使用场景及目标:①用于研究和教学,帮助理解和掌握增材制造过程中微观组织演变规律;②辅助工业生产中的工艺参数选择,提高产品质量;③为后续更复杂的多物理场耦合仿真提供基础。 其他说明:随文附带完整的源代码和相关文献资料,便于读者深入学习和扩展研究。
房地产 -阿那亚生活式品牌社群运营 -读懂生活式品牌的社群运营 .pptx
内容概要:本文详细介绍了基于自抗扰控制的预测函数控制(PFC)在永磁同步电机(PMSM)中的应用。首先阐述了PFC的基本概念及其相对于其他模型预测控制的优势,特别是其在快速响应和鲁棒性方面的表现。接着,文章深入探讨了三个关键技术:1.5延时补偿、全电压前馈补偿和扩展状态观测器(ESO)。1.5延时补偿通过线性外推解决计算延时问题;全电压前馈补偿利用电压信息提前调整控制输入,增强响应速度;ESO则用于实时观测并补偿系统中的不确定因素。此外,文中还提供了具体的代码示例,展示了这些技术的实际应用效果。最终,实验结果显示,采用PFC结合自抗扰控制的方法可以显著改善PMSM的速度控制性能,特别是在应对负载扰动方面。 适合人群:从事电机控制领域的工程师和技术研究人员,尤其是关注永磁同步电机控制的从业者。 使用场景及目标:适用于需要对永磁同步电机进行精确、快速响应控制的应用场景,如工业机器人、自动化生产线等。主要目标是提高电机控制系统的稳定性、响应速度和抗干扰能力。 其他说明:文章不仅理论讲解详尽,还附有大量实用的代码片段,便于读者理解和实践。同时提醒读者在实际应用中需要注意参数调整和系统噪声的影响。
内容概要:本文聚焦中国企业级SaaS上市公司2023-2024年的财务绩效,通过详尽的数据分析和行业趋势展望,揭示了该领域的发展现状与未来方向。文章指出,尽管收入和毛利持续增长,但整体毛利率偏低,销售费用率高企,研发投入大,盈利艰难,资产周转效率下降,现金流承压等问题普遍存在。针对这些问题,提出了提升客户价值、深耕行业、延伸商业价值、审视并购可能性、盈利模式多样化、抓住AIGC(生成式人工智能)机遇、把握出海机遇以及积极利用资本市场等策略建议。未来,企业级SaaS市场将围绕中小企业需求、细分领域产品爆发式增长及行业生态协同化发展。 适用人群:对中国企业级SaaS市场感兴趣的投资者、企业管理者、行业分析师以及相关从业人员。 使用场景及目标:①帮助投资者评估企业级SaaS上市公司的投资价值;②为企业管理者提供战略规划和运营管理的参考;③为行业分析师提供详实的数据支持和趋势预测;④为从业人员提供职业发展和技能提升的方向。 其他说明:本文基于2024年10月底的财务数据,结合安永的研究分析,提供了对企业级SaaS市场的深入洞察。文中还强调了SaaS企业在数字化转型中的重要作用,并呼吁行业内企业积极应对挑战,把握发展机遇。
内容概要:本文详细探讨了使用Comsol进行聚合物电解质膜(PEM)燃料电池堆的热管理建模。首先强调了保持燃料电池堆温度均匀性的关键意义,因为温度不均会影响电池性能。接着介绍了由五个电池单元组成的模型结构及其与冷却剂的交互方式。文中具体讲解了多个关键物理量的求解方法,如温度、电极和电解质相电位、反应物质的质量传递以及流体的压力和速度。此外,还讨论了如何通过调整冷却液入口温度、选择合适的湍流模型、优化电化学反应和传质的耦合、合理划分网格以及采用分阶段求解策略来改进仿真效果。最后,作者分享了一些实用的经验和技术细节,例如在冷却液中加入荧光粒子示踪剂进行实验验证,以及针对不同参数做出相应的调整以确保模型的准确性。 适合人群:从事燃料电池研究的技术人员、工程师以及相关领域的科研工作者。 使用场景及目标:适用于需要深入了解和掌握PEM燃料电池堆热管理系统设计与优化的人群。主要目的是帮助他们更好地理解和运用Comsol软件来进行复杂的多物理场耦合仿真,从而提高燃料电池堆的工作效率并延长使用寿命。 其他说明:文章不仅提供了理论知识,还包括了许多具体的实施步骤和技巧,有助于读者快速上手并在实践中不断积累经验。
基于Vue+javaScript实现的电动汽车充电桩管理系统+源码+项目文档,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档 基于Vue+javaScript实现的电动汽车充电桩管理系统+源码+项目文档,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档~ 基于Vue+javaScript实现的电动汽车充电桩管理系统+源码+项目文档,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档 基于Vue+javaScript实现的电动汽车充电桩管理系统+源码+项目文档,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档 基于Vue+javaScript实现的电动汽车充电桩管理系统+源码+项目文档,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档
windwos环境下python 3.11系列ARM64位安装包,仅推荐个人学习、开发、娱乐或者测试环境下使用。
内容概要:本文详细介绍了利用COMSOL软件设计和仿真的石墨烯可见光宽带完美吸收器。首先,文章解释了石墨烯在可见光波段的独特性质及其应用潜力,接着深入探讨了结构设计的关键要素,如双层光子晶体结构、介质层厚度选择以及金纳米棒的周期性排列。文中还提供了具体的代码片段用于设置材料参数、网格划分和边界条件,并强调了参数优化和后处理的重要性。最终展示了仿真结果,包括吸收率曲线和平坦的宽带吸收特性。 适合人群:从事光电子器件研究的科研人员和技术开发者,尤其是熟悉COMSOL仿真平台的用户。 使用场景及目标:适用于希望深入了解石墨烯在可见光波段的应用并掌握相关建模技巧的研究者。目标是通过理论分析和实验验证相结合的方式,探索提高光吸收效率的新方法。 其他说明:文中提到的一些具体数值和代码片段对于实际建模非常有价值,同时也指出了常见错误和注意事项,帮助读者避开潜在陷阱。此外,作者分享了一些个人经验,使内容更加生动实用。
# 基于Arduino的HID按键项目 ## 项目简介 HID按键项目是一个基于Arduino的自动键盘替代工具,旨在通过单一按键实现Windows或其他类似操作系统的登录请求自动填写登录凭证。该项目提供了针对不同Arduino或兼容板的多种版本,适用于安全验证、快捷登录等场景。 ## 项目的主要特性和功能 1. 自动填写登录凭证通过一键操作,自动填写用户名和密码,简化登录流程。 2. 多版本支持支持ATTiny85板和Arduino Micro板等多种硬件平台,用户可根据需求选择合适的版本。 3. 开源与免费项目遵循GPL2.0only开源协议,用户可以自由获取和使用。 ## 安装使用步骤 2. 准备硬件根据所选版本准备相应的Arduino或兼容板(如ATTiny85板或Arduino Micro板),并确保硬件正常工作并连接电脑。
企业资源配置效率是指在一定的技术水平条件下,企业如何将其拥有的资源(如资金、人力、物资等)在各产出主体或生产环节中进行分配,以产生最大的效益。 企业资源配置效率的提高对于企业的生产发展具有至关重要的作用。因此,企业应该注重优化资源配置,提高资源配置效率,以实现企业的可持续发展和竞争优势的提升。 企业资源配置效率指标1:残差小于等于的全部取0 企业资源配置效率指标2:残差取绝对值 数据 代码、年份、e、Overinvest、Ineff
# 基于OpenHarmony和BES2600WM芯片的多模态V200ZR开发板 ## 项目简介 本项目是基于恒玄科技BES2600WM芯片和OpenHarmony操作系统的多模态V200ZR开发板。该开发板由湖南欧智通科技有限公司出品,集成了四核ARM处理器、双频WiFi、双模蓝牙等功能,适用于各种AIoT多模态VUI + GUI交互硬件场景。 ## 项目的主要特性和功能 ### 硬件特性 CPU: 双核Cortex M33 Star(最高300MHz) + 双核Cortex A7(最高1GHz) RAM: 最大2MB SRAM + 40MB PSRAM ROM: 最大32MB Nor Flash,支持XIP 网络: 支持WiFi4 2.4G5G双频,BT5.2,BT classic,LE Audio,SIG mesh 显示: 支持MIPI DSI及CSI,2D graphics engine
# 基于 JavaScript 和 Vite 框架的客户端信息获取系统 ## 项目简介 InfoJs 是一个基于 JavaScript 和 Vite 构建的系统项目,其核心目标是让开发者能够方便快捷地获取客户端信息。借助简单的配置与使用方式,开发者可轻松获取如浏览器信息、设备信息、运行环境等关键数据。 ## 项目的主要特性和功能 1. 简单易用只需进行简单的配置和导入操作,就能在项目中获取丰富的客户端信息。 2. 高效性能采用 Vite 作为构建工具,实现快速开发和热更新。 3. 丰富的 API提供涵盖浏览器信息、设备信息、运行环境等多种类型的 API,满足不同的开发需求。 4. 可扩展性支持自定义插件和扩展,方便开发者根据个性化需求进行定制。 ## 安装使用步骤 ### 一、安装依赖 可通过 npm 或 yarn 安装 InfoJs 库和相关插件 shell npm install sudongyuinfojs save
内容概要:本文详细介绍了手性BIC(连续域束缚态)十字结构的设计与仿真方法。首先,通过Python代码生成十字结构的基本参数,确保对称性破缺以产生BIC效应。接着,在Lumerical FDTD环境中进行电磁场仿真,重点探讨了不同材料(如SiN、GaAs)对手性响应的影响,并展示了如何通过调整结构参数(如臂长、宽度、高度)来优化圆二色性(CD)响应。此外,文章还讨论了电场分布的可视化及其与BIC模式的关系,以及如何利用遗传算法和反向设计方法进一步优化结构性能。 适合人群:从事光子学研究的专业人士,特别是对纳米光子器件设计感兴趣的科研人员和技术开发者。 使用场景及目标:适用于希望深入了解手性BIC结构设计原理的研究人员,旨在帮助他们掌握从理论到实践的具体步骤,包括参数选择、仿真工具使用、数据分析等方面的知识。 其他说明:文中提供了大量具体的代码示例,涵盖Python、Matlab和Lumerical等多种编程环境,便于读者直接应用于自己的研究项目中。同时,文章强调了实验过程中需要注意的实际问题,如材料选择、仿真参数设置等,有助于提高仿真的准确性和可靠性。
内容概要:本文深入探讨了在Plecs平台上实现虚拟同步发电机(VSG)并联控制时所面临的挑战及其解决方案,尤其是针对线路阻抗差异导致的功率分配不均和系统振荡问题。文章介绍了动态虚拟复阻抗技术的基本原理,通过PI调节器实时调整虚拟阻抗值来平衡无功功率分配,并提供了详细的代码实现和调试经验。此外,还讨论了控制周期设置、相位补偿以及参数整定等方面的技术细节,强调了动态虚拟阻抗对于提高系统稳定性和鲁棒性的显著效果。 适合人群:从事微电网研究和技术开发的专业人士,尤其是对VSG并联控制感兴趣的科研人员和工程师。 使用场景及目标:适用于需要解决VSG并联运行中功率分配不均和系统不稳定的问题,旨在通过动态虚拟复阻抗技术优化并联系统性能,确保系统的高效稳定运行。 其他说明:文中提供的代码片段和调试技巧有助于读者更好地理解和应用这一先进技术。建议结合相关文献进一步深入研究,以获得更好的理论支持和技术指导。
内容概要:本文详细介绍了利用鹅优化算法(GOOSE)优化完全集成经验模态分解(CEEMDAN)的关键参数,以提高非平稳信号分解的质量。首先,通过数据预处理步骤如Butterworth滤波和归一化处理,确保输入信号的质量。然后,构建GOOSE优化器,采用样本熵或其他熵指标作为适应度函数,自动搜索最佳的噪声标准差和噪声重复次数。接下来,进行CEEMDAN分解,并通过多种可视化手段(如三维希尔伯特谱、瀑布图等)展示分解结果。最后,通过误差分析验证分解效果,结果显示模态混叠现象减少了约23%,特别是在机械振动信号分析中表现优异。 适合人群:从事信号处理、机器学习以及数据分析的研究人员和技术人员,尤其是对非平稳信号处理感兴趣的读者。 使用场景及目标:适用于需要精确分解非平稳信号的应用场景,如机械故障诊断、生物医学信号处理等领域。主要目标是通过优化CEEMDAN参数,减少模态混叠,提高信号特征提取的准确性。 其他说明:文中提供了详细的代码实现和优化技巧,帮助读者更好地理解和应用这一方法。同时,强调了在实际应用中需要注意的一些细节,如参数范围的选择、可视化工具的使用等。
下载解压后,需先npm i下载依赖包
全球价值链是指为实现商品或服务价值而连接生产、销售、回收处理等过程的全球性跨企业网络组织,涉及从原料采购和运输、半成品和成品的生产和分销,直至最终消费和回收处理的整个过程。产业链韧性是指产业链在面对外部冲击和不确定性时,能够保持其结构稳定、功能完整和持续运行的能力。这种能力对于确保产业链的安全、稳定和可持续发展至关重要。 产业链依赖度指标根据最新OECD投入产出表计算,提供参考材料。 Richard Baldwin(理查德·鲍德温外国进口依赖度和外国市场依赖度。 FIR 指标衡量一个国家(cou)和行业(ind)对其供应商(合作伙伴)的进口依赖程度。 FMR 指标衡量一个国家(cou)和行业(ind)对其客户(合作伙伴)的市场依赖程度(出口依赖程度) TFR(总对外依存度)。 指标 year、cou、ind、partner、fir、fmr