HtmlParser初步研究2

gstarwd

浏览: 1554096 次
性别:
来自: 杭州

最近访客更多访客>>

cl_andywin

sagadan

scj2cy

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

HTML

// 获取一个网页上所有的链接和图片链接
　　public static void extracLinks(String url) {
　　　　try {
　　　　　　Parser parser = new Parser(url);
　　　　　　parser.setEncoding("gb2312");
//过滤 <frame> 标签的 filter，用来提取 frame 标签里的 src 属性所、表示的链接
　　　　　　 NodeFilter frameFilter = new NodeFilter() {
　　　　　　　　public boolean accept(Node node) {
　　　　　　　　　　if (node.getText().startsWith("frame src=")) {
　　　　　　　　　　　　return true;
　　　　　　　　　　} else {
　　　　　　　　　　　　return false;
　　　　　　　　　　}
　　　　　　　　}
　　　　　　};
//OrFilter 来设置过滤 <a> 标签，<img> 标签和 <frame> 标签，三个标签是 or 的关系
　　 OrFilte rorFilter = new OrFilter(new NodeClassFilter(LinkTag.class), new
NodeClassFilter(ImageTag.class));
　　 OrFilter linkFilter = new OrFilter(orFilter, frameFilter);
　　//得到所有经过过滤的标签
　　NodeList list = parser.extractAllNodesThatMatch(linkFilter);
　　for (int i = 0; i < list.size(); i++) {
　　　　Node tag = list.elementAt(i);
　　　　if (tag instanceof LinkTag)//<a> 标签
　　　　{
　　　　　　LinkTag link = (LinkTag) tag;
　　　　　　String linkUrl = link.getLink();//url
　　　　　　 String text = link.getLinkText();//链接文字
　　　　　　 System.out.println(linkUrl + "**********" + text);
　　　　}
　　　　else if (tag instanceof ImageTag)//<img> 标签
　　　　{
　　　　　　ImageTag image = (ImageTag) list.elementAt(i);
　　　　　　 System.out.print(image.getImageURL() + "********");//图片地址
　　　　　　 System.out.println(image.getText());//图片文字
　　　　}
　　　　 else//<frame> 标签
　　　　{
//提取 frame 里 src 属性的链接如 <frame src="test.html"/>
　　　　　　String frame = tag.getText();
　　　　　　int start = frame.indexOf("src=");
　　　　　　frame = frame.substring(start);
　　　　　　int end = frame.indexOf(" ");
　　　　　　if (end == -1)
　　　　　　　　 end = frame.indexOf(">");
　　　　　　frame = frame.substring(5, end - 1);
　　　　　　System.out.println(frame);
　　　　}
　　}
} catch (ParserException e) {
　　　　　　e.printStackTrace();
}
}

分享到：

http://htmlparser.com.cn/ | 开源网络蜘蛛spider（转载）

2010-04-12 15:47
浏览 1064
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

htmlparser 资料集合: - CSDN博客.htm`和`HtmlParser初步研究 - lostfire - BlogJava.htm`这类博客文章，通常由开发者分享他们的学习心得和实践经验，可能包括一些常见问题的解决方法、技巧或最佳实践。 `利用htmlparser抓取网页内容(一...

htmlparser1_6: 总结来说，HTMLParser1_6是一个用于HTML解析、网页匹配和数据抓取的工具，其核心功能包括高效地解析HTML结构、根据用户定义的规则进行网页匹配、自动化数据抓取以及对抓取数据的初步分析。开发者可以通过这个库轻松...

Python编程入门经典: 第Ⅰ部分初步了解Python 第1章编程基础和字符串 3 1.1 编程与使用计算机的区别 3 1.1.1 编程的一致性 3 1.1.2 编程的可控性 4 1.1.3 程序要应对变化 4 1.1.4 小结 4 1.2 准备工作 4 1.2.1 在非Windows系统上安装 ...

PHP4 HTMLPP-开源: 2. 研究源代码，理解其内部工作机制，以便于自定义和扩展。 3. 加入开源社区，参与讨论，提交 bug 报告或贡献代码。 4. 如果遇到问题，可以在社区中寻求帮助，或者参考已有的解决方案。总的来说，HTMLPP 是 PHP4 ...

TinyYolo2实时视频流物体检测ONNX模型: TinyYolo2实时视频流物体检测ONNX模型运行 ONNX 模型，并结合 OpenCV 进行图像处理。具体流程包括： 1. 加载并初始化 ONNX 模型。 2. 从摄像头捕获实时视频流。 3. 对每一帧图像进行模型推理，生成物体检测结果。 4. 在界面上绘制检测结果的边界框和标签。

chromedriver-linux64-134.0.6998.23(Beta).zip: chromedriver-linux64-134.0.6998.23(Beta).zip

Web开发：ABP框架4-DDD四层架构的详解: Web开发：ABP框架4-DDD四层架构的详解

chromedriver-linux64-135.0.7029.0(Canary).zip: chromedriver-linux64-135.0.7029.0(Canary).zip

（参考项目）MATLAB人脸门禁系统.zip: 实现人脸识别的考勤门禁系统可以分为以下步骤： 1. 采集人脸图像数据集：首先需要采集员工的人脸图像数据集，包括正面、侧面等多个角度的图像。可以使用MATLAB中的图像采集工具或者第三方库进行采集。 2. 预处理人脸图像数据：对采集到的人脸图像数据进行预处理，包括人脸检测、人脸对齐、人脸裁剪等操作。MATLAB提供了相关的图像处理工具箱，可以用于实现这些处理步骤。 3. 特征提取与特征匹配：使用人脸识别算法提取人脸图像的特征，比如使用人脸识别中常用的特征提取算法如Eigenfaces、Fisherfaces或者基于深度学习的算法。然后将员工的人脸数据与数据库中的人脸数据进行匹配，判断是否为注册员工。 4. 考勤记录与门禁控制：如果人脸匹配成功，系统可以记录员工的考勤时间，并且控制门禁系统进行开启。MATLAB可以与外部设备进行通信，实现门禁控制以及考勤记录功能。

rdtyfv、ijij: yugy

企业IT治理体系规划.pptx: 企业IT治理体系规划.pptx

基于Nutz、SSH、SSM的新闻管理系统.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,MATLAB代码：基于多目标粒子群算法冷热电联供综合能源系统运行: 基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,MATLAB代码：基于多目标粒子群算法冷热电联供综合能源系统运行优化关键词：综合能源冷热电三联供粒子群算法多目标优化参考文档：《基于多目标算法的冷热电联供型综合能源系统运行优化》仿真平台：MATLAB 平台采用粒子群实现求解优势：代码注释详实，适合参考学习，非目前烂大街的版本，程序非常精品，请仔细辨识主要内容：代码构建了含冷、热、电负荷的冷热电联供型综合能源系统优化调度模型，考虑了燃气轮机、电制冷机、锅炉以及风光机组等资源，并且考虑与上级电网的购电交易，综合考虑了用户购电购热冷量的成本、CCHP收益以及成本等各种因素，从而实现CCHP系统的经济运行，求解采用的是MOPSO算法（多目标粒子群算法），求解效果极佳，具体可以看图 ,核心关键词：综合能源系统; 冷热电三联供; 粒子群算法; 多目标优化; MOPSO算法; 优化调度模型; 燃气轮机; 电制冷机; 锅炉; 风光机组; 上级电网购售电交易。,基于多目标粒子群算法的CCHP综合

DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发串口通信方案,DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发实现串口通信,DSP28379D串口升: DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发串口通信方案,DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发实现串口通信,DSP28379D串口升级方案单核双核升级，boot升级，串口方案。上位机用c#开发。 ,DSP28379D; 串口升级方案; 单核双核升级; boot升级; 上位机C#开发,DSP28379D串口双核升级方案：Boot串口升级技术使用C#上位机开发

基于ASP.NET MVC+三层架构和EntityFramework的微博门户网站项目.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

基于PLC的双层自动门控制：光电传感触发，有序开关与延时功能实现，附程序、画面及参考文档 ,基于PLC的双层自动门控制系统：精准控制，保障无尘环境；门间联动，智能安防新体验 ,基于plc的双层自动门控: 基于PLC的双层自动门控制：光电传感触发，有序开关与延时功能实现，附程序、画面及参考文档。,基于PLC的双层自动门控制系统：精准控制，保障无尘环境；门间联动，智能安防新体验。,基于plc的双层自动门控制系统，全部采用博途仿真完成，提供程序，画面，参考文档，详情见图。实现功能(详见上方演示视频): ① 某房间要求尽可能地保持无尘，在通道上设置了两道电动门，门1和门2，可通过光电传感器自动完成门的打开和关闭。门1和门2 不能同时打开。 ② 第 1 道门（根据出入方向不同，可能是门 1 或门 2），是由在通道外的开门者通过按开门按钮打开的，而第 2 道门（根据出入方向不同，可能是门 1 或门 2 ）则是在打开的第 1 道门关闭后自动地打开的（也可以由通道内的人按开门按钮来打开第2 道门）。这两道门都是在门开后，经过 3s 的延时而自动关闭的。 ③ 在门关闭期间，如果对应的光电传感器的信号被遮断，则门立即自动打开。如果在门外或者在门内的开门者按对应的开门按钮时，立即打开。 ④ 出于安全方面的考虑，如果在通道内的某个人经过光电传感器时，对应的门已经打开，则通道外的开门者可以不按开门按钮。

黑马程序员Java品达通用权限项目，基于SpringCloud SpringBoot 的微服务框架的权限管理解决方案.zip: 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

DeepSeek+DeepResearch-让科研像聊天一样简单: DeepSeek+DeepResearch——让科研像聊天一样简单（1）DeepSeek如何做数据分析？（2）DeepSeek如何分析文件内容？（3）DeepSeek如何进行数据挖掘？（4）DeepSeek如何进行科学研究？（5）DeepSeek如何写综述？（6）DeepSeek如何进行数据可视化？（7）DeepSeek如何写作润色？（8）DeepSeek如何中英文互译？（9）DeepSeek如何做降重？（10）DeepSeek论文参考文献指令（11）DeepSeek基础知识。

基于springboot+uniapp实现的蛋糕商城小程序.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

jdepend-demo-2.9.1-10.el7.x64-86.rpm.tar.gz: 1、文件内容：jdepend-demo-2.9.1-10.el7.rpm以及相关依赖 2、文件形式：tar.gz压缩包 3、安装指令： #Step1、解压 tar -zxvf /mnt/data/output/jdepend-demo-2.9.1-10.el7.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm 4、更多资源/技术支持：公众号禅静编程坊

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论