htmlparser初体验

fffddgx

浏览: 39149 次
性别:
来自: 济南

最近访客更多访客>>

yanghongfeng8888

moyan254

chensl

ceshi002

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎

Myeclipse F#HTML

昨天晚上完成了网页的下载，暂时不用和heritrix打交道了，有空我要好好研究下它的代码，现在没那么多时间。

今天对htmlparser有了初步了解，并自己写了一个简单的可以提取出网页中图片的url的小程序

package test;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public  class Extractor {
	private String outputPath;

	private String inputPath;

	private Parser parse;

	public String getOutputPath() {
		return outputPath;
	}

	public void setOutputPath(String outputPath) {
		this.outputPath = outputPath;
	}

	public String getInputPath() {
		return inputPath;
	}

	public void setInputPath(String inputPath) {
		this.inputPath = inputPath;
	}

	public Parser getParse() {
		return parse;
	}

	public void setParse(Parser parse) {
		this.parse = parse;
	}

	public static void main(String args[]) {
		Extractor ex = new Extractor();
		ex.setInputPath("F:/Workspaces/MyEclipse 7.1/test/src/test/index.html");
		ex.setOutputPath("F:/Workspaces/MyEclipse 7.1/test/src/test/");
		try {
			ex.setParse(new Parser("F:/Workspaces/MyEclipse 7.1/test/src/test/index.html"));
			ex.extract();
		} catch (ParserException e) {
			e.printStackTrace();
		}
	}
	
	public void extract(){
		NodeFilter pic_filter = new AndFilter(new TagNameFilter("td"),
				new HasAttributeFilter("class", "series_sy_intro_pic"));

		NodeFilter Attribute_filter = new AndFilter(new TagNameFilter("td"),
				new AndFilter(new HasAttributeFilter("class", "bor1_c1"),
						new HasAttributeFilter("style", "padding:5px;")));
		try {
			this.getParse().setEncoding("gb2312");
			NodeList pic_nodes =this.getParse().parse(pic_filter);
			System.out.println("a");
			TableColumn tc = (TableColumn) pic_nodes.elementAt(0);
			
			ImageTag it = (ImageTag)(tc.childAt(1).getChildren().elementAt(0));
			String imgURL = it.getImageURL();
System.out.println(imgURL);
			BufferedWriter bw = new BufferedWriter(new FileWriter(new File(this.getOutputPath()+"aa.txt")));
			bw.write(imgURL);
			bw.flush();
			
//			for(int i=0;i<pic_nodes.size();i++){
//				
//			}
//			NodeList atr_nodes = this.getParse().parse(Attribute_filter);
//			
		} catch (ParserException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

过节，休息下，明天继续..

分享到：

htmlparser使用经验总结，与网页提取 | heritrix使用经验

2009-05-02 23:32
浏览 1988
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

12行简单的Python代码,初窥爬虫的秘境.docx: parser = etree.HTMLParser() tree = etree.fromstring(response.text, parser) # 提取数据 title = tree.xpath('//title/text()')[0] # 增加随机延迟 time.sleep(random.uniform(1, 3)) # 存储数据 ...

spring-ai-bedrock-converse-1.0.0-M7.jar中文文档.zip: # 【spring-ai-bedrock-converse-1.0.0-M7.jar中文文档.zip】中包含：中文文档：【spring-ai-bedrock-converse-1.0.0-M7-javadoc-API文档-中文(简体)版.zip】 jar包下载地址：【spring-ai-bedrock-converse-1.0.0-M7.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖：【spring-ai-bedrock-converse-1.0.0-M7.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖：【spring-ai-bedrock-converse-1.0.0-M7.jar Gradle依赖信息(可用于项目build.gradle).txt】源代码下载地址：【spring-ai-bedrock-converse-1.0.0-M7-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字： spring-ai-bedrock-converse-1.0.0-M7.jar中文文档.zip,java,spring-ai-bedrock-converse-1.0.0-M7.jar,org.springframework.ai,spring-ai-bedrock-converse,1.0.0-M7,org.springframework.ai.bedrock.converse,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,springframework,spring,ai,bedrock,converse,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压【spring-ai-bedrock-converse-1

房地产 -可视化管理课件.ppt: 房地产 -可视化管理课件.ppt

tokenizers-0.18.0.jar中文-英文对照文档.zip: # 【tokenizers-***.jar***文档.zip】中包含： ***文档：【tokenizers-***-javadoc-API文档-中文(简体)版.zip】 jar包下载地址：【tokenizers-***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖：【tokenizers-***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖：【tokenizers-***.jar Gradle依赖信息(可用于项目build.gradle).txt】源代码下载地址：【tokenizers-***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字： tokenizers-***.jar***文档.zip,java,tokenizers-***.jar,ai.djl.huggingface,tokenizers,***,ai.djl.engine.rust,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,djl,huggingface,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压【tokenizers-***.jar***文档.zip】，再解压其中的【tokenizers-***-javadoc-API文档-中文(简体)版.zip】，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件； # Maven依赖： ``` <dependency> <groupId>ai.djl.huggingface</groupId> <artifactId>tokenizers</artifactId> <version>***</version> </dependency> ``` # Gradle依赖： ``` Gradle: implementation group: 'ai.djl.huggingface', name: 'tokenizers', version: '***' Gradle (Short): implementation 'ai.djl.huggingface:tokenizers:***' Gradle (Kotlin): implementation("ai.djl.huggingface:tokenizers:***") ``` # 含有的 Java package（包）： ``` ai.djl.engine.rust ai.djl.engine.rust.zoo ai.djl.huggingface.tokenizers ai.djl.huggingface.tokenizers.jni ai.djl.huggingface.translator ai.djl.huggingface.zoo ``` # 含有的 Java class（类）： ``` ai.djl.engine.rust.RsEngine ai.djl.engine.rust.RsEngineProvider ai.djl.engine.rust.RsModel ai.djl.engine.rust.RsNDArray ai.djl.engine.rust.RsNDArrayEx ai.djl.engine.rust.RsNDArrayIndexer ai.djl.engine.rust.RsNDManager ai.djl.engine.rust.RsSymbolBlock ai.djl.engine.rust.RustLibrary ai.djl.engine.rust.zoo.RsModelZoo ai.djl.engine.rust.zoo.RsZooProvider ai.djl.huggingface.tokenizers.Encoding ai.djl.huggingface.tokenizers.HuggingFaceTokenizer ai.djl.huggingface.tokenizers.HuggingFaceTokenizer.Builder ai.djl.hu

基于MATLAB的BP神经网络预测模型构建与应用: 内容概要：本文详细介绍了如何使用MATLAB构建和应用BP神经网络预测模型。首先，通过读取Excel数据并进行预处理，如归一化处理，确保数据的一致性和有效性。接着，配置网络结构，选择合适的训练算法（如SCG），设置训练参数（如最大迭代次数、目标误差等）。然后，进行模型训练，并通过可视化窗口实时监控训练过程。训练完成后，利用测试集评估模型性能，计算均方误差（MSE）和相关系数（R²），并通过图表展示预测效果。最后，将训练好的模型保存以便后续调用，并提供了一个简单的预测函数，确保新数据能够正确地进行归一化和预测。适合人群：具有一定MATLAB基础，从事数据分析、机器学习领域的研究人员和技术人员。使用场景及目标：适用于需要对多维数据进行预测的任务，如电力负荷预测、金融数据分析等。主要目标是帮助用户快速搭建一个可用的BP神经网络预测系统，提高预测准确性。其他说明：文中提供了完整的代码框架和详细的注释，便于理解和修改。同时，强调了数据预处理的重要性以及一些常见的注意事项，如数据量的要求、归一化的必要性等。

tokenizers-0.22.1.jar中文-英文对照文档.zip: # 【tokenizers-***.jar***文档.zip】中包含： ***文档：【tokenizers-***-javadoc-API文档-中文(简体)版.zip】 jar包下载地址：【tokenizers-***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖：【tokenizers-***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖：【tokenizers-***.jar Gradle依赖信息(可用于项目build.gradle).txt】源代码下载地址：【tokenizers-***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字： tokenizers-***.jar***文档.zip,java,tokenizers-***.jar,ai.djl.huggingface,tokenizers,***,ai.djl.engine.rust,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,djl,huggingface,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压【tokenizers-***.jar***文档.zip】，再解压其中的【tokenizers-***-javadoc-API文档-中文(简体)版.zip】，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件； # Maven依赖： ``` <dependency> <groupId>ai.djl.huggingface</groupId> <artifactId>tokenizers</artifactId> <version>***</version> </dependency> ``` # Gradle依赖： ``` Gradle: implementation group: 'ai.djl.huggingface', name: 'tokenizers', version: '***' Gradle (Short): implementation 'ai.djl.huggingface:tokenizers:***' Gradle (Kotlin): implementation("ai.djl.huggingface:tokenizers:***") ``` # 含有的 Java package（包）： ``` ai.djl.engine.rust ai.djl.engine.rust.zoo ai.djl.huggingface.tokenizers ai.djl.huggingface.tokenizers.jni ai.djl.huggingface.translator ai.djl.huggingface.zoo ``` # 含有的 Java class（类）： ``` ai.djl.engine.rust.RsEngine ai.djl.engine.rust.RsEngineProvider ai.djl.engine.rust.RsModel ai.djl.engine.rust.RsNDArray ai.djl.engine.rust.RsNDArrayEx ai.djl.engine.rust.RsNDArrayIndexer ai.djl.engine.rust.RsNDManager ai.djl.engine.rust.RsSymbolBlock ai.djl.engine.rust.RustLibrary ai.djl.engine.rust.zoo.RsModelZoo ai.djl.engine.rust.zoo.RsZooProvider ai.djl.huggingface.tokenizers.Encoding ai.djl.huggingface.tokenizers.HuggingFaceTokenizer ai.djl.huggingface.tokenizers.HuggingFaceTokenizer.Builder ai.djl.hu

基于蒙特卡洛算法的电动汽车对IEEE 33节点电网影响的研究及应用场景分析: 内容概要：本文探讨了电动汽车（EV）对IEEE 33节点电网的影响，特别是汽车负荷预测与节点潮流网损、压损计算。通过蒙特卡洛算法模拟电动汽车负荷的时空特性，研究了四种不同场景下电动汽车接入电网的影响。具体包括：负荷接入前后的网损与电压计算、不同节点接入时的变化、不同时段充电的影响以及不同负荷大小对电网的影响。通过这些分析，揭示了电动汽车充电行为对电网的具体影响机制，为未来的电网规划和优化提供了重要参考。适合人群：从事电力系统研究的专业人士、电网规划工程师、电动汽车行业从业者、能源政策制定者。使用场景及目标：①评估电动汽车大规模接入对现有电网基础设施的压力；②优化电动汽车充电设施的布局和运营策略；③为相关政策和技术标准的制定提供科学依据。其他说明：文中提供的Python代码片段用于辅助理解和验证理论分析，实际应用中需要更复杂的模型和详细的电网参数。

房地产 -【万科经典-第五园】第五园产品推介会.ppt: 房地产 -【万科经典-第五园】第五园产品推介会.ppt

稳压器件.SchLib: 稳压器件.SchLib

1.jpg: 1

模拟符号.SCHLIB: 模拟符号.SCHLIB

基于Simulink的三相电压型逆变器SPWM与电压单闭环控制仿真: 内容概要：本文详细介绍了如何在Simulink中构建并仿真三相电压型逆变器的SPWM调制和电压单闭环控制系统。首先，搭建了由六个IGBT组成的三相全桥逆变电路，并设置了LC滤波器和1000V直流电源。接着，利用PWM Generator模块生成SPWM波形，设置载波频率为2kHz，调制波为50Hz工频正弦波。为了实现精确的电压控制，采用了abc/dq变换将三相电压信号转换到旋转坐标系，并通过锁相环（PLL）进行同步角度跟踪。电压闭环控制使用了带有抗饱和处理的PI调节器，确保输出电压稳定。此外，文中还讨论了标幺值处理方法及其优势，以及如何通过FFT分析验证输出波形的质量。适用人群：电力电子工程师、自动化控制专业学生、从事逆变器研究的技术人员。使用场景及目标：适用于希望深入了解三相电压型逆变器控制原理和技术实现的研究人员和工程师。主要目标是掌握SPWM调制技术和电压单闭环控制的设计与调试方法，提高系统的稳定性和效率。其他说明：文中提供了详细的建模步骤和参数设置指南，帮助读者快速上手并在实践中不断优化模型性能。同时，强调了一些常见的调试技巧和注意事项，如载波频率的选择、积分器防饱和处理等。

【蓝桥杯EDA】客观题解析：第十三届立创EDA出品省赛模拟题一.pdf: 【蓝桥杯EDA】客观题解析

房地产 -物业苏州设备房管理标准.ppt: 房地产 -物业苏州设备房管理标准.ppt

3.png: 3

房地产 -2024H1房地产市场总结与展望（新房篇）.docx: 房地产 -2024H1房地产市场总结与展望（新房篇）.docx

LabVIEW与PLC基于TCP协议的自动化数据交互解决方案: 内容概要：本文详细介绍了利用LabVIEW与PLC进行自动化数据交互的技术方案，涵盖参数管理、TCP通信、串口扫描、数据转移等方面。首先，通过配置文件(INI)实现参数的自动加载与保存，确保参数修改不影响程序运行。其次，在TCP通信方面采用异步模式和心跳包设计，增强通信稳定性，并加入CRC16校验避免数据丢失。对于串口扫描，则通过VISA配置实现状态触发，确保进出站检测的准确性。最后，针对不同类型的数据转移提出具体方法，如TDMS文件存储策略，确保高效可靠的数据处理。适合人群：从事工业自动化领域的工程师和技术人员，尤其是熟悉LabVIEW和PLC编程的从业者。使用场景及目标：适用于需要将LabVIEW作为上位机与PLC进行数据交互的工业生产线环境，旨在提高系统的自动化程度、稳定性和易维护性。其他说明：文中提供了多个实用代码片段和注意事项，帮助读者更好地理解和应用相关技术。

d65689da7ed20e21882a634f8f5ce6c9_faad2735d293907fb32f7c5837f7302a.png: d65689da7ed20e21882a634f8f5ce6c9_faad2735d293907fb32f7c5837f7302a

信息安全管理和技术的综合练习题集（NISP&CISP）: 内容概要：本文档《NISP&CISP考试题库.pdf》汇集了大量关于信息安全专业领域的练习题，涵盖风险评估、安全策略、访问控制、恶意代码防范、加密技术、安全模型等多个方面。文档通过选择题的形式探讨了信息安全保障、风险管理和技术实施等核心内容，强调了信息安全保障的动态性和持续性，以及信息安全管理体系（ISMS）的重要性。文档还详细介绍了多种安全技术和标准，如ISO27001、GB/T 22080、SSE-CMM、CC标准等，并通过具体案例和场景分析，帮助读者理解如何在实际环境中应用这些标准和技术。适用人群：文档适用于信息安全领域的从业者，尤其是准备参加NISP（国家信息安全水平考试）和CISP（注册信息安全专业人员）认证考试的考生，以及从事信息安全管理工作、对信息安全有兴趣的技术人员。使用场景及目标：①帮助考生系统复习信息安全领域的基础知识和技能，为考试做准备；②为企业内部信息安全培训提供参考资料；③加深信息安全从业人员对安全标准和技术的理解，提升其在实际工作中的应用能力；④帮助信息安全管理者了解如何构建和维护有效的信息安全管理体系。其他说明：文档不仅提供了理论知识，还结合了实际案例，有助于读者理解信息安全的复杂性和多样性。文档强调了信息安全的多层次、多维度特性，指出信息安全不仅依赖于技术手段，还需要结合管理措施和人员培训。此外，文档中的题目设计贴近实际工作场景，能够有效提升读者应对信息安全挑战的能力。

3dmax插件K_Tools.v2.6.ms: 3dmax插件K_Tools.v2.6

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

htmlparser初体验

评论

发表评论

相关推荐

毕业设计总结

搜索提示功能实现

lucene关键字高亮显示

lucene整合struts2，搜索引擎的初步实现

lucene索引

htmlparser使用经验总结，与网页提取

heritrix使用经验

heritrix多线程探索

heritrix扩展，多线程抓取网页

爬虫问题

heritrix种子选取，与扩展抓取

毕设进行时--第1天(垂直搜索引擎的设计与实现)

最近访客更多访客>>