昨天晚上完成了网页的下载,暂时不用和heritrix打交道了,有空我要好好研究下它的代码,现在没那么多时间。
今天对htmlparser有了初步了解,并自己写了一个简单的可以提取出网页中图片的url的小程序
package test;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class Extractor {
private String outputPath;
private String inputPath;
private Parser parse;
public String getOutputPath() {
return outputPath;
}
public void setOutputPath(String outputPath) {
this.outputPath = outputPath;
}
public String getInputPath() {
return inputPath;
}
public void setInputPath(String inputPath) {
this.inputPath = inputPath;
}
public Parser getParse() {
return parse;
}
public void setParse(Parser parse) {
this.parse = parse;
}
public static void main(String args[]) {
Extractor ex = new Extractor();
ex.setInputPath("F:/Workspaces/MyEclipse 7.1/test/src/test/index.html");
ex.setOutputPath("F:/Workspaces/MyEclipse 7.1/test/src/test/");
try {
ex.setParse(new Parser("F:/Workspaces/MyEclipse 7.1/test/src/test/index.html"));
ex.extract();
} catch (ParserException e) {
e.printStackTrace();
}
}
public void extract(){
NodeFilter pic_filter = new AndFilter(new TagNameFilter("td"),
new HasAttributeFilter("class", "series_sy_intro_pic"));
NodeFilter Attribute_filter = new AndFilter(new TagNameFilter("td"),
new AndFilter(new HasAttributeFilter("class", "bor1_c1"),
new HasAttributeFilter("style", "padding:5px;")));
try {
this.getParse().setEncoding("gb2312");
NodeList pic_nodes =this.getParse().parse(pic_filter);
System.out.println("a");
TableColumn tc = (TableColumn) pic_nodes.elementAt(0);
ImageTag it = (ImageTag)(tc.childAt(1).getChildren().elementAt(0));
String imgURL = it.getImageURL();
System.out.println(imgURL);
BufferedWriter bw = new BufferedWriter(new FileWriter(new File(this.getOutputPath()+"aa.txt")));
bw.write(imgURL);
bw.flush();
// for(int i=0;i<pic_nodes.size();i++){
//
// }
// NodeList atr_nodes = this.getParse().parse(Attribute_filter);
//
} catch (ParserException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
过节,休息下,明天继续..
分享到:
相关推荐
parser = etree.HTMLParser() tree = etree.fromstring(response.text, parser) # 提取数据 title = tree.xpath('//title/text()')[0] # 增加随机延迟 time.sleep(random.uniform(1, 3)) # 存储数据 ...
python学习资源
jfinal-undertow 用于开发、部署由 jfinal 开发的 web 项目
基于Andorid的音乐播放器项目设计(国外开源)实现源码,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。
python学习资源
python学习资源
python学习一些项目和资源
【毕业设计】java-springboot+vue家具销售平台实现源码(完整前后端+mysql+说明文档+LunW).zip
HTML+CSS+JavaScarip开发的前端网页源代码
python学习资源
【毕业设计】java-springboot-vue健身房信息管理系统源码(完整前后端+mysql+说明文档+LunW).zip
成绩管理系统C/Go。大学生期末小作业,指针实现,C语言版本(ANSI C)和Go语言版本
1_基于大数据的智能菜品个性化推荐与点餐系统的设计与实现.docx
【毕业设计】java-springboot-vue交流互动平台实现源码(完整前后端+mysql+说明文档+LunW).zip
内容概要:本文主要探讨了在高并发情况下如何设计并优化火车票秒杀系统,确保系统的高性能与稳定性。通过对比分析三种库存管理模式(下单减库存、支付减库存、预扣库存),强调了预扣库存结合本地缓存及远程Redis统一库存的优势,同时介绍了如何利用Nginx的加权轮询策略、MQ消息队列异步处理等方式降低系统压力,保障交易完整性和数据一致性,防止超卖现象。 适用人群:具有一定互联网应用开发经验的研发人员和技术管理人员。 使用场景及目标:适用于电商、票务等行业需要处理大量瞬时并发请求的业务场景。其目标在于通过合理的架构规划,实现在高峰期保持平台的稳定运行,保证用户体验的同时最大化销售额。 其他说明:文中提及的技术细节如Epoll I/O多路复用模型以及分布式系统中的容错措施等内容,对于深入理解大规模并发系统的构建有着重要指导意义。
基于 OpenCV 和 PyTorch 的深度车牌识别
【毕业设计-java】springboot-vue教学资料管理系统实现源码(完整前后端+mysql+说明文档+LunW).zip
此数据集包含有关出租车行程的详细信息,包括乘客人数、行程距离、付款类型、车费金额和行程时长。它可用于各种数据分析和机器学习应用程序,例如票价预测和乘车模式分析。
把代码放到Word中,通过开发工具——Visual Basic——插入模块,粘贴在里在,把在硅基流动中申请的API放到VBA代码中。在Word中,选择一个问题,运行这个DeepSeekV3的宏就可以实现在线问答
【毕业设计】java-springboot+vue机动车号牌管理系统实现源码(完整前后端+mysql+说明文档+LunW).zip