资讯抓取总结
1. HtmlParser简介
HtmlParser是一个纯java写的html解析类库,它不依赖其它的java库文件,主要用于改造或提取html,HtmlParser主要靠Node和Tag来表达Html
(1)、Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法
如:对付树型结构进行遍历的函数,这些函数最轻易理解:
Node getParent ():取得父节点
NodeList getChildren ():取得子节点的列表
Node getFirstChild ():取得第一个子节点
Node getLastChild ():取得最后一个子节点
Node getPreviousSibling ():取得前一个兄弟
Node getNextSibling ():取得下一个兄弟节点
取得Node内容的函数:
String getText ():取得文本
String toHtml () :取得HTML信息(原始HTML)
(2)、Tag是具体分析的主要内容,它包含着各种标签实体类;如:BodyTag,Div,FrameSetTag,OptionTag,linkTag,ImageTag,MetaTag等等。
HtmlParser核心类 org.htmlparser.Parser类,这个类实际完成了对于HTML页面的分析工作。
(1)、构造Parser对象,一般有两种方法:
其一、通过url提取网页的内容
Parser parser = new Parser();
parser.setURL("http://www.baidu.com ");
parser.setEncoding("gbk");
其二、提取本地网页文件(通过读文件把网页转换成字符串【httpClient】)
使用静态方法创建Parser对象
Parser parser=Parser.createParser(html,charset);
2. HtmlParser简单例子
public class HtmlParserDemo {
private static Logger logger = Logger.getLogger(HtmlParserDemo.class);
public static void parserTest(){
String content = "";
NodeList list = null;
Parser parser = new Parser();
try {
parser.setURL("http://www.chinachugui.com/news/cgdg/");
parser.setEncoding("gb2312");
/*标签属性过滤*/
NodeList rootList = parser.extractAllNodesThatMatch(new HasAttributeFilter("class","zx_list"));
/*标签类过滤*/
list = rootList.extractAllNodesThatMatch(new NodeClassFilter(Bullet.class), true);
for(int i=0; i<list.size(); i++){
Node[] nodes = ((Bullet)list.elementAt(i)).getChildrenAsNodeArray();
LinkTag link = (LinkTag)nodes[1];
System.out.println(link.getLink());
System.out.println(link.getChild(0).getText());
Span span = (Span)nodes[2];
System.out.println(span.childAt(0).getText());
}
content = list.toHtml().trim();
System.out.println(content);
} catch (ParserException e) {
e.printStackTrace();
logger.debug("", e);
}
另、自定义过滤器
注:所有的过滤器都实现的NodeFilter接口,并重写了accept方法
list = parser.extractAllNodesThatMatch(new NodeFilter() {
public boolean accept(Node node) {
if (node instanceof Div) {
Div div = (Div) node;
String atrr = div.getAttribute("class");
if (atrr != null && atrr.equals("zx_list")){
return true;
}else{
return false;
}
}else{
return false;
}
}
}, true);
采集步骤:
(1)、拿到网站地址及编码创建解析器对象Parser
(2)、选择合适的过滤器过滤
(3)、根据相应的方法得到的内容或修改
3. 了解httpClient基本实现思路
1) HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在很多的项目中,比如 Apache Jakarta 上很著名的另外两个开源项目 Cactus 和 HTMLUnit 都使用了 HttpClient。现在HttpClient最新版本为 HttpClient 4.2 (GA)
2) 我的理解它就是个模拟客户端根据url访问服务器得到服务器返回的数据
3) 实现一般步骤:
1. 创建 HttpClient 的实例
2. 创建某种连接方法的实例,在这里是 GetMethod。在 GetMethod 的构造函数中传入待连接的地址
3. 调用第一步中创建好的实例的executeMethod方法来执行第二步中创建好的 method 实例
4. 读 response
5. 释放连接。无论执行方法是否成功,都必须释放连接
6. 对得到后的内容进行处理
简单例子:
public class HttpClientDemo {
public static void main(String[] args){
String url = "http://www.baidu.com/";
HttpClient client = new HttpClient();
GetMethod method = new GetMethod(url);
/*为什么必须设置Accept-Encoding 才能拿到 content-Encoding的值*/
/*设置了Accept-Encoding为下面值是如果不进行gizp解就会乱码,如果不设置则不会乱码,(是不是所有请求只要不设置都不会乱码)*/
//method.setRequestHeader("Accept-Encoding", "gzip, deflate");
try {
client.executeMethod(method);
System.out.println(client.executeMethod(method));
/*拿到所有响应头部信息*/
Header[] headers = method.getResponseHeaders();
for(int i=0; i<headers.length; i++){
System.out.println(headers[i].getName() +"-----" + headers[i].getValue());
}
/*获得响应的体*/
System.out.println(method.getResponseBodyAsString());
} catch (Exception e) {
e.printStackTrace();
}finally{
/*释放连接*/
method.releaseConnection();
}
}
}
gizp解压:
if (er == 200) {
String html = null;
Header hd = getMethod.getResponseHeader("Content-Encoding");
if(hd != null && hd.getValue().toLowerCase().indexOf("gzip") > -1) {
StringBuffer sb = new StringBuffer();
logger.debug("acceptEncoding:" + hd.getValue());
// 建立gzip解压工作流
InputStream is = getMethod.getResponseBodyAsStream();
GZIPInputStream gzin = new GZIPInputStream(is);
InputStreamReader isr = new InputStreamReader(gzin, charset); // 设置读取流的编码格式,自定义编码
java.io.BufferedReader br = new java.io.BufferedReader(isr);
String tempbf;
while ((tempbf = br.readLine()) != null) {
sb.append(tempbf);
sb.append("\r\n");
}
isr.close();
gzin.close();
html = sb.toString();
} else {
html = getMethod.getResponseBodyAsString();
}
return html;
} else { }
4. 了解线程池概念
(1)、为什么要使用线程池?
其一、减少创建和销毁线程的次数,每个工作线程都可以被重复利用可以执行多个任务。
其二、可以根据系统的承受能力,调整线程池中工作线程的数目,防止因为消耗过多内存而把服务器累趴下
(2)、java从java1.5之后,java提供了自带的线程池ThreadPoolExecutor类
(3)、工作线程和核心线程的区别:
核心线程:我们自己定义的线程,即实现Runnable接口的类,是我们将要放到线程池中执行的类。
工作线程:由线程池中创建的线程,是用来获得核心线程并执行的核心线程的线程。
(4)、java.util.concurrent包提供了现成的线程池实现
Executor接口表示线程池,它的execute(Runnable task)方法来执行Runable类型的任务
ExecutorService中声明了管理线程池的一些方法,比如:shutdown()关闭线程池isTerminated()关闭后任务是否都以完成
Executors类中包含了一些静态方法用于创建ExecutorService实例
ThreadPoolExecutor ExecuteService默认实现
Executor
<interface>
execute()
Executors
newCachedThreadPool() :
newFixedThreadPool(int nThread)
newSingleThreadExecutor()
newScheduledThreadPool()
ExecutorService
<interface>
shutdown()
isTerminated()
ThreadPoolExecutor
int corePoolSize
int maximumPoolSize
long keepAliveTime
TimeUnit unit
BlockingQueue<Runnable> workQueue
例子:
public class ThreadPoolDemo {
public void Test(){
/*创建一个可根据需要创建新线程的线程池,但是在以前构造的线程可用时将重用它们。*/
ExecutorService pool = Executors.newCachedThreadPool();
/*创建实现了runnable接口的对象*/
Thread t1 = new Thread(new MyThread());
Thread t2 = new Thread(new MyThread());
Thread t3 = new Thread(new MyThread());
Thread t4 = new Thread(new MyThread());
Thread t5 = new Thread(new MyThread());
/*将线程放入池中进行执行*/
pool.execute(t1);
pool.execute(t2);
pool.execute(t3);
pool.execute(t4);
pool.execute(t5);
/*关闭线程池*/
pool.shutdown();
}
class MyThread implements Runnable{
@Override
public void run() { System.out.println(Thread.currentThread().getName() + "is Running...");
}
}
public static void main(String[] args){
new ThreadPoolDemo().Test();
}
}
执行结果:
pool-1-thread-1is Running...!
pool-1-thread-3is Running...!
pool-1-thread-5is Running...!
pool-1-thread-2is Running...!
pool-1-thread-4is Running...!
小结:
(1)、创建核心线程任务
(2)、根据需要创建合适的线程池实例
(3)、将核心线程任务execute给线程池
分享到:
相关推荐
那些年,与你同分同位次的同学都去了哪里?全国各大学在辽宁2020-2024年各专业最低录取分数及录取位次数据,高考志愿必备参考数据
下单系统的Spnigboot和微信小程序实现(全栈微信小程式下单)
该项目是一款基于Java的智能文件管家设计源码,涵盖102个文件,包括29个Java源文件、27个类文件、19个XML配置文件、10个YAML文件、8个列表文件、4个属性文件、4个JAR包文件以及1个Git忽略文件。该系统旨在提供高效便捷的文件管理解决方案。
基于YoloV8的简单目标检测和跟踪,使用KMNET进行鼠标移动(处理多目标移动抖动,处理鼠标平滑移动)
本项目是一款基于Vue和JavaScript开发的心旅途个性化推荐旅游平台设计源码,整合了513个Java文件、76个PNG图片、70个XML配置文件、62个JavaScript文件、42个Vue组件文件、28个CSS样式文件、22个HTML文件、18个YAML配置文件、16个属性文件、11个Vue模板文件,总计919个文件。平台采用现代化前端技术堆栈,旨在为用户提供个性化的旅游推荐服务。
AutoLine是一个基于Python的通用自动化测试开源平台,包含了657个文件,涵盖228个PNG图片、209个CSS样式、95个JavaScript脚本、39个Python源代码、21个HTML文件、19个XML文件、14个GIF图片、6个DS_Store文件、5个文本文件、4个Markdown文件。该平台的设计源码由多种编程语言编写,旨在提供灵活高效的自动化测试解决方案。
微信小程序图像裁剪工具_ e-cropper
【作品名称】:基于MATLAB的答题卡识别系统。带一个GUI可视化界面,通过输入答题卡旋转校正,边缘检测,霍夫曼变换检测答题卡填涂区域 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】: 传统的阅卷方式为流水线的手工作业方式。这样的方式存在很多的问题,因为很容易受到阅卷者的主观因素的影响,从而产生一定的偏差。所以很多人就讨论如何将人为的因素降低到最低,来确保考生的考试成绩的公平公正和准确。 基于MATLAB的答题卡识别系统。带一个GUI可视化界面,通过输入答题卡旋转校正,边缘检测,霍夫曼变换检测答题卡填涂区域,分割,识别属于ABCD等,通过和实现设置好的标准答案excel对比,从而得出最终分数 【资源声明】:本资源作为“参考资料”而不是“定制需求”,代码只能作为参考,不能完全复制照搬。需要有一定的基础能够看懂代码,能够自行调试代码并解决报错,能够自行添加功能修改代码。
那些年,与你同分同位次的同学都去了哪里?全国各大学在辽宁2020-2024年各专业最低录取分数及录取位次数据,高考志愿必备参考数据
本项目深入解析并实现了基于Java核心技术的Nacos配置中心,包含2707个文件,涵盖2180个Java源文件、177个JavaScript文件、52个XML文件、35个SCSS文件、22个PEM文件、20个属性文件、18个Markdown文件、16个Protocol Buffers文件、12个JSON文件、11个字体文件。项目涉及多种语言和技术,旨在提供一个全面的配置中心解决方案。
枝晶生长Comsol仿真模型。 锂枝晶生长过程的 枝晶生长Comsol仿真模型。 锂枝晶生长过程的枝晶形貌,温度场耦合,应力场,浓度场,电势场。 C++程序,基于元胞自动机法模拟枝晶生长,能实现任意角度(偏心正方算法),同时采用LBM考虑了对流作用对枝晶生长的影响
本项目为apple_pro客户关系管理系统的组件化开发源码,采用Python、CSS、HTML和JavaScript等多种语言编写,总计包含1078个文件。其中,Python源文件254个,Python编译后文件244个,CSS样式文件65个,HTML模板61个,JavaScript脚本40个,以及其他类型文件如LESS、SCSS、XML、PNG等。该系统通过组件化设计,旨在提升客户关系管理的效率与用户体验。
微信小程序日历插件_Calendar
那些年,与你同分同位次的同学都去了哪里?全国各大学在辽宁2020-2024年各专业最低录取分数及录取位次数据,高考志愿必备参考数据
另一个小型购物中心。Litemall=Spring Boot后端+Vue管理员前端+微信小程序用户前端+Vue用户移动端_stemall
该项目为基于GitHub的ESPnet语音处理工具包设计源码,包含10633个文件,涵盖Shell脚本、Python、MATLAB、C++等多种编程语言。文件类型包括2872个shell脚本、2303个YAML配置文件、1662个Python脚本、1567个配置文件、306个Markdown文件、223个Perl脚本、39个文本文件、35个Bash脚本、27个PNG图片、21个补丁文件。该项目定期更新,适用于语音处理领域的研究与开发。
该项目是一款基于Python开发的pyecharts可视化图表库源码,包含166个文件,涵盖了121个Python源文件、12个HTML文件、9个JSON文件、6个PNG图片文件、4个Markdown文件、3个文本文件、2个YAML文件以及少量配置和管理文件。该库旨在提供强大的数据可视化解决方案,适用于各种数据分析与展示需求。
STM32软件学习资料GPS与GPRSSTM32软件学习资料GPS与GPRS
那些年,与你同分同位次的同学都去了哪里?全国各大学在辽宁2020-2024年各专业最低录取分数及录取位次数据,高考志愿必备参考数据
那些年,与你同分同位次的同学都去了哪里?全国各大学在辽宁2020-2024年各专业最低录取分数及录取位次数据,高考志愿必备参考数据