资讯抓取总结
1. HtmlParser简介
HtmlParser是一个纯java写的html解析类库,它不依赖其它的java库文件,主要用于改造或提取html,HtmlParser主要靠Node和Tag来表达Html
(1)、Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法
如:对付树型结构进行遍历的函数,这些函数最轻易理解:
Node getParent ():取得父节点
NodeList getChildren ():取得子节点的列表
Node getFirstChild ():取得第一个子节点
Node getLastChild ():取得最后一个子节点
Node getPreviousSibling ():取得前一个兄弟
Node getNextSibling ():取得下一个兄弟节点
取得Node内容的函数:
String getText ():取得文本
String toHtml () :取得HTML信息(原始HTML)
(2)、Tag是具体分析的主要内容,它包含着各种标签实体类;如:BodyTag,Div,FrameSetTag,OptionTag,linkTag,ImageTag,MetaTag等等。
HtmlParser核心类 org.htmlparser.Parser类,这个类实际完成了对于HTML页面的分析工作。
(1)、构造Parser对象,一般有两种方法:
其一、通过url提取网页的内容
Parser parser = new Parser();
parser.setURL("http://www.baidu.com ");
parser.setEncoding("gbk");
其二、提取本地网页文件(通过读文件把网页转换成字符串【httpClient】)
使用静态方法创建Parser对象
Parser parser=Parser.createParser(html,charset);
2. HtmlParser简单例子
public class HtmlParserDemo {
private static Logger logger = Logger.getLogger(HtmlParserDemo.class);
public static void parserTest(){
String content = "";
NodeList list = null;
Parser parser = new Parser();
try {
parser.setURL("http://www.chinachugui.com/news/cgdg/");
parser.setEncoding("gb2312");
/*标签属性过滤*/
NodeList rootList = parser.extractAllNodesThatMatch(new HasAttributeFilter("class","zx_list"));
/*标签类过滤*/
list = rootList.extractAllNodesThatMatch(new NodeClassFilter(Bullet.class), true);
for(int i=0; i<list.size(); i++){
Node[] nodes = ((Bullet)list.elementAt(i)).getChildrenAsNodeArray();
LinkTag link = (LinkTag)nodes[1];
System.out.println(link.getLink());
System.out.println(link.getChild(0).getText());
Span span = (Span)nodes[2];
System.out.println(span.childAt(0).getText());
}
content = list.toHtml().trim();
System.out.println(content);
} catch (ParserException e) {
e.printStackTrace();
logger.debug("", e);
}
另、自定义过滤器
注:所有的过滤器都实现的NodeFilter接口,并重写了accept方法
list = parser.extractAllNodesThatMatch(new NodeFilter() {
public boolean accept(Node node) {
if (node instanceof Div) {
Div div = (Div) node;
String atrr = div.getAttribute("class");
if (atrr != null && atrr.equals("zx_list")){
return true;
}else{
return false;
}
}else{
return false;
}
}
}, true);
采集步骤:
(1)、拿到网站地址及编码创建解析器对象Parser
(2)、选择合适的过滤器过滤
(3)、根据相应的方法得到的内容或修改
3. 了解httpClient基本实现思路
1) HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在很多的项目中,比如 Apache Jakarta 上很著名的另外两个开源项目 Cactus 和 HTMLUnit 都使用了 HttpClient。现在HttpClient最新版本为 HttpClient 4.2 (GA)
2) 我的理解它就是个模拟客户端根据url访问服务器得到服务器返回的数据
3) 实现一般步骤:
1. 创建 HttpClient 的实例
2. 创建某种连接方法的实例,在这里是 GetMethod。在 GetMethod 的构造函数中传入待连接的地址
3. 调用第一步中创建好的实例的executeMethod方法来执行第二步中创建好的 method 实例
4. 读 response
5. 释放连接。无论执行方法是否成功,都必须释放连接
6. 对得到后的内容进行处理
简单例子:
public class HttpClientDemo {
public static void main(String[] args){
String url = "http://www.baidu.com/";
HttpClient client = new HttpClient();
GetMethod method = new GetMethod(url);
/*为什么必须设置Accept-Encoding 才能拿到 content-Encoding的值*/
/*设置了Accept-Encoding为下面值是如果不进行gizp解就会乱码,如果不设置则不会乱码,(是不是所有请求只要不设置都不会乱码)*/
//method.setRequestHeader("Accept-Encoding", "gzip, deflate");
try {
client.executeMethod(method);
System.out.println(client.executeMethod(method));
/*拿到所有响应头部信息*/
Header[] headers = method.getResponseHeaders();
for(int i=0; i<headers.length; i++){
System.out.println(headers[i].getName() +"-----" + headers[i].getValue());
}
/*获得响应的体*/
System.out.println(method.getResponseBodyAsString());
} catch (Exception e) {
e.printStackTrace();
}finally{
/*释放连接*/
method.releaseConnection();
}
}
}
gizp解压:
if (er == 200) {
String html = null;
Header hd = getMethod.getResponseHeader("Content-Encoding");
if(hd != null && hd.getValue().toLowerCase().indexOf("gzip") > -1) {
StringBuffer sb = new StringBuffer();
logger.debug("acceptEncoding:" + hd.getValue());
// 建立gzip解压工作流
InputStream is = getMethod.getResponseBodyAsStream();
GZIPInputStream gzin = new GZIPInputStream(is);
InputStreamReader isr = new InputStreamReader(gzin, charset); // 设置读取流的编码格式,自定义编码
java.io.BufferedReader br = new java.io.BufferedReader(isr);
String tempbf;
while ((tempbf = br.readLine()) != null) {
sb.append(tempbf);
sb.append("\r\n");
}
isr.close();
gzin.close();
html = sb.toString();
} else {
html = getMethod.getResponseBodyAsString();
}
return html;
} else { }
4. 了解线程池概念
(1)、为什么要使用线程池?
其一、减少创建和销毁线程的次数,每个工作线程都可以被重复利用可以执行多个任务。
其二、可以根据系统的承受能力,调整线程池中工作线程的数目,防止因为消耗过多内存而把服务器累趴下
(2)、java从java1.5之后,java提供了自带的线程池ThreadPoolExecutor类
(3)、工作线程和核心线程的区别:
核心线程:我们自己定义的线程,即实现Runnable接口的类,是我们将要放到线程池中执行的类。
工作线程:由线程池中创建的线程,是用来获得核心线程并执行的核心线程的线程。
(4)、java.util.concurrent包提供了现成的线程池实现
Executor接口表示线程池,它的execute(Runnable task)方法来执行Runable类型的任务
ExecutorService中声明了管理线程池的一些方法,比如:shutdown()关闭线程池isTerminated()关闭后任务是否都以完成
Executors类中包含了一些静态方法用于创建ExecutorService实例
ThreadPoolExecutor ExecuteService默认实现
Executor
<interface>
execute()
Executors
newCachedThreadPool() :
newFixedThreadPool(int nThread)
newSingleThreadExecutor()
newScheduledThreadPool()
ExecutorService
<interface>
shutdown()
isTerminated()
ThreadPoolExecutor
int corePoolSize
int maximumPoolSize
long keepAliveTime
TimeUnit unit
BlockingQueue<Runnable> workQueue
例子:
public class ThreadPoolDemo {
public void Test(){
/*创建一个可根据需要创建新线程的线程池,但是在以前构造的线程可用时将重用它们。*/
ExecutorService pool = Executors.newCachedThreadPool();
/*创建实现了runnable接口的对象*/
Thread t1 = new Thread(new MyThread());
Thread t2 = new Thread(new MyThread());
Thread t3 = new Thread(new MyThread());
Thread t4 = new Thread(new MyThread());
Thread t5 = new Thread(new MyThread());
/*将线程放入池中进行执行*/
pool.execute(t1);
pool.execute(t2);
pool.execute(t3);
pool.execute(t4);
pool.execute(t5);
/*关闭线程池*/
pool.shutdown();
}
class MyThread implements Runnable{
@Override
public void run() { System.out.println(Thread.currentThread().getName() + "is Running...");
}
}
public static void main(String[] args){
new ThreadPoolDemo().Test();
}
}
执行结果:
pool-1-thread-1is Running...!
pool-1-thread-3is Running...!
pool-1-thread-5is Running...!
pool-1-thread-2is Running...!
pool-1-thread-4is Running...!
小结:
(1)、创建核心线程任务
(2)、根据需要创建合适的线程池实例
(3)、将核心线程任务execute给线程池
分享到:
相关推荐
基于springboot教育资源共享平台源码数据库文档.zip
linux开发篇,配套视频:https://www.bilibili.com/list/474327672?sid=4493702&spm_id_from=333.999.0.0&desc=1
ReadEra 这个阅读应用能够打开下列任何格式的文档: EPUB, PDF, DOC, RTF, TXT, DJVU, FB2, MOBI, 和 CHM. 基本上来说,你可以用它阅读你的设备内存中的任何书籍或者文本文档。 这个应用与划分成章节的文档兼。,有一个书签功能,可以在你阅读的时候,自动保存你的进度。另外,它让你更改页面模式,从几种不同的主题中进行挑选(夜间,白天,棕黑色调,还有控制台)。
软件环境:KEIL4 硬件环境:STM32单片机+舵机 控制原理:通过控制输出信号的占空比调节舵机旋转的角度
基于springboot仓库管理系统源码数据库文档.zip
酒店管理系统源码C++实现的毕业设计项目源码.zip,个人大四的毕业设计、经导师指导并认可通过的高分设计项目,评审分98.5分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。 酒店管理系统源码C++实现的毕业设计项目源码.zip,酒店管理系统源码C++实现的毕业设计项目源码.zip个人大四的毕业设计、经导师指导并认可通过的高分设计项目,评审分98.5分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。酒店管理系统源码C++实现的毕业设计项目源码.zip酒店管理系统源码C++实现的毕业设计项目源码.zip酒店管理系统源码C++实现的毕业设计项目源码.zip,个人大四的毕业设计、经导师指导并认可通过的高分设计项目,评审分98.5分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。酒店管理系统源码C++实现的毕业设计项目源码.zip,个人大四的毕业设计、经导师指导并认可通过的高分设计项目,评审分98.5分。主要针对计算机相关专业的正在做毕
58商铺全新UI试客试用平台网站源码
springboot vue3前后端分离 基于SpringBoot+Vue的轻量级定时任务管理系统.zip
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过严格测试运行成功才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
4D毫米波雷达点云数据处理方法研究.caj
S M 2 2 5 8 X T 量产工具供大家下载使用
基于springboot的文物管理系统源码数据库文档.zip
基于springboot的电影院售票管理系统源码数据库文档.zip
基于Java web 实现的仓库管理系统源码,适用于初学者了解Java web的开发过程以及仓库管理系统的实现。
美容美发项目,使用django框架,前后端一体化项目
在线票务:2023年中国在线票务行业市场规模约为24.99亿元,挖掘市场蓝海新机遇 在数字浪潮的席卷下,传统的票务销售模式正经历着前所未有的变革。纸质门票逐渐淡出人们的视野,取而代之的是便捷、高效的数字和移动票务。这一转变不仅为消费者带来了前所未有的购票体验,更为在线票务平台开辟了广阔的发展空间和市场机遇。随着国民经济的持续增长和文体娱乐行业的蓬勃发展,中国在线票务行业正站在时代的风口浪尖,等待着每一位有志之士的加入。那么,这片蓝海市场究竟蕴藏着怎样的潜力?又该如何把握机遇,实现突破?让我们一同探索。 市场概况: 近年来,中国在线票务行业市场规模持续扩大,展现出强劲的增长势头。据QYResearch数据显示,2023年中国在线票务行业市场规模约为24.99亿元,尽管受到宏观经济的影响,市场规模增速放缓,但整体趋势依然向好。这一增长主要得益于国民人均收入的不断提高、电影及演出行业的快速发展以及政府政策的支持。例如,2023年财政部、国家电影局发布的《关于阶段性免征国家电影事业发展专项资金政策的公告》,为电影行业注入了强劲动力,进而推动了在线票务市场规模的扩大。 技术创新与趋势: 技术进步
基于SpringBoot的养老院管理系统源码数据库文档.zip
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过严格测试运行成功才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
内容概要:本文档是一份详细的Go语言教程,从基础概念介绍到高级主题均有覆盖。主要内容包括Go语言的基础语法、数据类型、控制结构、函数、结构体、接口和并发编程等方面。通过具体示例介绍了如何使用Go语言进行开发。 适合人群:初学者和有一定经验的程序员都可以从这篇教程中受益,特别是那些想要快速掌握Go语言并应用于实际项目的开发者。 使用场景及目标:适用于初学者系统学习Go语言的基础知识和常用功能;也可以作为已有开发经验者的参考资料,帮助他们解决具体的编程问题,提高开发效率。 其他说明:本教程不仅包含了Go语言的基本知识点,还重点讲解了其独特的并发编程模型。读者在学习过程中应该注重理论与实践相结合,通过实际编写代码来加深理解和记忆。
基于springboot计算机基础网上考试系统源码数据库文档.zip