`
sheshengzhen
  • 浏览: 4336 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

htmlpraser,htmlclient,java线程池

阅读更多
资讯抓取总结
1. HtmlParser简介
HtmlParser是一个纯java写的html解析类库,它不依赖其它的java库文件,主要用于改造或提取html,HtmlParser主要靠Node和Tag来表达Html
(1)、Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法
如:对付树型结构进行遍历的函数,这些函数最轻易理解:
Node getParent ():取得父节点
NodeList getChildren ():取得子节点的列表
Node getFirstChild ():取得第一个子节点
Node getLastChild ():取得最后一个子节点
Node getPreviousSibling ():取得前一个兄弟
Node getNextSibling ():取得下一个兄弟节点
取得Node内容的函数:
String getText ():取得文本
String toHtml () :取得HTML信息(原始HTML)

(2)、Tag是具体分析的主要内容,它包含着各种标签实体类;如:BodyTag,Div,FrameSetTag,OptionTag,linkTag,ImageTag,MetaTag等等。


HtmlParser核心类 org.htmlparser.Parser类,这个类实际完成了对于HTML页面的分析工作。
(1)、构造Parser对象,一般有两种方法:
其一、通过url提取网页的内容
Parser parser = new Parser(); 
parser.setURL("http://www.baidu.com ");
parser.setEncoding("gbk");

其二、提取本地网页文件(通过读文件把网页转换成字符串【httpClient】)
使用静态方法创建Parser对象
Parser parser=Parser.createParser(html,charset);

2. HtmlParser简单例子
public class HtmlParserDemo {

private static Logger logger = Logger.getLogger(HtmlParserDemo.class);

public static void parserTest(){
String content = "";
NodeList list = null;
Parser parser = new Parser();
try {
parser.setURL("http://www.chinachugui.com/news/cgdg/");
parser.setEncoding("gb2312");
/*标签属性过滤*/
NodeList rootList = parser.extractAllNodesThatMatch(new HasAttributeFilter("class","zx_list"));
/*标签类过滤*/
list = rootList.extractAllNodesThatMatch(new NodeClassFilter(Bullet.class), true);

for(int i=0; i<list.size(); i++){
Node[] nodes = ((Bullet)list.elementAt(i)).getChildrenAsNodeArray();
LinkTag link = (LinkTag)nodes[1];
System.out.println(link.getLink());
System.out.println(link.getChild(0).getText());
Span span = (Span)nodes[2];
System.out.println(span.childAt(0).getText());
}

content = list.toHtml().trim();
System.out.println(content);
} catch (ParserException e) {
e.printStackTrace();
logger.debug("", e);
}


另、自定义过滤器
注:所有的过滤器都实现的NodeFilter接口,并重写了accept方法
list = parser.extractAllNodesThatMatch(new NodeFilter() {
public boolean accept(Node node) {
if (node instanceof Div) {
Div div = (Div) node;
String atrr = div.getAttribute("class");
if (atrr != null && atrr.equals("zx_list")){
return true;
}else{
return false;
}
}else{
return false;
}
}
}, true);



采集步骤:
(1)、拿到网站地址及编码创建解析器对象Parser
(2)、选择合适的过滤器过滤
(3)、根据相应的方法得到的内容或修改
3. 了解httpClient基本实现思路
1) HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在很多的项目中,比如 Apache Jakarta 上很著名的另外两个开源项目 Cactus 和 HTMLUnit 都使用了 HttpClient。现在HttpClient最新版本为 HttpClient 4.2 (GA)
2) 我的理解它就是个模拟客户端根据url访问服务器得到服务器返回的数据
3) 实现一般步骤:

  1. 创建 HttpClient 的实例
  2. 创建某种连接方法的实例,在这里是 GetMethod。在 GetMethod 的构造函数中传入待连接的地址
  3. 调用第一步中创建好的实例的executeMethod方法来执行第二步中创建好的 method 实例
  4. 读 response
  5. 释放连接。无论执行方法是否成功,都必须释放连接
6. 对得到后的内容进行处理

简单例子:

public class HttpClientDemo {
public static void main(String[] args){
String url = "http://www.baidu.com/";
HttpClient client = new HttpClient();
GetMethod method = new GetMethod(url);
/*为什么必须设置Accept-Encoding 才能拿到 content-Encoding的值*/
/*设置了Accept-Encoding为下面值是如果不进行gizp解就会乱码,如果不设置则不会乱码,(是不是所有请求只要不设置都不会乱码)*/
//method.setRequestHeader("Accept-Encoding", "gzip, deflate");
try {
client.executeMethod(method);
System.out.println(client.executeMethod(method));
/*拿到所有响应头部信息*/
Header[] headers = method.getResponseHeaders();
for(int i=0; i<headers.length; i++){
System.out.println(headers[i].getName() +"-----" + headers[i].getValue());
}
/*获得响应的体*/
System.out.println(method.getResponseBodyAsString());
} catch (Exception e) {
e.printStackTrace();
}finally{
/*释放连接*/
method.releaseConnection();
}
}
}

gizp解压:

if (er == 200) {
String html = null;
Header hd = getMethod.getResponseHeader("Content-Encoding");
if(hd != null && hd.getValue().toLowerCase().indexOf("gzip") > -1) {
StringBuffer sb = new StringBuffer();
logger.debug("acceptEncoding:" + hd.getValue());
// 建立gzip解压工作流
InputStream is = getMethod.getResponseBodyAsStream();
GZIPInputStream gzin = new GZIPInputStream(is);
InputStreamReader isr = new InputStreamReader(gzin, charset); // 设置读取流的编码格式,自定义编码
java.io.BufferedReader br = new java.io.BufferedReader(isr);
String tempbf;
while ((tempbf = br.readLine()) != null) {
sb.append(tempbf);
sb.append("\r\n");
}
isr.close();
gzin.close();
html = sb.toString();
} else {
html = getMethod.getResponseBodyAsString();
}
return html;
} else { }
4. 了解线程池概念
(1)、为什么要使用线程池?
其一、减少创建和销毁线程的次数,每个工作线程都可以被重复利用可以执行多个任务。
其二、可以根据系统的承受能力,调整线程池中工作线程的数目,防止因为消耗过多内存而把服务器累趴下
(2)、java从java1.5之后,java提供了自带的线程池ThreadPoolExecutor类
(3)、工作线程和核心线程的区别:
核心线程:我们自己定义的线程,即实现Runnable接口的类,是我们将要放到线程池中执行的类。
工作线程:由线程池中创建的线程,是用来获得核心线程并执行的核心线程的线程。
(4)、java.util.concurrent包提供了现成的线程池实现
 Executor接口表示线程池,它的execute(Runnable task)方法来执行Runable类型的任务
 ExecutorService中声明了管理线程池的一些方法,比如:shutdown()关闭线程池isTerminated()关闭后任务是否都以完成
 Executors类中包含了一些静态方法用于创建ExecutorService实例
 ThreadPoolExecutor ExecuteService默认实现

Executor
<interface>
execute()

Executors
newCachedThreadPool() :
newFixedThreadPool(int nThread)
newSingleThreadExecutor()
newScheduledThreadPool()

ExecutorService
<interface>
shutdown()
isTerminated()



ThreadPoolExecutor
int corePoolSize
int maximumPoolSize
long keepAliveTime
TimeUnit unit
BlockingQueue<Runnable> workQueue



例子:
public class ThreadPoolDemo {

public void Test(){
/*创建一个可根据需要创建新线程的线程池,但是在以前构造的线程可用时将重用它们。*/
ExecutorService pool = Executors.newCachedThreadPool();

/*创建实现了runnable接口的对象*/
Thread t1 = new Thread(new MyThread());
Thread t2 = new Thread(new MyThread());
Thread t3 = new Thread(new MyThread());
Thread t4 = new Thread(new MyThread());
Thread t5 = new Thread(new MyThread());

/*将线程放入池中进行执行*/
pool.execute(t1);
pool.execute(t2);
pool.execute(t3);
pool.execute(t4);
pool.execute(t5);

/*关闭线程池*/
pool.shutdown();
}

class MyThread implements Runnable{

@Override
public void run() { System.out.println(Thread.currentThread().getName() + "is Running...");
}
}

public static void main(String[] args){
new ThreadPoolDemo().Test();
}
}

执行结果:
pool-1-thread-1is Running...!
pool-1-thread-3is Running...!
pool-1-thread-5is Running...!
pool-1-thread-2is Running...!
pool-1-thread-4is Running...!


小结:
(1)、创建核心线程任务
(2)、根据需要创建合适的线程池实例
(3)、将核心线程任务execute给线程池
0
8
分享到:
评论

相关推荐

    电动车上牌管理系统 SSM毕业设计 附带论文.zip

    电动车上牌管理系统 SSM毕业设计 附带论文 启动教程:https://www.bilibili.com/video/BV1GK1iYyE2B

    tornado-6.1-cp39-cp39-manylinux2010_x86_64.whl

    tornado-6.1-cp39-cp39-manylinux2010_x86_64.whl

    【eclipse和idea两个版本运行源码】基于Java Swing +mysql 实现的网吧管理系统

    一、项目简介 本项目是一套基于Java Swing 开发的网吧管理系统,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,确保可以运行! 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 二、技术实现 ​后台技术:java swing ​数据库:MySQL ​数据库连接池:c3p0 三、系统主要功能 用户登录: 分为 普通用户和管理员 两种角色 菜单模块:上机,下机, 系统设置:管理员设置,会员设置,计费设置, 退出系统 管理模块:增加会员,删除会员,信息修改,信息查询 视图模块:主页视图,在线用户,统计视图, 统计报表模块:人数报表,收入报表 帮助模块:联系我们,关于系统 详见:https://blog.csdn.net/weixin_43860634/article/details/125247764

    pc-dmis软件脚本-输出Excel格式报告

    使用软件自带的basic脚本编辑制作的脚本 低版本软件无法输出Excel报告,可以通过脚本方式实现这一功能

    【java毕业设计】校园失物招领系统源码(springboot+vue+mysql+说明文档).zip

    项目经过测试均可完美运行! 环境说明: 开发语言:java jdk:jdk1.8 数据库:mysql 5.7+ 数据库工具:Navicat11+ 管理工具:maven 开发工具:idea/eclipse

    基于java的网上电子书店h答辩PPT.pptx

    基于java的网上电子书店h答辩PPT.pptx

    基于微信小程序的微信小程序校园失物招领答辩PPT.pptx

    基于微信小程序的微信小程序校园失物招领答辩PPT.pptx

    基于java的基于Java的学生综合测评管理系统答辩PPT.pptx

    基于java的基于Java的学生综合测评管理系统答辩PPT.pptx

    pandas-2.1.4-cp39-cp39-win_amd64.zip

    pandas whl安装包,对应各个python版本和系统(具体看资源名字),找准自己对应的下载即可! 下载后解压出来是已.whl为后缀的安装包,进入终端,直接pip install pandas-xxx.whl即可,非常方便。 再也不用担心pip联网下载网络超时,各种安装不成功的问题。

    判断题 - 题目列表 - 图-练习题集飒飒阿萨

    springboot体育器材管理系统(附源码+数据库)71175

    管理员功能: 用户管理:管理员可以管理用户账户,包括审核新注册用户、禁用违规用户、重置密码等操作。 器材管理:管理员可以管理器材的信息,包括添加新器材、编辑器材详情、设定器材规则和限制等。 器材预约与借还管理:管理员可以处理用户的器材预约请求,确认或调整预约时间,并记录借还操作。 库存管理:管理员可以监控器材库存情况,及时补充不足的器材并处理损坏或报废的器材。 数据统计与报表:管理员可以分析系统的使用情况和借还记录,生成数据统计报表以了解器材使用情况和借还频率等。 系统设置与维护:管理员可以进行系统设置,包括配置器材规则、设定可用时间段、备份数据、优化系统性能等。 消息通知与提醒:管理员可以向用户发送消息通知,如器材预约成功、归还提醒、系统更新通知等。

    Jira插件安装包Dynamic-forms

    Jira插件安装包Dynamic-forms

    pandas-2.1.4-cp311-cp311-win_amd64.zip

    pandas whl安装包,对应各个python版本和系统(具体看资源名字),找准自己对应的下载即可! 下载后解压出来是已.whl为后缀的安装包,进入终端,直接pip install pandas-xxx.whl即可,非常方便。 再也不用担心pip联网下载网络超时,各种安装不成功的问题。

    少儿图形化scratch编程作品源码集100个

    Scratch是一款由麻省理工学院(MIT)的“终身幼儿园团队”开发的图形化编程工具,专为儿童设计,旨在帮助他们学习编程思维和逻辑能力。

    基于java的学生就业管理系统答辩PPT.pptx

    基于java的学生就业管理系统答辩PPT.pptx

    课设毕设基于SpringBoot+Vue的旅游门票信息系统设计与实现源码可运行.zip

    本压缩包资源说明,你现在往下拉可以看到压缩包内容目录 我是批量上传的基于SpringBoot+Vue的项目,所以描述都一样;有源码有数据库脚本,系统都是测试过可运行的,看文件名即可区分项目~ |Java|SpringBoot|Vue|前后端分离| 开发语言:Java 框架:SpringBoot,Vue JDK版本:JDK1.8 数据库:MySQL 5.7+(推荐5.7,8.0也可以) 数据库工具:Navicat 开发软件: idea/eclipse(推荐idea) Maven包:Maven3.3.9+ 系统环境:Windows/Mac

    大学志愿填报系统.zip

    随着社会对志愿服务活动的日益重视,各大高校也纷纷参与到志愿服务的行列中。为了更好地管理和记录志愿者活动,提高志愿服务的质量和效率,我们开发了这款大学志愿服务系统。 该系统主要包括多个功能模块,如信息管理、活动管理、学生管理等。信息管理模块允许学校管理员录入、修改和删除学校的基本信息,包括学校账号、名称、联系电话、地址、特色以及办学理念等,确保信息的准确性和完整性。活动管理模块则用于记录和管理志愿者活动的相关信息,包括活动的名称、时间、地点、参与人员等,方便志愿者进行报名和签到。 此外,系统还提供了学生管理模块,用于记录学生的志愿服务经历和表现,为学生参与志愿服务提供便利。同时,系统还支持照片上传和展示功能,通过展示志愿者活动的照片,让更多人了解和关注志愿服务事业。 整个系统界面简洁明了,操作便捷,功能强大。通过使用该系统,高校可以更加高效地管理和记录志愿者活动,提高志愿服务的整体水平。同时,该系统也为广大志愿者提供了一个展示自我、服务社会的平台。

    turbo均衡算法研究

    turbo均衡算法研究

    静态编译的Qt6.7.3(win10+MSVC2022+openssl+静态运行时) part01

    https://blog.csdn.net/aggs1990/article/details/143491823 静态编译的Qt6.7.3(win10+MSVC2022+openssl+静态运行时) 压缩包比较大,这是第一部分

    tornado-6.4b1-cp38-abi3-musllinux_1_1_i686.whl

    tornado-6.4b1-cp38-abi3-musllinux_1_1_i686.whl

Global site tag (gtag.js) - Google Analytics