资讯抓取总结
1. HtmlParser简介
HtmlParser是一个纯java写的html解析类库,它不依赖其它的java库文件,主要用于改造或提取html,HtmlParser主要靠Node和Tag来表达Html
(1)、Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法
如:对付树型结构进行遍历的函数,这些函数最轻易理解:
Node getParent ():取得父节点
NodeList getChildren ():取得子节点的列表
Node getFirstChild ():取得第一个子节点
Node getLastChild ():取得最后一个子节点
Node getPreviousSibling ():取得前一个兄弟
Node getNextSibling ():取得下一个兄弟节点
取得Node内容的函数:
String getText ():取得文本
String toHtml () :取得HTML信息(原始HTML)
(2)、Tag是具体分析的主要内容,它包含着各种标签实体类;如:BodyTag,Div,FrameSetTag,OptionTag,linkTag,ImageTag,MetaTag等等。
HtmlParser核心类 org.htmlparser.Parser类,这个类实际完成了对于HTML页面的分析工作。
(1)、构造Parser对象,一般有两种方法:
其一、通过url提取网页的内容
Parser parser = new Parser();
parser.setURL("http://www.baidu.com ");
parser.setEncoding("gbk");
其二、提取本地网页文件(通过读文件把网页转换成字符串【httpClient】)
使用静态方法创建Parser对象
Parser parser=Parser.createParser(html,charset);
2. HtmlParser简单例子
public class HtmlParserDemo {
private static Logger logger = Logger.getLogger(HtmlParserDemo.class);
public static void parserTest(){
String content = "";
NodeList list = null;
Parser parser = new Parser();
try {
parser.setURL("http://www.chinachugui.com/news/cgdg/");
parser.setEncoding("gb2312");
/*标签属性过滤*/
NodeList rootList = parser.extractAllNodesThatMatch(new HasAttributeFilter("class","zx_list"));
/*标签类过滤*/
list = rootList.extractAllNodesThatMatch(new NodeClassFilter(Bullet.class), true);
for(int i=0; i<list.size(); i++){
Node[] nodes = ((Bullet)list.elementAt(i)).getChildrenAsNodeArray();
LinkTag link = (LinkTag)nodes[1];
System.out.println(link.getLink());
System.out.println(link.getChild(0).getText());
Span span = (Span)nodes[2];
System.out.println(span.childAt(0).getText());
}
content = list.toHtml().trim();
System.out.println(content);
} catch (ParserException e) {
e.printStackTrace();
logger.debug("", e);
}
另、自定义过滤器
注:所有的过滤器都实现的NodeFilter接口,并重写了accept方法
list = parser.extractAllNodesThatMatch(new NodeFilter() {
public boolean accept(Node node) {
if (node instanceof Div) {
Div div = (Div) node;
String atrr = div.getAttribute("class");
if (atrr != null && atrr.equals("zx_list")){
return true;
}else{
return false;
}
}else{
return false;
}
}
}, true);
采集步骤:
(1)、拿到网站地址及编码创建解析器对象Parser
(2)、选择合适的过滤器过滤
(3)、根据相应的方法得到的内容或修改
3. 了解httpClient基本实现思路
1) HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在很多的项目中,比如 Apache Jakarta 上很著名的另外两个开源项目 Cactus 和 HTMLUnit 都使用了 HttpClient。现在HttpClient最新版本为 HttpClient 4.2 (GA)
2) 我的理解它就是个模拟客户端根据url访问服务器得到服务器返回的数据
3) 实现一般步骤:
1. 创建 HttpClient 的实例
2. 创建某种连接方法的实例,在这里是 GetMethod。在 GetMethod 的构造函数中传入待连接的地址
3. 调用第一步中创建好的实例的executeMethod方法来执行第二步中创建好的 method 实例
4. 读 response
5. 释放连接。无论执行方法是否成功,都必须释放连接
6. 对得到后的内容进行处理
简单例子:
public class HttpClientDemo {
public static void main(String[] args){
String url = "http://www.baidu.com/";
HttpClient client = new HttpClient();
GetMethod method = new GetMethod(url);
/*为什么必须设置Accept-Encoding 才能拿到 content-Encoding的值*/
/*设置了Accept-Encoding为下面值是如果不进行gizp解就会乱码,如果不设置则不会乱码,(是不是所有请求只要不设置都不会乱码)*/
//method.setRequestHeader("Accept-Encoding", "gzip, deflate");
try {
client.executeMethod(method);
System.out.println(client.executeMethod(method));
/*拿到所有响应头部信息*/
Header[] headers = method.getResponseHeaders();
for(int i=0; i<headers.length; i++){
System.out.println(headers[i].getName() +"-----" + headers[i].getValue());
}
/*获得响应的体*/
System.out.println(method.getResponseBodyAsString());
} catch (Exception e) {
e.printStackTrace();
}finally{
/*释放连接*/
method.releaseConnection();
}
}
}
gizp解压:
if (er == 200) {
String html = null;
Header hd = getMethod.getResponseHeader("Content-Encoding");
if(hd != null && hd.getValue().toLowerCase().indexOf("gzip") > -1) {
StringBuffer sb = new StringBuffer();
logger.debug("acceptEncoding:" + hd.getValue());
// 建立gzip解压工作流
InputStream is = getMethod.getResponseBodyAsStream();
GZIPInputStream gzin = new GZIPInputStream(is);
InputStreamReader isr = new InputStreamReader(gzin, charset); // 设置读取流的编码格式,自定义编码
java.io.BufferedReader br = new java.io.BufferedReader(isr);
String tempbf;
while ((tempbf = br.readLine()) != null) {
sb.append(tempbf);
sb.append("\r\n");
}
isr.close();
gzin.close();
html = sb.toString();
} else {
html = getMethod.getResponseBodyAsString();
}
return html;
} else { }
4. 了解线程池概念
(1)、为什么要使用线程池?
其一、减少创建和销毁线程的次数,每个工作线程都可以被重复利用可以执行多个任务。
其二、可以根据系统的承受能力,调整线程池中工作线程的数目,防止因为消耗过多内存而把服务器累趴下
(2)、java从java1.5之后,java提供了自带的线程池ThreadPoolExecutor类
(3)、工作线程和核心线程的区别:
核心线程:我们自己定义的线程,即实现Runnable接口的类,是我们将要放到线程池中执行的类。
工作线程:由线程池中创建的线程,是用来获得核心线程并执行的核心线程的线程。
(4)、java.util.concurrent包提供了现成的线程池实现
Executor接口表示线程池,它的execute(Runnable task)方法来执行Runable类型的任务
ExecutorService中声明了管理线程池的一些方法,比如:shutdown()关闭线程池isTerminated()关闭后任务是否都以完成
Executors类中包含了一些静态方法用于创建ExecutorService实例
ThreadPoolExecutor ExecuteService默认实现
Executor
<interface>
execute()
Executors
newCachedThreadPool() :
newFixedThreadPool(int nThread)
newSingleThreadExecutor()
newScheduledThreadPool()
ExecutorService
<interface>
shutdown()
isTerminated()
ThreadPoolExecutor
int corePoolSize
int maximumPoolSize
long keepAliveTime
TimeUnit unit
BlockingQueue<Runnable> workQueue
例子:
public class ThreadPoolDemo {
public void Test(){
/*创建一个可根据需要创建新线程的线程池,但是在以前构造的线程可用时将重用它们。*/
ExecutorService pool = Executors.newCachedThreadPool();
/*创建实现了runnable接口的对象*/
Thread t1 = new Thread(new MyThread());
Thread t2 = new Thread(new MyThread());
Thread t3 = new Thread(new MyThread());
Thread t4 = new Thread(new MyThread());
Thread t5 = new Thread(new MyThread());
/*将线程放入池中进行执行*/
pool.execute(t1);
pool.execute(t2);
pool.execute(t3);
pool.execute(t4);
pool.execute(t5);
/*关闭线程池*/
pool.shutdown();
}
class MyThread implements Runnable{
@Override
public void run() { System.out.println(Thread.currentThread().getName() + "is Running...");
}
}
public static void main(String[] args){
new ThreadPoolDemo().Test();
}
}
执行结果:
pool-1-thread-1is Running...!
pool-1-thread-3is Running...!
pool-1-thread-5is Running...!
pool-1-thread-2is Running...!
pool-1-thread-4is Running...!
小结:
(1)、创建核心线程任务
(2)、根据需要创建合适的线程池实例
(3)、将核心线程任务execute给线程池
分享到:
相关推荐
基于模拟退火算法与A*算法融合的送餐机器人多目标点路径规划策略,多目标点路径规划---模拟 火算法+A*算法 送餐机器人多目标点路径规划,室内AGV路径规划。 基于模拟 火算法融合A*算法的移动机器人路径规划 1,从厨房出发,移动到多个目标点,最后返回厨房。 2,采用A*算法规划两点间的距离,然后依据规划路径距离模拟 火算法运算全过程最短距离。 旅行商的室内规划应用 ,多目标点路径规划; 模拟退火算法; A*算法; 送餐机器人; 室内AGV路径规划; 移动机器人路径规划; 厨房出发; 最短距离; 旅行商应用。,基于模拟退火算法与A*算法融合的送餐机器人多目标点路径规划系统
"谐波抑制Matlab Simulink仿真实践:有源无源混合型(PPF、APF)滤波效果对比报告",谐波抑制matlab simulink仿真,包含有源无源混合(ppf、apf,混合型)效果好可参考,有报告,下图为ppf滤波前后对比 ,谐波抑制; MATLAB Simulink仿真; 有源无源混合滤波; PPF与APF混合型; 滤波效果; 报告对比,Matlab Simulink仿真:混合型谐波抑制技术报告
线上一流课程教学辅助系统 免费JAVA毕业设计 2024成品源码+论文+录屏+启动教程 启动教程:https://www.bilibili.com/video/BV1jKDjYrEz1 项目讲解视频:https://www.bilibili.com/video/BV1Tb421n72S 二次开发教程:https://www.bilibili.com/video/BV18i421i7Dx
沉浸式戏曲文化体验系统 免费JAVA毕业设计 2024成品源码+论文+录屏+启动教程 启动教程:https://www.bilibili.com/video/BV1jKDjYrEz1 项目讲解视频:https://www.bilibili.com/video/BV1Tb421n72S 二次开发教程:https://www.bilibili.com/video/BV18i421i7Dx
基于Matlab GUI界面的工件尺寸测量系统:数字图像处理技术在机械零件测量中的应用,- 标题:基于Matlab的工件测量系统 - 关键词:matlab GUI界面 工件尺寸测量 圆 长方形 直径 周长 数字图像处理 - 步骤:打开图像 选择标签 灰度化 滤波(中值,均值,高斯) 二值化 边缘检测 尺寸测量 结果绘制在在GUI上 - 简述:使用matlab数字图像处理技术,处理锯片,垫片,螺丝等机械零件的尺寸,只要包含半径(内径和外径),周长,长宽等,并在原图上进行绘制,并展示在界面上。 ,Matlab; GUI界面; 图像处理; 尺寸测量; 圆; 长方形; 半径; 周长; 边缘检测; 机械零件,"基于Matlab GUI界面的工件尺寸测量系统"
FDTD COMSOL技术下的超结构与超表面光吸收与分光滤波模型:一维至三维SPP偏振模型的自研与文献参考,FDTD COMSOL现有MIM超结构模型,超表面超吸收分光滤波SPP模型(一维光栅,二维光栅,三维超表面,偏振模型),介质超表面BIC模型等都是自己做的,文献参考, ,关键词:FDTD;COMSOL;MIM超结构模型;超表面超吸收分光滤波SPP模型;一维光栅;二维光栅;三维超表面;偏振模型;介质超表面BIC模型;文献参考,自研MIM超结构及多类超表面光学模型集
"金豺优化算法在冷热电联供系统优化调度中的应用:基于MATLAB平台的仿真与实证研究",金豺优化算法(2022年)冷热电联优化调度 说明书MATLAB代码:基于金豺优化算法冷热电联优化调度 关键词: 冷热电三联供 金豺优化算法 仿真平台:MATLAB 平台采用金豺优化算法实现求解优势:代码注释详实,适合参考学习,程序非常精品,请仔细辨识 主要内容:代码构建了含冷、热、电负荷的冷热电联供型系统优化调度模型,考虑了各出力源出力成本及环境污染治理成本、分时电价,考虑了光伏、风机、燃气轮机、燃料电池、电制冷机、电锅炉、余热回收以及蓄电池、蓄热装置、蓄冷装置等资源,并且考虑与上级电网的购电,考虑了燃机出力的非线性,实现CCHP系统的经济运行,求解效果极佳,具体可以看图 ,冷热电三联供;金豺优化算法;MATLAB平台;系统优化调度模型;资源利用;经济运行;求解效果极佳;CCHP系统;非线性问题;详实注释。,《基于金豺优化算法的冷热电联供系统MATLAB仿真优化调度说明书》
,永磁同步电机伺服控制仿真三环PI参数自整定 Matlab仿真模型 1.模型简介 模型为永磁同步电机伺服控制仿真,采用 Matlab R2018a Simulink搭建。 模型内主要包含DC直流电压源、三相逆变器、永磁同步电机、采样模块、SVPWM、Clark、Park、Ipark、位置环、速度环、电流环等模块,其中,SVPWM、Clark、Park、Ipark模块采用Matlab funtion编写,其与C语言编程较为接近,容易进行实物移植。 模型均采用离散化仿真,其效果更接近实际数字控制系统。 2.算法简介 伺服控制由位置环、速度环、电流环三环结构构成,其中,电流环采用PI控制,并具有电流环解耦功能;转速环采用抗积分饱和PI控制;位置环采用P+前馈的复合控制,能够更好地跟踪指令信号。 本仿真中最大的亮点是三环PI参数自整定,只需输入正确的电机参数(电阻、电感、转动惯量等参数),无需手动调节PI参数,能够节省调试时间。 3.仿真效果 位置响应波形,如下图所示。 转速响应波形,如下图所示。 转矩电流响应波形,如下图所示。 4. 可提供模型
基于西门子PLC与组态王技术的锅炉控制系统设计与应用,13基于西门子PLC和组态王锅炉控制系统 ,基于西门子PLC; 锅炉控制系统; 组态王; 自动化控制,基于西门子PLC与组态王锅炉控制系统研究
转子动力学与模态分析:临界转速计算与稳定状态下的轴心轨迹分析,圆盘质量不平衡条件下的振动响应及操作视频解析。,转子动力学,模态分析求临界转速,稳定状态下转子轴心轨迹,圆盘质量不平衡条件下振动响应+操作视频。 ,转子动力学;模态分析;临界转速;稳定状态;轴心轨迹;质量不平衡;振动响应;操作视频。,转子动力学分析:模态与振动响应研究视频
一阶直线倒立摆非线性动力学模型的MATLAB Simulink仿真研究:模型推导、S-Function实现与离散PID控制的测试服务,一阶直线倒立摆MATLAB Simulink仿真 (1)模型推导 + 仿真工程 (2)讲解服务 主要保留模型的非线性动力学特性,即不在平衡点做线性化处理; (1)MathType 详细推导二阶非线性微分方程 (2)S-Function 实现非线性连续状态空间模型 (3)测试离散PID控制倒立摆重心变化适应性 #倒立摆 #MATLAB #Simulink #离散控制 #S-Function ,一阶直线倒立摆; MATLAB Simulink 仿真; 模型推导与仿真工程; 非线性动力学特性; MathType 推导; S-Function 实现; 离散PID控制; 重心变化适应性。,一阶直线倒立摆非线性动力学MATLAB Simulink仿真研究
基于AHP-CRITIC组合变权与指标劣化度修正的赋权方法研究,38考虑劣化度APH-CRITIC组合变权 组合变权赋权方法,基于AHP和改进CRITIC计算主客观权重,引入指标劣化度构造变权函数对综合权重进行修正,还方法可以捕捉指标时序的劣化程度,实现数据的有效跟踪,评价更加合理。 可根据需求进行改进。 ,关键词:组合变权赋权方法;AHP;CRITIC;指标劣化度;变权函数;时序劣化程度;数据跟踪;评价合理。,基于AHP-CRITIC组合变权法:综合主客观权重与指标劣化度评价
基于两并联虚拟阻抗下垂控制的微电网有功功率共享技术研究及其应用效果分析——有参考文献支撑,微电网,下垂控制,两并联阻抗下垂控制,实现了有功功率共享,效果好,有参考文献。 ,微电网;下垂控制;两并联虚拟阻抗下垂控制;有功功率共享;参考文献,微电网两并联虚拟阻抗下垂控制技术实现有功共享,效果显著,有参考文献支持。
MATLAB仿真湍流相位屏相位结构函数:功率谱反演法及其低频信息补偿优化研究,MATLAB仿真湍流相位屏相位结构函数 功率谱反演法 补偿低频信息达到与理论更好的拟合程度 ,MATLAB仿真; 湍流相位屏; 相位结构函数; 功率谱反演法; 低频信息补偿; 理论拟合,MATLAB仿真湍流相位屏结构与功率谱反演法优化研究
棋盘设计: 创建一个 15x15 的棋盘,用户可以点击每个格子放置棋子。 棋子颜色: 黑方和白方棋子通过 CSS 样式显示为圆形。 胜利检测: 检查横向、纵向和对角线的五子连珠以判断胜利。 游戏重置: 游戏可以重置,重新开始。 重新开始按钮: 点击后重置游戏状态,清空棋盘。 退出游戏按钮: 点击后弹出确认对话框,确认后尝试关闭窗口。
基于f(x,y,z,t)的高斯烟团模型纯Python代码实现:大气稳定度计算、坐标转换与扩散系数分析,三维浓度叠加值的计算研究,基于f(x,y,z,t)的高斯烟团模型纯Python代码实现(包涵大气稳定度计算、坐标转,扩散系数以及三维坐标系内浓度叠加值) ,核心关键词:f(x,y,z,t)高斯烟团模型; 大气稳定度计算; 坐标转换; 扩散系数; 三维坐标系内浓度叠加值; 纯Python代码实现;,Python实现高斯烟团模型的大气扩散浓度计算代码
基于ADRC的主动悬架控制技术:设计观测器与非线性误差反馈控制器的优化研究,基于ADRC的主动悬架控制: 1.设计观测器 2.非线性误差反馈控制器。 相同参数下,优于pid的调节效果。 并且可查看观测器对比被控对象效果模型绝对正确 参考文献(仅用于学术交流) ,基于ADRC的主动悬架控制; 观测器设计; 非线性误差反馈控制器; 调节效果优于PID; 观测器对比被控对象效果模型绝对正确,基于ADRC的主动悬架:观测器设计与非线性误差反馈控制
matlab实现CNN时序预测完整程序+数据
基于视频分析的地 震检测.pdf
烟花代码编程python满屏。编程实现python代码烟花满屏燃放效果。这是一个用 Python 和 Pygame 实现烟花满屏燃放效果的代码,通过定义 Firework 和 Particle 类,模拟烟花的上升和爆炸过程。烟花从屏幕底部随机位置升起,达到一定高度后爆炸,生成大量彩色粒子向四周扩散。粒子具有随机的速度、颜色和生命周期,随着时间逐渐消失。