资讯抓取总结
1. HtmlParser简介
HtmlParser是一个纯java写的html解析类库,它不依赖其它的java库文件,主要用于改造或提取html,HtmlParser主要靠Node和Tag来表达Html
(1)、Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法
如:对付树型结构进行遍历的函数,这些函数最轻易理解:
Node getParent ():取得父节点
NodeList getChildren ():取得子节点的列表
Node getFirstChild ():取得第一个子节点
Node getLastChild ():取得最后一个子节点
Node getPreviousSibling ():取得前一个兄弟
Node getNextSibling ():取得下一个兄弟节点
取得Node内容的函数:
String getText ():取得文本
String toHtml () :取得HTML信息(原始HTML)
(2)、Tag是具体分析的主要内容,它包含着各种标签实体类;如:BodyTag,Div,FrameSetTag,OptionTag,linkTag,ImageTag,MetaTag等等。
HtmlParser核心类 org.htmlparser.Parser类,这个类实际完成了对于HTML页面的分析工作。
(1)、构造Parser对象,一般有两种方法:
其一、通过url提取网页的内容
Parser parser = new Parser();
parser.setURL("http://www.baidu.com ");
parser.setEncoding("gbk");
其二、提取本地网页文件(通过读文件把网页转换成字符串【httpClient】)
使用静态方法创建Parser对象
Parser parser=Parser.createParser(html,charset);
2. HtmlParser简单例子
public class HtmlParserDemo {
private static Logger logger = Logger.getLogger(HtmlParserDemo.class);
public static void parserTest(){
String content = "";
NodeList list = null;
Parser parser = new Parser();
try {
parser.setURL("http://www.chinachugui.com/news/cgdg/");
parser.setEncoding("gb2312");
/*标签属性过滤*/
NodeList rootList = parser.extractAllNodesThatMatch(new HasAttributeFilter("class","zx_list"));
/*标签类过滤*/
list = rootList.extractAllNodesThatMatch(new NodeClassFilter(Bullet.class), true);
for(int i=0; i<list.size(); i++){
Node[] nodes = ((Bullet)list.elementAt(i)).getChildrenAsNodeArray();
LinkTag link = (LinkTag)nodes[1];
System.out.println(link.getLink());
System.out.println(link.getChild(0).getText());
Span span = (Span)nodes[2];
System.out.println(span.childAt(0).getText());
}
content = list.toHtml().trim();
System.out.println(content);
} catch (ParserException e) {
e.printStackTrace();
logger.debug("", e);
}
另、自定义过滤器
注:所有的过滤器都实现的NodeFilter接口,并重写了accept方法
list = parser.extractAllNodesThatMatch(new NodeFilter() {
public boolean accept(Node node) {
if (node instanceof Div) {
Div div = (Div) node;
String atrr = div.getAttribute("class");
if (atrr != null && atrr.equals("zx_list")){
return true;
}else{
return false;
}
}else{
return false;
}
}
}, true);
采集步骤:
(1)、拿到网站地址及编码创建解析器对象Parser
(2)、选择合适的过滤器过滤
(3)、根据相应的方法得到的内容或修改
3. 了解httpClient基本实现思路
1) HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在很多的项目中,比如 Apache Jakarta 上很著名的另外两个开源项目 Cactus 和 HTMLUnit 都使用了 HttpClient。现在HttpClient最新版本为 HttpClient 4.2 (GA)
2) 我的理解它就是个模拟客户端根据url访问服务器得到服务器返回的数据
3) 实现一般步骤:
1. 创建 HttpClient 的实例
2. 创建某种连接方法的实例,在这里是 GetMethod。在 GetMethod 的构造函数中传入待连接的地址
3. 调用第一步中创建好的实例的executeMethod方法来执行第二步中创建好的 method 实例
4. 读 response
5. 释放连接。无论执行方法是否成功,都必须释放连接
6. 对得到后的内容进行处理
简单例子:
public class HttpClientDemo {
public static void main(String[] args){
String url = "http://www.baidu.com/";
HttpClient client = new HttpClient();
GetMethod method = new GetMethod(url);
/*为什么必须设置Accept-Encoding 才能拿到 content-Encoding的值*/
/*设置了Accept-Encoding为下面值是如果不进行gizp解就会乱码,如果不设置则不会乱码,(是不是所有请求只要不设置都不会乱码)*/
//method.setRequestHeader("Accept-Encoding", "gzip, deflate");
try {
client.executeMethod(method);
System.out.println(client.executeMethod(method));
/*拿到所有响应头部信息*/
Header[] headers = method.getResponseHeaders();
for(int i=0; i<headers.length; i++){
System.out.println(headers[i].getName() +"-----" + headers[i].getValue());
}
/*获得响应的体*/
System.out.println(method.getResponseBodyAsString());
} catch (Exception e) {
e.printStackTrace();
}finally{
/*释放连接*/
method.releaseConnection();
}
}
}
gizp解压:
if (er == 200) {
String html = null;
Header hd = getMethod.getResponseHeader("Content-Encoding");
if(hd != null && hd.getValue().toLowerCase().indexOf("gzip") > -1) {
StringBuffer sb = new StringBuffer();
logger.debug("acceptEncoding:" + hd.getValue());
// 建立gzip解压工作流
InputStream is = getMethod.getResponseBodyAsStream();
GZIPInputStream gzin = new GZIPInputStream(is);
InputStreamReader isr = new InputStreamReader(gzin, charset); // 设置读取流的编码格式,自定义编码
java.io.BufferedReader br = new java.io.BufferedReader(isr);
String tempbf;
while ((tempbf = br.readLine()) != null) {
sb.append(tempbf);
sb.append("\r\n");
}
isr.close();
gzin.close();
html = sb.toString();
} else {
html = getMethod.getResponseBodyAsString();
}
return html;
} else { }
4. 了解线程池概念
(1)、为什么要使用线程池?
其一、减少创建和销毁线程的次数,每个工作线程都可以被重复利用可以执行多个任务。
其二、可以根据系统的承受能力,调整线程池中工作线程的数目,防止因为消耗过多内存而把服务器累趴下
(2)、java从java1.5之后,java提供了自带的线程池ThreadPoolExecutor类
(3)、工作线程和核心线程的区别:
核心线程:我们自己定义的线程,即实现Runnable接口的类,是我们将要放到线程池中执行的类。
工作线程:由线程池中创建的线程,是用来获得核心线程并执行的核心线程的线程。
(4)、java.util.concurrent包提供了现成的线程池实现
Executor接口表示线程池,它的execute(Runnable task)方法来执行Runable类型的任务
ExecutorService中声明了管理线程池的一些方法,比如:shutdown()关闭线程池isTerminated()关闭后任务是否都以完成
Executors类中包含了一些静态方法用于创建ExecutorService实例
ThreadPoolExecutor ExecuteService默认实现
Executor
<interface>
execute()
Executors
newCachedThreadPool() :
newFixedThreadPool(int nThread)
newSingleThreadExecutor()
newScheduledThreadPool()
ExecutorService
<interface>
shutdown()
isTerminated()
ThreadPoolExecutor
int corePoolSize
int maximumPoolSize
long keepAliveTime
TimeUnit unit
BlockingQueue<Runnable> workQueue
例子:
public class ThreadPoolDemo {
public void Test(){
/*创建一个可根据需要创建新线程的线程池,但是在以前构造的线程可用时将重用它们。*/
ExecutorService pool = Executors.newCachedThreadPool();
/*创建实现了runnable接口的对象*/
Thread t1 = new Thread(new MyThread());
Thread t2 = new Thread(new MyThread());
Thread t3 = new Thread(new MyThread());
Thread t4 = new Thread(new MyThread());
Thread t5 = new Thread(new MyThread());
/*将线程放入池中进行执行*/
pool.execute(t1);
pool.execute(t2);
pool.execute(t3);
pool.execute(t4);
pool.execute(t5);
/*关闭线程池*/
pool.shutdown();
}
class MyThread implements Runnable{
@Override
public void run() { System.out.println(Thread.currentThread().getName() + "is Running...");
}
}
public static void main(String[] args){
new ThreadPoolDemo().Test();
}
}
执行结果:
pool-1-thread-1is Running...!
pool-1-thread-3is Running...!
pool-1-thread-5is Running...!
pool-1-thread-2is Running...!
pool-1-thread-4is Running...!
小结:
(1)、创建核心线程任务
(2)、根据需要创建合适的线程池实例
(3)、将核心线程任务execute给线程池
分享到:
相关推荐
在智慧园区建设的浪潮中,一个集高效、安全、便捷于一体的综合解决方案正逐步成为现代园区管理的标配。这一方案旨在解决传统园区面临的智能化水平低、信息孤岛、管理手段落后等痛点,通过信息化平台与智能硬件的深度融合,为园区带来前所未有的变革。 首先,智慧园区综合解决方案以提升园区整体智能化水平为核心,打破了信息孤岛现象。通过构建统一的智能运营中心(IOC),采用1+N模式,即一个智能运营中心集成多个应用系统,实现了园区内各系统的互联互通与数据共享。IOC运营中心如同园区的“智慧大脑”,利用大数据可视化技术,将园区安防、机电设备运行、车辆通行、人员流动、能源能耗等关键信息实时呈现在拼接巨屏上,管理者可直观掌握园区运行状态,实现科学决策。这种“万物互联”的能力不仅消除了系统间的壁垒,还大幅提升了管理效率,让园区管理更加精细化、智能化。 更令人兴奋的是,该方案融入了诸多前沿科技,让智慧园区充满了未来感。例如,利用AI视频分析技术,智慧园区实现了对人脸、车辆、行为的智能识别与追踪,不仅极大提升了安防水平,还能为园区提供精准的人流分析、车辆管理等增值服务。同时,无人机巡查、巡逻机器人等智能设备的加入,让园区安全无死角,管理更轻松。特别是巡逻机器人,不仅能进行360度地面全天候巡检,还能自主绕障、充电,甚至具备火灾预警、空气质量检测等环境感知能力,成为了园区管理的得力助手。此外,通过构建高精度数字孪生系统,将园区现实场景与数字世界完美融合,管理者可借助VR/AR技术进行远程巡检、设备维护等操作,仿佛置身于一个虚拟与现实交织的智慧世界。 最值得关注的是,智慧园区综合解决方案还带来了显著的经济与社会效益。通过优化园区管理流程,实现降本增效。例如,智能库存管理、及时响应采购需求等举措,大幅减少了库存积压与浪费;而设备自动化与远程监控则降低了维修与人力成本。同时,借助大数据分析技术,园区可精准把握产业趋势,优化招商策略,提高入驻企业满意度与营收水平。此外,智慧园区的低碳节能设计,通过能源分析与精细化管理,实现了能耗的显著降低,为园区可持续发展奠定了坚实基础。总之,这一综合解决方案不仅让园区管理变得更加智慧、高效,更为入驻企业与员工带来了更加舒适、便捷的工作与生活环境,是未来园区建设的必然趋势。
labelme标注的json转mask掩码图,用于分割数据集 批量转化,生成cityscapes格式的数据集
(参考GUI)MATLAB GUI漂浮物垃圾分类检测.zip
人脸识别项目源码实战
人脸识别项目实战
本仿真模型基于MATLAB/Simulink(版本MATLAB 2016Rb)软件。建议采用matlab2016 Rb及以上版本打开。(若需要其他版本可联系代为转换) CSDN详情地址:https://blog.csdn.net/qq_50594161/article/details/146242453sharetype=blogdetail&sharerId=146242453&sharerefer=PC&sharesource=qq_50594161&spm=1011.2480.3001.8118
实战练习分词、创建词表、文本处理
在智慧园区建设的浪潮中,一个集高效、安全、便捷于一体的综合解决方案正逐步成为现代园区管理的标配。这一方案旨在解决传统园区面临的智能化水平低、信息孤岛、管理手段落后等痛点,通过信息化平台与智能硬件的深度融合,为园区带来前所未有的变革。 首先,智慧园区综合解决方案以提升园区整体智能化水平为核心,打破了信息孤岛现象。通过构建统一的智能运营中心(IOC),采用1+N模式,即一个智能运营中心集成多个应用系统,实现了园区内各系统的互联互通与数据共享。IOC运营中心如同园区的“智慧大脑”,利用大数据可视化技术,将园区安防、机电设备运行、车辆通行、人员流动、能源能耗等关键信息实时呈现在拼接巨屏上,管理者可直观掌握园区运行状态,实现科学决策。这种“万物互联”的能力不仅消除了系统间的壁垒,还大幅提升了管理效率,让园区管理更加精细化、智能化。 更令人兴奋的是,该方案融入了诸多前沿科技,让智慧园区充满了未来感。例如,利用AI视频分析技术,智慧园区实现了对人脸、车辆、行为的智能识别与追踪,不仅极大提升了安防水平,还能为园区提供精准的人流分析、车辆管理等增值服务。同时,无人机巡查、巡逻机器人等智能设备的加入,让园区安全无死角,管理更轻松。特别是巡逻机器人,不仅能进行360度地面全天候巡检,还能自主绕障、充电,甚至具备火灾预警、空气质量检测等环境感知能力,成为了园区管理的得力助手。此外,通过构建高精度数字孪生系统,将园区现实场景与数字世界完美融合,管理者可借助VR/AR技术进行远程巡检、设备维护等操作,仿佛置身于一个虚拟与现实交织的智慧世界。 最值得关注的是,智慧园区综合解决方案还带来了显著的经济与社会效益。通过优化园区管理流程,实现降本增效。例如,智能库存管理、及时响应采购需求等举措,大幅减少了库存积压与浪费;而设备自动化与远程监控则降低了维修与人力成本。同时,借助大数据分析技术,园区可精准把握产业趋势,优化招商策略,提高入驻企业满意度与营收水平。此外,智慧园区的低碳节能设计,通过能源分析与精细化管理,实现了能耗的显著降低,为园区可持续发展奠定了坚实基础。总之,这一综合解决方案不仅让园区管理变得更加智慧、高效,更为入驻企业与员工带来了更加舒适、便捷的工作与生活环境,是未来园区建设的必然趋势。
人脸识别项目源码实战
学生信息管理系统是一个基于Java Web技术的综合性管理平台。通过此系统,可以实现对学生、教师、选课信息等的动态管理, 提升学校管理效率。系统采用分层架构设计,前端使用HTML、CSS,JavaScript和jQuery,后端基于Servlet,JSP和Spring框架,数据库采用MySQL。主要有四个大功能,学生管理( 增加学生信息、删除学生信息、修改学生信息、查询学生信息)、教师管理(增加教师信息、删除教师信息、修改教师信息、查询教师信息)、选课信息管理(添加选课、查询选课情况、删除选课记录)、系统管理( 登录与注册功能、 用户角色管理(老师,学生,管理员)、系统日志查看)。 技术架构 1.前端技术 HTML,CSS:静态页面布局与样式 JavaScript,jQuery:动态交互、DOM操作和AJAX请求 2.后端技术 Servlet:控制层,处理用户请求 JSP:页面动态生成 Spring:依赖注入,业务逻辑分离 3.数据库 MySQL:存储学生、教师,课程等数据 JDBC:数据库连接与操作
本课程是 PHP 进阶系列之 Swoole 入门精讲,系统讲解 Swoole 在 PHP 高性能开发中的应用,涵盖 协程、异步编程、WebSocket、TCP/UDP 通信、任务投递、定时器等核心功能。通过理论解析和实战案例相结合,帮助开发者掌握 Swoole 的基本使用方法及其在高并发场景下的应用。 适用人群: 适合 有一定 PHP 基础的开发者、希望提升后端性能优化能力的工程师,以及 对高并发、异步编程感兴趣的学习者。 能学到什么: 掌握 Swoole 基础——理解 Swoole 的核心概念,如协程、异步编程、事件驱动等。 高并发处理——学习如何使用 Swoole 构建高并发的 Web 服务器、TCP/UDP 服务器。 实战项目经验——通过案例实践,掌握 Swoole 在 WebSocket、消息队列、微服务等场景的应用。 阅读建议: 建议先掌握 PHP 基础,了解 HTTP 服务器和并发处理相关概念。学习过程中,结合 官方文档和实际项目 进行实践,加深理解,逐步提升 Swoole 开发能力。
人脸识别项目实战
人脸识别项目实战
功能简介:本工具可实现批量对照片文件的人脸识别,并按指定分辨率进行转换保存。 可为人脸识别采集系统提供很好的辅助工具。 软件基本于OPENVC开发,识别精确,转换高效。 人脸识别工具 +人脸采集处理
内容概要:本文探讨了利用肌长变化反馈控制(FCM-ML)和演员-评论家强化学习(ACRL-NGN)来有效实现人体上肢和下肢无意识姿态稳定的算法方法。通过构建一个包含949条肌肉和22个关节的全身计算模型,在不同初始姿势的情况下进行模拟试验,验证了这些方法的有效性和鲁棒性,结果显示FCM-ML方法比其他传统方法更适用于此类任务。研究指出人类及其他脊椎动物在无意识状态下,通过抗拮抗性的肌肉长度变化反馈机制来维持舒适状态下的自然身体姿势(NBP)。此外,研究还表明这种控制策略有助于机器人设计、运动员训练以及康复患者的治疗。 适用人群:生物力学、机器人学以及神经科学领域的研究人员、工程师,以及关注人体姿态控制及其应用的学者和技术人员。 使用场景及目标:①解释人和非人的脊椎动物如何在无意识情况下维持最佳姿势,特别是处于重力环境中的自然身体姿势(NBP)。②为机器人肌肉控制提供理论支持和发展方向,特别是在模拟多肌肉协调控制方面。③指导运动训练及病患恢复计划的设计与优化。 其他说明:研究发现ACRL-NGN结合FCM-ML不仅能够迅速有效地实现期望的姿态稳定性,而且不需要对肌肉分类,这使其在复
反编译apk重要的工具之一
人脸识别项目实战
FDTD复现圆偏振超透镜 ,FDTD; 复现; 圆偏振; 超透镜;,FDTD技术在超透镜复现圆偏振的实践
手势识别项目实战