早前经常在网站上面下载动画和日剧,后来BT没有了~ 就只能逛论坛了!
现在的论坛大家也都了解~ 广告铺天盖地,打开个页面有时候能跳出来3-4个广告
对我来说常去的也就是猪猪字幕,不过那些垃圾广告实在没有办法,再就是垃圾服务器访问速度巨慢无比,点个下一页不知道要等N久~~
所以想到了 我每次只需要帖子列表 具体想看哪个再打开页面去下载种子(其实再做一个访问帖子链接 下载种子的方法也不难,感觉还是需要看到截图和宣传画才能决定是否下载就没有继续做)
回到技术方面,普通的多线程很难对线程数量进行控制,只要运行,所有队列里面的都会运行,受制约于带宽问题,很多页面本来是可以打开的,因为网络没有读到数据,于是想到了线程池,也就是保证池中每次只有几个线程在运行,早前发现的方法都是用 ThreadGroup 和 WatchThread方法解决这个问题,开发和维护起来就稍显的复杂了。除非是你的线程间要传递数据,否则并行的线程完全够用了
//线程、最大池、存活时间、存活时间单位、队列
ThreadPoolExecutor executor = new ThreadPoolExecutor(2, 20, 1, TimeUnit.HOURS, new LinkedBlockingQueue());
循环 executor.execute(new XxxThread(xxx,xxx)); 将线程加入池中
我也没有太细致的阅读到这部分的源码,所以就算是抛砖引玉的把方法抛出来供大家使用和研究了。
保存数据库之类的方法我都删除了,毕竟为了这东西没必要再去让运行的人都去装个Mysql之类的数据库
线程入口程序
import java.util.concurrent.LinkedBlockingQueue;
import java.util.concurrent.ThreadPoolExecutor;
import java.util.concurrent.TimeUnit;
public class BbsThread implements Runnable {
private int fid;
private int lastyear;
public int getFid() {
return fid;
}
public void setFid(int fid) {
this.fid = fid;
}
public int getLastyear() {
return lastyear;
}
public void setLastyear(int lastyear) {
this.lastyear = lastyear;
}
public BbsThread(){}
public BbsThread(int fid,int lastyear){
this.fid = fid;
this.lastyear = lastyear;
}
//run方法
public void run() {
System.out.println("线程启动,开始抓取数据");
BBS.t(1,2,fid,lastyear); //每个线程只抓取1-2页
}
@SuppressWarnings({ "rawtypes", "unchecked" })
public static void main(String[] args) {
// BlockingQueue queue = new LinkedBlockingQueue();
//线程、最大池、存活时间、存活时间单位、队列
ThreadPoolExecutor executor = new ThreadPoolExecutor(2, 20, 1, TimeUnit.HOURS, new LinkedBlockingQueue());
int[] fids = {66,200,168,306};
int lastyear = 2010; //不能是2010年前的,可以是2010
for(int i=0;i<fids.length;i++){
executor.execute(new BbsThread(fids[i],lastyear));
}
executor.shutdown();
}
}
后面的这个是抓取论坛数据的部分,也可以单独运行,不过那可就真是单线程的了
package com.test;
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class BBS {
//单独运行抓取方法,线程池请运行 BbsThread
public static void main(String[] args) {
int[] fids = {66,200,168,306};
int lastyear = 2010; //不能是2010年前的,可以是2010
for(int i=0;i<fids.length;i++){
t(1,8,fids[i],lastyear); //抓取页数1-8页
}
}
public static void t(int from, int end, int fid, int lastyear) {
String url = "http://www.subpig.net/forumdisplay.php?fid="+fid+"&page=";
if (from > end)
return;
for (; from <= end; from++) {
int i = 1;
System.out.println(url+from);
String htmltext = gethtml("gbk", url + from).replaceAll("\\t", "");
String regex = "<tbody id=\"[\\w]+_[\\d]+\"(.*?)</tbody>";
Matcher mc = regex(htmltext, regex);
while (mc.find()) {
String txt = mc.group(1);
// 我不看棒子的东西,相关的都过滤
if (txt.indexOf("韩剧") != -1 || txt.indexOf("韩语") != -1 || txt.indexOf("韩国") != -1)
continue;
Matcher titlemc = regex(txt,"<a href=\"([^<>]*forum\\.php\\?mod=viewthread&[amp;]*tid=[\\d]+)[^<>]+ class=\"xst\"[\\s]?>([^<]+)</a>"); // [color=red]正则部分替换测试时间2012-06-19可用[/color]
Matcher timemc = regex(txt, "<em>([0-9|-]+)</em>"); // time
System.out.print(i++ + " ");
if (titlemc.find()) {
String title = titlemc.group(2)
.replaceAll("'", "''")
.replaceAll("【", "[")
.replaceAll("】", "]");
System.out.print(title + " "); // title
String href = titlemc.group(1);
String time = "";
if (timemc.find()){
time = timemc.group(1);
Integer year = Integer.parseInt(time.substring(0,4));
if(year!=null&&year<lastyear)continue;
System.out.print(time+" "); //日期
}
System.out.println(reurl(url, href));
}
}
}
}
//URL链接拼接
public static String reurl(String url,String href){
String hrefurl = href;
if(!href.toLowerCase().startsWith("http://")){
hrefurl = url.substring(0,url.lastIndexOf("/") + 1) + href;
}
return hrefurl;
}
//简化正则表达式的使用
public static Matcher regex(String htmltext, String regex) {
Pattern spattern = null;
Matcher smatcher = null;
spattern = Pattern.compile(regex);
smatcher = spattern.matcher(htmltext);
return smatcher;
}
//抓取网页
public static String gethtml(String htmltype,String httpurl){
String str = "";
try{
URL urlx = new URL(httpurl);
HttpURLConnection uc = (HttpURLConnection) urlx.openConnection();
uc.setDoInput(true);
uc.setUseCaches(false);
uc.setRequestMethod("GET");
uc.setInstanceFollowRedirects(true);
uc.setConnectTimeout(30*1000);
uc.setReadTimeout(60*1000);
InputStream inputstream = uc.getInputStream();
BufferedReader bufferedreader = null;
if(htmltype==null||htmltype.trim().equals(""))bufferedreader = new BufferedReader(new InputStreamReader(inputstream));
else bufferedreader = new BufferedReader(new InputStreamReader(inputstream,htmltype));
String s1;
while ((s1 = bufferedreader.readLine()) != null)
str = str + s1;
}catch (Exception e) {
e.printStackTrace();
}
return str;
}
}
分享到:
相关推荐
线程池ThreadPoolExecutor实战及其原理分析(下)线程池ThreadPoolExecutor实战及其原理分析(下)线程池ThreadPoolExecutor实战及其原理分析(下)线程池ThreadPoolExecutor实战及其原理分析(下)线程池ThreadPoolExecutor...
1.资源简介:PyQt5中使用多线程模块QThread解决了PyQt5界面程序执行比较耗时操作时,程序卡顿出现的无响应以及界面输出无法实时显示的问题,采用线程池ThreadPoolExecutor解决了ping多个IP多任务耗时问题。...
线程池ThreadPoolExecutor底层原理源码分析
创建线程池使用`ThreadPoolExecutor`构造函数,其参数含义如下: - `corePoolSize`: 核心线程数,表示线程池中保持的最小线程数。 - `maximumPoolSize`: 最大线程数,定义了线程池允许的最大并发线程数。 - `...
线程池ThreadPoolExecutor实战及其原理分析(上)
在《阿里巴巴java开发手册》中...另外由于前面几种方法内部也是通过ThreadPoolExecutor方式实现,使用ThreadPoolExecutor有助于大家明确线程池的运行规则,创建符合自己的业务场景需要的线程池,避免资源耗尽的风险。
ThreadPoolExecutor的使用和Android常见的4种线程池使用介绍
从Python3.2开始,标准库为我们提供了 concurrent.futures 模块,它提供了 ThreadPoolExecutor (线程池)和ProcessPoolExecutor (进程池)两个类。 相比 threading 等模块,该模块通过 submit 返回的是一个 future ...
这个类是Spring对Java内置的`java.util.concurrent.ThreadPoolExecutor`的封装,允许开发者在Spring应用上下文中声明式地定义线程池。在本篇文章中,我们将深入探讨`ThreadPoolTaskExecutor`的配置及其使用,并结合`...
线程池ThreadPoolExecutor使用简介与方法实例 线程池ThreadPoolExecutor是Java并发编程中一个非常重要的概念,它允许开发者将任务提交给线程池,并由线程池来管理这些任务的执行。今天,我们将对线程池...
线程池作为 Java 并发编程中的重要组件,在实际应用中被广泛使用。其核心类 `ThreadPoolExecutor` 实现了对线程的管理、调度等功能。本文将围绕 `ThreadPoolExecutor` 的核心方法 `execute()` 进行深入解析,帮助...
根据提供的文件信息,我们可以深入探讨线程池`ThreadPoolExecutor`的工作原理及其实现细节,同时也会涉及并发编程中的一些关键概念和技术。 ### 线程池`ThreadPoolExecutor`概述 `ThreadPoolExecutor`是Java中非常...
根据给定文件的信息,我们可以深入探讨Java中`ThreadPoolExecutor`线程池的底层实现原理,特别是其核心数据结构`ctl`以及线程池的各种状态转换。以下是对这些知识点的详细解释: ### 一、线程池`ThreadPoolExecutor...
Java 线程池例子 ThreadPoolExecutor Java 中的线程池是指一个容器,里面包含了多个线程,这些线程可以重复使用,以避免频繁创建和销毁线程的开销。ThreadPoolExecutor 是 Java 中一个非常重要的线程池实现类,它...
Java线程池ThreadPoolExecutor原理及使用实例 Java线程池ThreadPoolExecutor是Java并发编程中的一种基本机制,主要用于管理和执行任务的线程池。下面对其原理和使用实例进行详细介绍。 线程池概述 线程池是一个...
JDK1[1].5中的线程池(ThreadPoolExecutor)使用简介
Android中的线程池ThreadPoolExecutor解决了单线程下载数据的效率慢和线程阻塞的的问题,它的应用也是优化实现的方式。所以它的重要性不言而喻,但是它的复杂性也大,理解上可能会有问题,不过作为安卓工程师,了解...
Java线程池是Java并发编程中...总结来说,理解并正确使用Java线程池和ThreadPoolExecutor对于优化Java应用程序的并发性能至关重要。通过调整线程池的参数,可以平衡资源利用率和系统响应时间,从而提高整体的系统效率。