- 浏览: 99901 次
- 性别:
- 来自: 杭州
文章分类
最新评论
-
wangyajin333:
棒棒的。写得很好!
深入理解HashMap -
mciiv:
赞一个~ 不过对下面所述的问题有一些不同的看法, 仅为个人观 ...
深入理解HashMap -
showgo1306:
随便说说:发现几个问题,中国的程序员果然如传闻中的那样会随意指 ...
mysql的jdbc驱动分析 -
ychen_123:
我想咨询你一个关于JMX的问题。
就是启动一个程序。
配置 ...
JMX的一些讨论 -
mzyp:
多谢分享
多线程断点续传实践
/**
* author:annegu
* date:2009-07-16
*/
annegu做了一个简单的Http多线程的下载程序,来讨论一下多线程并发下载以及断点续传的问题。
这个程序的功能,就是可以分多个线程从目标地址上下载数据,每个线程负责下载一部分,并可以支持断点续传和超时重连。
下载的方法是download(),它接收两个参数,分别是要下载的页面的url和编码方式。在这个负责下载的方法中,主要分了三个步骤。第一步是用来设置断点续传时候的一些信息的,第二步就是主要的分多线程来下载了,最后是数据的合并。
1、多线程下载:
首先来看最主要的步骤:多线程下载。
首先从url中提取目标文件的名称,并在对应的目录创建文件。然后取得要下载的文件大小,根据分成的下载线程数量平均分配每个线程需要下载的数据量,就是threadLength。然后就可以分多个线程来进行下载任务了。
在这个例子中,并没有直接显示的创建Thread对象,而是用Executor来管理Thread对象,并且用CachedThreadPool来创建的线程池,当然也可以用FixedThreadPool。CachedThreadPool在程序执行的过程中会创建与所需数量相同的线程,当程序回收旧线程的时候就停止创建新线程。FixedThreadPool可以预先新建参数给定个数的线程,这样就不用在创建任务的时候再来创建线程了,可以直接从线程池中取出已准备好的线程。下载线程的数量是通过一个全局变量threadNum来控制的,默认为5。
好了,这5个子线程已经通过Executor来创建了,下面它们就会各自为政,互不干涉的执行了。线程有两种实现方式:实现Runnable接口;继承Thread类。
ChildThread就是子线程,它作为DownloadTask的内部类,继承了Thread,它的构造方法需要5个参数,依次是一个对DownloadTask的引用,一个CountDownLatch,id(标识线程的id号),startPosition(下载内容的开始位置),endPosition(下载内容的结束位置)。
这个CountDownLatch是做什么用的呢?
现在我们整理一下思路,要实现分多个线程来下载数据的话,我们肯定还要把这多个线程下载下来的数据进行合。主线程必须等待所有的子线程都执行结束之后,才能把所有子线程的下载数据按照各自的id顺序进行合并。CountDownLatch就是来做这个工作的。
CountDownLatch用来同步主线程,强制主线程等待所有的子线程执行的下载操作完成。在主线程中,CountDownLatch对象被设置了一个初始计数器,就是子线程的个数5个,代码①处。在新建了5个子线程并开始执行之后,主线程用CountDownLatch的await()方法来阻塞主线程,直到这个计数器的值到达0,才会进行下面的操作,代码②处。
对每个子线程来说,在执行完下载指定区间与长度的数据之后,必须通过调用CountDownLatch的countDown()方法来把这个计数器减1。
2、在全面开启下载任务之后,主线程就开始阻塞,等待子线程执行完毕,所以下面我们来看一下具体的下载线程ChildThread。
在ChildThread的构造方法中,除了设置一些从主线程中带来的id, 起始位置之外,就是新建了一个临时文件用来存放当前线程的下载数据。临时文件的命名规则是这样的:下载的目标文件名+”_”+线程编号。
现在让我们来看看从网络中读数据是怎么读的。我们通过URLConnection来获得一个http的连接。有些网站为了安全起见,会对请求的http连接进行过滤,因此为了伪装这个http的连接请求,我们给httpHeader穿一件伪装服。下面的setHeader方法展示了一些非常常用的典型的httpHeader的伪装方法。比较重要的有:Uer-Agent模拟从Ubuntu的firefox浏览器发出的请求;Referer模拟浏览器请求的前一个触发页面,例如从skycn站点来下载软件的话,Referer设置成skycn的首页域名就可以了;Range就是这个连接获取的流文件的起始区间。
另外,为了避免线程因为网络原因而阻塞,设置了ConnectTimeout和ReadTimeout,代码④处。setConnectTimeout设置的连接的超时时间,而setReadTimeout设置的是读取数据的超时时间,发生超时的话,就会抛出socketTimeout异常,两个方法的参数都是超时的毫秒数。
这里对超时的发生,采用的是等候一段时间重新连接的方法。整个获取网络连接并读取下载数据的过程都包含在一个循环之中(代码③处),如果发生了连接或者读取数据的超时,在抛出的异常里面就会sleep一定的时间(代码⑩处),然后continue,再次尝试获取连接并读取数据,这个时间可以通过setSleepSeconds()方法来设置。我们在迅雷等下载工具的使用中,经常可以看到状态栏会输出类似“连接超时,等待*秒后重试”的话,这个就是通过ConnectTimeout,ReadTimeout来实现的。
连接建立好之后,我们要检查一下返回响应的状态码。常见的Http Response Code有以下几种:
a) 200 OK 一切正常,对GET和POST请求的应答文档跟在后面。
b) 206 Partial Content 客户发送了一个带有Range头的GET请求,服务器完成。
c) 404 Not Found 无法找到指定位置的资源。这也是一个常用的应答。
d) 414 Request URI Too Long URI太长。
e) 416 Requested Range Not Satisfiable 服务器不能满足客户在请求中指定的Range头。
f) 500 Internal Server Error 服务器遇到了意料不到的情况,不能完成客户的请求。
g) 503 Service Unavailable 服务器由于维护或者负载过重未能应答。例如,Servlet可能在数据库连接池已满的情况下返回503。
在这些状态里面,只有200与206才是我们需要的正确的状态。所以在代码⑤处,进行了状态码的判断,如果返回不符合要求的状态码,则结束线程,返回主线程并提示报错。
假设一切正常,下面我们就要考虑从网络中读数据了。正如我之前在分析mysql的数据库驱动中看的一样,网络中发送数据都是以数据包的形式来发送的,也就是说不管是客户端向服务器发出的请求数据,还是从服务器返回给客户端的响应数据,都会被拆分成若干个小型数据包在网络中传递,等数据包到达了目的地,网络接口会依据数据包的编号来组装它们,成为完整的比特数据。因此,我们可以想到在这里也是一样的,我们用inputStream的read方法来通过网卡从网络中读取数据,并不一定一次就能把所有的数据包都读完,所以我们要不断的循环来从inputStream中读取数据。Read方法有一个int型的返回值,表示每次从inputStream中读取的字节数,如果把这个inputStream中的数据读完了,那么就返回-1。
Read方法最多可以有三个参数,byte b[]是读取数据之后存放的目标数组,off标识了目标数组中存储的开始位置,len是想要读取的数据长度,这个长度必定不能大于b[]的长度。
public synchronized int read(byte b[], int off, int len);
我们的目标是要把目标地址的内容下载下来,现在分了5个线程来分段下载,那么这些分段下载的数据保存在哪里呢?如果把它们都保存在内存中是非常糟糕的做法,如果文件相当之大,例如是一个视频的话,难道把这么大的数据都放在内存中吗,这样的话,万一连接中断,那前面下载的东西就都没有了?我们当然要想办法及时的把下载的数据刷到磁盘上保存下来。当用bt下载视频的时候,通常都会有个临时文件,当视频完全下载结束之后,这个临时文件就会被删除,那么下次继续下载的时候,就会接着上次下载的点继续下载。所以我们的outputStream就是往这个临时文件来输出了。
OutputStream的write方法和上面InputStream的read方法有类似的参数,byte b[]是输出数据的来源,off标识了开始位置,len是数据长度。
public synchronized void write(byte b[], int off, int len) throws IOException;
在往临时文件的outputStream中写数据的时候,我会加上一个计数器,每满4096个比特就往文件中flush一下(代码⑦处)。
对于输出流的flush,有些要注意的地方,在程序中有三个地方调用了outputStream.flush()。第一个是在循环的读取网络数据并往outputStream中写入的时候,每满4096个byte就flush一下(代码⑦处);第二个是循环之后(代码⑧处),这时候正常的读取写入操作已经完成,但是outputStream中还有没有刷入磁盘的数据,所以要flush一下才能关闭连接;第三个就是在异常中的flush(代码⑨处),因为如果发生了连接超时或者读取数据超时的话,就会直接跑到catch的exception中去,这个时候outputStream中的数据如果不flush的话,重新连接的时候这部分数据就会丢失了。另外,当抛出异常,重新连接的时候,下载的起始位置也要重新设置,所以在代码⑥处,即每次从inputStream中读取数据之后,startPosition就要重新设置,count标识了已经下载的字节数。
3、现在每个分段的下载线程都顺利结束了,也都创建了相应的临时文件,接下来在主线程中会对临时文件进行合并,并写入目标文件,最后删除临时文件。这部分很简单,就是一个对所有下载线程进行遍历的过程。这里outputStream也有两次flush,与上面类似,不再赘述。
4、最后,说说断点续传,前面为了实现断点续传,在每个下载线程中都创建了一个临时文件,现在我们就要利用这个临时文件来设置断点的位置。由于临时文件的命名方式都是固定的,所以我们就专门找对应下载的目标文件的临时文件,临时文件中已经下载的字节数就是我们需要的断点位置。startPos是一个数组,存放了每个线程的已下载的字节数。
5、测试
测试从apache下载一个velocity的压缩包,临时文件保留,看一下下载结果:
另:在测试从skycn下载软件的过程中,碰到了一个错误:
java.io.IOException: Server returned HTTP response code: 416 for URL: http://www.skycn.com/
上网查了一下:416 Requested Range Not Satisfiable 服务器不能满足客户在请求中指定的Range头,于是把threadNum改为1就可以了。
这个下载功能现在只是完成了很基础的一部分,最初的初衷就是为了演练一下CountdownLatch。CountdownLatch就是一个计数器,就像一个拦截的栅栏,用await()方法来把栅栏关上,线程就跑不下去了,只有等计数器减为0的时候,栅栏才会自动打开,被暂停的线程才会继续运行。CountdownLatch的应用场景可以有很多,分段下载就是一个很好的例子。
附件1是对应的java文件。
2009-07-25添加附件2,修改过的download,用RadomAccessFile,一个临时文件记录下载位置。
apache mina, jpos的源代码也不是说所有的函数都很小。
但是楼主确实应该抽象、封装下比较好。
都控制10行,是不是太小了?如果代码多,那岂不是要分成很多个方法?
要根据业务来定的··一个方法最好别超过30行,反正原来一个方法里写的分到两个方法里去,绝对不会比在一个方法里快。
都控制10行,是不是太小了?如果代码多,那岂不是要分成很多个方法?
* author:annegu
* date:2009-07-16
*/
annegu做了一个简单的Http多线程的下载程序,来讨论一下多线程并发下载以及断点续传的问题。
这个程序的功能,就是可以分多个线程从目标地址上下载数据,每个线程负责下载一部分,并可以支持断点续传和超时重连。
下载的方法是download(),它接收两个参数,分别是要下载的页面的url和编码方式。在这个负责下载的方法中,主要分了三个步骤。第一步是用来设置断点续传时候的一些信息的,第二步就是主要的分多线程来下载了,最后是数据的合并。
1、多线程下载:
public String download(String urlStr, String charset) { this.charset = charset; long contentLength = 0; ① CountDownLatch latch = new CountDownLatch(threadNum); long[] startPos = new long[threadNum]; long endPos = 0; try { // 从url中获得下载的文件格式与名字 this.fileName = urlStr.substring(urlStr.lastIndexOf("/") + 1, urlStr.lastIndexOf("?")>0 ? urlStr.lastIndexOf("?") : urlStr.length()); if("".equalsIgnoreCase(this.fileName)){ this.fileName = UUID.randomUUID().toString(); } this.url = new URL(urlStr); URLConnection con = url.openConnection(); setHeader(con); // 得到content的长度 contentLength = con.getContentLength(); // 把context分为threadNum段的话,每段的长度。 this.threadLength = contentLength / threadNum; // 第一步,分析已下载的临时文件,设置断点,如果是新的下载任务,则建立目标文件。在第4点中说明。 startPos = setThreadBreakpoint(fileDir, fileName, contentLength, startPos); //第二步,分多个线程下载文件 ExecutorService exec = Executors.newCachedThreadPool(); for (int i = 0; i < threadNum; i++) { // 创建子线程来负责下载数据,每段数据的起始位置为(threadLength * i + 已下载长度) startPos[i] += threadLength * i; /*设置子线程的终止位置,非最后一个线程即为(threadLength * (i + 1) - 1) 最后一个线程的终止位置即为下载内容的长度*/ if (i == threadNum - 1) { endPos = contentLength; } else { endPos = threadLength * (i + 1) - 1; } // 开启子线程,并执行。 ChildThread thread = new ChildThread(this, latch, i, startPos[i], endPos); childThreads[i] = thread; exec.execute(thread); } try { // 等待CountdownLatch信号为0,表示所有子线程都结束。 ② latch.await(); exec.shutdown(); // 第三步,把分段下载下来的临时文件中的内容写入目标文件中。在第3点中说明。 tempFileToTargetFile(childThreads); } catch (InterruptedException e) { e.printStackTrace(); } }
首先来看最主要的步骤:多线程下载。
首先从url中提取目标文件的名称,并在对应的目录创建文件。然后取得要下载的文件大小,根据分成的下载线程数量平均分配每个线程需要下载的数据量,就是threadLength。然后就可以分多个线程来进行下载任务了。
在这个例子中,并没有直接显示的创建Thread对象,而是用Executor来管理Thread对象,并且用CachedThreadPool来创建的线程池,当然也可以用FixedThreadPool。CachedThreadPool在程序执行的过程中会创建与所需数量相同的线程,当程序回收旧线程的时候就停止创建新线程。FixedThreadPool可以预先新建参数给定个数的线程,这样就不用在创建任务的时候再来创建线程了,可以直接从线程池中取出已准备好的线程。下载线程的数量是通过一个全局变量threadNum来控制的,默认为5。
好了,这5个子线程已经通过Executor来创建了,下面它们就会各自为政,互不干涉的执行了。线程有两种实现方式:实现Runnable接口;继承Thread类。
ChildThread就是子线程,它作为DownloadTask的内部类,继承了Thread,它的构造方法需要5个参数,依次是一个对DownloadTask的引用,一个CountDownLatch,id(标识线程的id号),startPosition(下载内容的开始位置),endPosition(下载内容的结束位置)。
这个CountDownLatch是做什么用的呢?
现在我们整理一下思路,要实现分多个线程来下载数据的话,我们肯定还要把这多个线程下载下来的数据进行合。主线程必须等待所有的子线程都执行结束之后,才能把所有子线程的下载数据按照各自的id顺序进行合并。CountDownLatch就是来做这个工作的。
CountDownLatch用来同步主线程,强制主线程等待所有的子线程执行的下载操作完成。在主线程中,CountDownLatch对象被设置了一个初始计数器,就是子线程的个数5个,代码①处。在新建了5个子线程并开始执行之后,主线程用CountDownLatch的await()方法来阻塞主线程,直到这个计数器的值到达0,才会进行下面的操作,代码②处。
对每个子线程来说,在执行完下载指定区间与长度的数据之后,必须通过调用CountDownLatch的countDown()方法来把这个计数器减1。
2、在全面开启下载任务之后,主线程就开始阻塞,等待子线程执行完毕,所以下面我们来看一下具体的下载线程ChildThread。
public class ChildThread extends Thread { public static final int STATUS_HASNOT_FINISHED = 0; public static final int STATUS_HAS_FINISHED = 1; public static final int STATUS_HTTPSTATUS_ERROR = 2; private DownloadTask task; private int id; private long startPosition; private long endPosition; private final CountDownLatch latch; // private RandomAccessFile tempFile = null; private File tempFile = null; //线程状态码 private int status = ChildThread.STATUS_HASNOT_FINISHED; public ChildThread(DownloadTask task, CountDownLatch latch, int id, long startPos, long endPos) { super(); this.task = task; this.id = id; this.startPosition = startPos; this.endPosition = endPos; this.latch = latch; try { tempFile = new File(this.task.fileDir + this.task.fileName + "_" + id); if(!tempFile.exists()){ tempFile.createNewFile(); } } catch (IOException e) { e.printStackTrace(); } } public void run() { System.out.println("Thread " + id + " run ..."); HttpURLConnection con = null; InputStream inputStream = null; BufferedOutputStream outputStream = null; long count = 0; long threadDownloadLength = endPosition - startPosition; try { outputStream = new BufferedOutputStream(new FileOutputStream(tempFile.getPath(), true)); } catch (FileNotFoundException e2) { e2.printStackTrace(); } ③ for(int k = 0; k < 10; k++){ if(k > 0) System.out.println("Now thread " + id + "is reconnect, start position is " + startPosition); try { //打开URLConnection con = (HttpURLConnection) task.url.openConnection(); setHeader(con); con.setAllowUserInteraction(true); //设置连接超时时间为10000ms ④ con.setConnectTimeout(10000); //设置读取数据超时时间为10000ms con.setReadTimeout(10000); if(startPosition < endPosition){ //设置下载数据的起止区间 con.setRequestProperty("Range", "bytes=" + startPosition + "-" + endPosition); System.out.println("Thread " + id + " startPosition is " + startPosition); System.out.println("Thread " + id + " endPosition is " + endPosition); //判断http status是否为HTTP/1.1 206 Partial Content或者200 OK //如果不是以上两种状态,把status改为STATUS_HTTPSTATUS_ERROR ⑤ if (con.getResponseCode() != HttpURLConnection.HTTP_OK && con.getResponseCode() != HttpURLConnection.HTTP_PARTIAL) { System.out.println("Thread " + id + ": code = " + con.getResponseCode() + ", status = " + con.getResponseMessage()); status = ChildThread.STATUS_HTTPSTATUS_ERROR; this.task.statusError = true; outputStream.close(); con.disconnect(); System.out.println("Thread " + id + " finished."); latch.countDown(); break; } inputStream = con.getInputStream(); int len = 0; byte[] b = new byte[1024]; while ((len = inputStream.read(b)) != -1) { outputStream.write(b, 0, len); count += len; ⑥ startPosition += len; //每读满4096个byte(一个内存页),往磁盘上flush一下 if(count % 4096 == 0){ ⑦ outputStream.flush(); } } System.out.println("count is " + count); if (count >= threadDownloadLength) { status = ChildThread.STATUS_HAS_FINISHED; } ⑧ outputStream.flush(); outputStream.close(); inputStream.close(); con.disconnect(); } else { status = ChildThread.STATUS_HAS_FINISHED; } System.out.println("Thread " + id + " finished."); latch.countDown(); break; } catch (IOException e) { try { ⑨ outputStream.flush(); ⑩ TimeUnit.SECONDS.sleep(getSleepSeconds()); } catch (InterruptedException e1) { e1.printStackTrace(); } catch (IOException e2) { e2.printStackTrace(); } continue; } } } }
在ChildThread的构造方法中,除了设置一些从主线程中带来的id, 起始位置之外,就是新建了一个临时文件用来存放当前线程的下载数据。临时文件的命名规则是这样的:下载的目标文件名+”_”+线程编号。
现在让我们来看看从网络中读数据是怎么读的。我们通过URLConnection来获得一个http的连接。有些网站为了安全起见,会对请求的http连接进行过滤,因此为了伪装这个http的连接请求,我们给httpHeader穿一件伪装服。下面的setHeader方法展示了一些非常常用的典型的httpHeader的伪装方法。比较重要的有:Uer-Agent模拟从Ubuntu的firefox浏览器发出的请求;Referer模拟浏览器请求的前一个触发页面,例如从skycn站点来下载软件的话,Referer设置成skycn的首页域名就可以了;Range就是这个连接获取的流文件的起始区间。
private void setHeader(URLConnection con) { con.setRequestProperty("User-Agent", "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092510 Ubuntu/8.04 (hardy) Firefox/3.0.3"); con.setRequestProperty("Accept-Language", "en-us,en;q=0.7,zh-cn;q=0.3"); con.setRequestProperty("Accept-Encoding", "aa"); con.setRequestProperty("Accept-Charset", "ISO-8859-1,utf-8;q=0.7,*;q=0.7"); con.setRequestProperty("Keep-Alive", "300"); con.setRequestProperty("Connection", "keep-alive"); con.setRequestProperty("If-Modified-Since", "Fri, 02 Jan 2009 17:00:05 GMT"); con.setRequestProperty("If-None-Match", "\"1261d8-4290-df64d224\""); con.setRequestProperty("Cache-Control", "max-age=0"); con.setRequestProperty("Referer", "http://www.dianping.com"); }
另外,为了避免线程因为网络原因而阻塞,设置了ConnectTimeout和ReadTimeout,代码④处。setConnectTimeout设置的连接的超时时间,而setReadTimeout设置的是读取数据的超时时间,发生超时的话,就会抛出socketTimeout异常,两个方法的参数都是超时的毫秒数。
这里对超时的发生,采用的是等候一段时间重新连接的方法。整个获取网络连接并读取下载数据的过程都包含在一个循环之中(代码③处),如果发生了连接或者读取数据的超时,在抛出的异常里面就会sleep一定的时间(代码⑩处),然后continue,再次尝试获取连接并读取数据,这个时间可以通过setSleepSeconds()方法来设置。我们在迅雷等下载工具的使用中,经常可以看到状态栏会输出类似“连接超时,等待*秒后重试”的话,这个就是通过ConnectTimeout,ReadTimeout来实现的。
连接建立好之后,我们要检查一下返回响应的状态码。常见的Http Response Code有以下几种:
a) 200 OK 一切正常,对GET和POST请求的应答文档跟在后面。
b) 206 Partial Content 客户发送了一个带有Range头的GET请求,服务器完成。
c) 404 Not Found 无法找到指定位置的资源。这也是一个常用的应答。
d) 414 Request URI Too Long URI太长。
e) 416 Requested Range Not Satisfiable 服务器不能满足客户在请求中指定的Range头。
f) 500 Internal Server Error 服务器遇到了意料不到的情况,不能完成客户的请求。
g) 503 Service Unavailable 服务器由于维护或者负载过重未能应答。例如,Servlet可能在数据库连接池已满的情况下返回503。
在这些状态里面,只有200与206才是我们需要的正确的状态。所以在代码⑤处,进行了状态码的判断,如果返回不符合要求的状态码,则结束线程,返回主线程并提示报错。
假设一切正常,下面我们就要考虑从网络中读数据了。正如我之前在分析mysql的数据库驱动中看的一样,网络中发送数据都是以数据包的形式来发送的,也就是说不管是客户端向服务器发出的请求数据,还是从服务器返回给客户端的响应数据,都会被拆分成若干个小型数据包在网络中传递,等数据包到达了目的地,网络接口会依据数据包的编号来组装它们,成为完整的比特数据。因此,我们可以想到在这里也是一样的,我们用inputStream的read方法来通过网卡从网络中读取数据,并不一定一次就能把所有的数据包都读完,所以我们要不断的循环来从inputStream中读取数据。Read方法有一个int型的返回值,表示每次从inputStream中读取的字节数,如果把这个inputStream中的数据读完了,那么就返回-1。
Read方法最多可以有三个参数,byte b[]是读取数据之后存放的目标数组,off标识了目标数组中存储的开始位置,len是想要读取的数据长度,这个长度必定不能大于b[]的长度。
public synchronized int read(byte b[], int off, int len);
我们的目标是要把目标地址的内容下载下来,现在分了5个线程来分段下载,那么这些分段下载的数据保存在哪里呢?如果把它们都保存在内存中是非常糟糕的做法,如果文件相当之大,例如是一个视频的话,难道把这么大的数据都放在内存中吗,这样的话,万一连接中断,那前面下载的东西就都没有了?我们当然要想办法及时的把下载的数据刷到磁盘上保存下来。当用bt下载视频的时候,通常都会有个临时文件,当视频完全下载结束之后,这个临时文件就会被删除,那么下次继续下载的时候,就会接着上次下载的点继续下载。所以我们的outputStream就是往这个临时文件来输出了。
OutputStream的write方法和上面InputStream的read方法有类似的参数,byte b[]是输出数据的来源,off标识了开始位置,len是数据长度。
public synchronized void write(byte b[], int off, int len) throws IOException;
在往临时文件的outputStream中写数据的时候,我会加上一个计数器,每满4096个比特就往文件中flush一下(代码⑦处)。
对于输出流的flush,有些要注意的地方,在程序中有三个地方调用了outputStream.flush()。第一个是在循环的读取网络数据并往outputStream中写入的时候,每满4096个byte就flush一下(代码⑦处);第二个是循环之后(代码⑧处),这时候正常的读取写入操作已经完成,但是outputStream中还有没有刷入磁盘的数据,所以要flush一下才能关闭连接;第三个就是在异常中的flush(代码⑨处),因为如果发生了连接超时或者读取数据超时的话,就会直接跑到catch的exception中去,这个时候outputStream中的数据如果不flush的话,重新连接的时候这部分数据就会丢失了。另外,当抛出异常,重新连接的时候,下载的起始位置也要重新设置,所以在代码⑥处,即每次从inputStream中读取数据之后,startPosition就要重新设置,count标识了已经下载的字节数。
3、现在每个分段的下载线程都顺利结束了,也都创建了相应的临时文件,接下来在主线程中会对临时文件进行合并,并写入目标文件,最后删除临时文件。这部分很简单,就是一个对所有下载线程进行遍历的过程。这里outputStream也有两次flush,与上面类似,不再赘述。
private void tempFileToTargetFile(ChildThread[] childThreads) { try { BufferedOutputStream outputStream = new BufferedOutputStream( new FileOutputStream(fileDir + fileName)); // 遍历所有子线程创建的临时文件,按顺序把下载内容写入目标文件中 for (int i = 0; i < threadNum; i++) { if (statusError) { for (int k = 0; k < threadNum; k++) { if (childThreads[k].tempFile.length() == 0) childThreads[k].tempFile.delete(); } System.out.println("本次下载任务不成功,请重新设置线程数。"); break; } BufferedInputStream inputStream = new BufferedInputStream( new FileInputStream(childThreads[i].tempFile)); System.out.println("Now is file " + childThreads[i].id); int len = 0; long count = 0; byte[] b = new byte[1024]; while ((len = inputStream.read(b)) != -1) { count += len; outputStream.write(b, 0, len); if ((count % 4096) == 0) { outputStream.flush(); } // b = new byte[1024]; } inputStream.close(); // 删除临时文件 if (childThreads[i].status == ChildThread.STATUS_HAS_FINISHED) { childThreads[i].tempFile.delete(); } } outputStream.flush(); outputStream.close(); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } }
4、最后,说说断点续传,前面为了实现断点续传,在每个下载线程中都创建了一个临时文件,现在我们就要利用这个临时文件来设置断点的位置。由于临时文件的命名方式都是固定的,所以我们就专门找对应下载的目标文件的临时文件,临时文件中已经下载的字节数就是我们需要的断点位置。startPos是一个数组,存放了每个线程的已下载的字节数。
//第一步,分析已下载的临时文件,设置断点,如果是新的下载任务,则建立目标文件。 private long[] setThreadBreakpoint(String fileDir2, String fileName2, long contentLength, long[] startPos) { File file = new File(fileDir + fileName); long localFileSize = file.length(); if (file.exists()) { System.out.println("file " + fileName + " has exists!"); // 下载的目标文件已存在,判断目标文件是否完整 if (localFileSize < contentLength) { System.out.println("Now download continue ... "); // 遍历目标文件的所有临时文件,设置断点的位置,即每个临时文件的长度 File tempFileDir = new File(fileDir); File[] files = tempFileDir.listFiles(); for (int k = 0; k < files.length; k++) { String tempFileName = files[k].getName(); // 临时文件的命名方式为:目标文件名+"_"+编号 if (tempFileName != null && files[k].length() > 0 && tempFileName.startsWith(fileName + "_")) { int fileLongNum = Integer.parseInt(tempFileName .substring(tempFileName.lastIndexOf("_") + 1, tempFileName.lastIndexOf("_") + 2)); // 为每个线程设置已下载的位置 startPos[fileLongNum] = files[k].length(); } } } } else { // 如果下载的目标文件不存在,则创建新文件 try { file.createNewFile(); } catch (IOException e) { e.printStackTrace(); } } return startPos; }
5、测试
public class DownloadStartup { private static final String encoding = "utf-8"; public static void main(String[] args) { DownloadTask downloadManager = new DownloadTask(); String urlStr = "http://apache.freelamp.com/velocity/tools/1.4/velocity-tools-1.4.zip"; downloadManager.setSleepSeconds(5); downloadManager.download(urlStr, encoding); } }
测试从apache下载一个velocity的压缩包,临时文件保留,看一下下载结果:
另:在测试从skycn下载软件的过程中,碰到了一个错误:
java.io.IOException: Server returned HTTP response code: 416 for URL: http://www.skycn.com/
上网查了一下:416 Requested Range Not Satisfiable 服务器不能满足客户在请求中指定的Range头,于是把threadNum改为1就可以了。
这个下载功能现在只是完成了很基础的一部分,最初的初衷就是为了演练一下CountdownLatch。CountdownLatch就是一个计数器,就像一个拦截的栅栏,用await()方法来把栅栏关上,线程就跑不下去了,只有等计数器减为0的时候,栅栏才会自动打开,被暂停的线程才会继续运行。CountdownLatch的应用场景可以有很多,分段下载就是一个很好的例子。
附件1是对应的java文件。
2009-07-25添加附件2,修改过的download,用RadomAccessFile,一个临时文件记录下载位置。
评论
64 楼
mzyp
2012-07-06
多谢分享
63 楼
yongsky
2011-09-11
合并文件的方式,其实不用等到所有线程都下载完了再合并,可以边下载边合并。
62 楼
pzk417
2010-04-16
为什么我用那个伪装的http请求资源的时候 都没成功啊
contentLength = con.getContentLength();
为-1
本人菜鸟 谢谢
contentLength = con.getContentLength();
为-1
本人菜鸟 谢谢
61 楼
askyuan
2010-04-02
不错,不错,值得学习
60 楼
flair1102
2010-04-01
我下载,先收藏,以后慢慢看
59 楼
hell_liul
2010-02-08
有2个疑问哈,不太懂
1、就是这个在本地生成一个*.info的文件,如果没有这个文件是不是不可以啊?不生成这个文件可以实现吗?
2、还有一个就是这个是断点续传的下载,那么上传怎么办啊?也不能在生成这个info文件啊,
1、就是这个在本地生成一个*.info的文件,如果没有这个文件是不是不可以啊?不生成这个文件可以实现吗?
2、还有一个就是这个是断点续传的下载,那么上传怎么办啊?也不能在生成这个info文件啊,
58 楼
行者买刀
2010-01-22
不错,支持下,学习了
57 楼
fuermos
2009-12-29
方法太长。。。。分解重构。。
56 楼
xiaobao0501
2009-12-17
谢谢分享.
有个疑问.多线程条件下,RandomAccessFile是线程安全的吗?
有个疑问.多线程条件下,RandomAccessFile是线程安全的吗?
55 楼
withoutme_hw
2009-12-16
我记得楼主上次发过一篇关于HashMap内部实现的,今日有见牛贴,唯有一拜
54 楼
moshalanye
2009-12-15
文章读完,提点小意见。
知识归类不够!
特别是已有规范这方面的东西,需要向大家说明。
你写的是分段多线程下载
1.下载文件如何分段
(例如:针对 http 协议,协议提供了 range 功能。
那么如果使用ftp是否也有 range 了?)
2.如果对待分段后的文件流
2.1 多线程分段策略
2.2 超时处理策略
(例如:http超时设置,捕获http超时信息,做出处理
那么ftp是否是相似的处理方式)
3.分段后的文件流如何合并成一个文件
将每个功能点罗列,并告知哪些是已经有的,哪些是我们能做的,你这篇文章会易懂.
这样重要的代码
con.setRequestProperty("Range", "bytes=" + startPosition + "-"
+ endPosition);
就不会被人忽视了。别人理解的你代码的重心就更好分配了。
知识归类不够!
特别是已有规范这方面的东西,需要向大家说明。
你写的是分段多线程下载
1.下载文件如何分段
(例如:针对 http 协议,协议提供了 range 功能。
那么如果使用ftp是否也有 range 了?)
2.如果对待分段后的文件流
2.1 多线程分段策略
2.2 超时处理策略
(例如:http超时设置,捕获http超时信息,做出处理
那么ftp是否是相似的处理方式)
3.分段后的文件流如何合并成一个文件
将每个功能点罗列,并告知哪些是已经有的,哪些是我们能做的,你这篇文章会易懂.
这样重要的代码
引用
con.setRequestProperty("Range", "bytes=" + startPosition + "-"
+ endPosition);
就不会被人忽视了。别人理解的你代码的重心就更好分配了。
53 楼
pilishou
2009-12-14
for (;;) {
try {
// 打开URLConnection
con = (HttpURLConnection) task.url.openConnection();
这里怎么会用无线循环来做啊?这么做不会有问题吗?
try {
// 打开URLConnection
con = (HttpURLConnection) task.url.openConnection();
这里怎么会用无线循环来做啊?这么做不会有问题吗?
52 楼
pilishou
2009-12-14
for (;;) {
try {
// 打开URLConnection
con = (HttpURLConnection) task.url.openConnection();
~~~~~~~~~~~~~~~~
以上这里为什么要用无限循环?合理吗?
try {
// 打开URLConnection
con = (HttpURLConnection) task.url.openConnection();
~~~~~~~~~~~~~~~~
以上这里为什么要用无限循环?合理吗?
51 楼
Aga
2009-11-18
wandou 写道
代码应该把每个方法的代码行数都控制在10行之内。
不使用嵌套的控制块。
基本功有待提高啊。
不使用嵌套的控制块。
基本功有待提高啊。
apache mina, jpos的源代码也不是说所有的函数都很小。
但是楼主确实应该抽象、封装下比较好。
50 楼
xiaoyu64814361
2009-08-11
lovext 写道
wandou 写道
代码应该把每个方法的代码行数都控制在10行之内。
不使用嵌套的控制块。
基本功有待提高啊。
不使用嵌套的控制块。
基本功有待提高啊。
都控制10行,是不是太小了?如果代码多,那岂不是要分成很多个方法?
要根据业务来定的··一个方法最好别超过30行,反正原来一个方法里写的分到两个方法里去,绝对不会比在一个方法里快。
49 楼
lovext
2009-08-08
wandou 写道
代码应该把每个方法的代码行数都控制在10行之内。
不使用嵌套的控制块。
基本功有待提高啊。
不使用嵌套的控制块。
基本功有待提高啊。
都控制10行,是不是太小了?如果代码多,那岂不是要分成很多个方法?
48 楼
zhanjia
2009-08-07
1、楼主辛苦了
2、让我们没有接触过这方面的人有所了解
3、代码仍存在一定的问题,希望下次您有空发个完善一点的上来让我们学习学习
4、DownloadTask要重构
2、让我们没有接触过这方面的人有所了解
3、代码仍存在一定的问题,希望下次您有空发个完善一点的上来让我们学习学习
4、DownloadTask要重构
47 楼
gogole_09
2009-08-06
顶一个,楼主的文章对我很有帮助,不管怎么样,楼主能花时间写上这么多东西来共享,除了感谢,还有什么能表达?
46 楼
josen
2009-07-29
无条件收藏,回头慢慢再看
45 楼
daimojingdeyu
2009-07-28
请教二个问题
// 得到content的长度
contentLength = con.getContentLength();
1、上面这个长度和实际文件的长度是完全一致的吗?会不会有出入
2、有的网站好像不支持断点续传,怎样判断一个下载地址是否支持断点续传?
// 得到content的长度
contentLength = con.getContentLength();
1、上面这个长度和实际文件的长度是完全一致的吗?会不会有出入
2、有的网站好像不支持断点续传,怎样判断一个下载地址是否支持断点续传?
相关推荐
多线程断点续传是一种在大文件传输中常见的优化技术,它允许用户在中断传输后从上次停止的地方继续,而无需重新下载整个文件。在Java编程中,实现这一功能通常涉及对网络I/O、多线程以及文件操作的深入理解。本实践...
这两个示例项目是学习和实践Android多线程断点续传下载的宝贵资源。 通过深入理解以上知识点,并结合实际项目代码,开发者可以构建出高效、可靠的Android多线程断点续传下载功能,为用户提供流畅的下载体验。
而"多线程"和"断点"这两个文件名可能是指相关示例代码或文档,可以进一步帮助你理解和实践Java FTP的多线程下载和断点续传。 在实际应用中,还需要考虑其他因素,如错误处理、网络状况的监控、文件完整性检查等。...
在点对点网络中实现多线程断点续传,主要涉及以下几个关键技术点: 1. **网络连接与通信协议**:P2P网络通常使用TCP或UDP协议进行通信。TCP保证了数据的可靠传输,适合断点续传,而UDP则提供了更高的传输速度,但...
在这个主题中,我们将专注于使用Xutils实现多线程断点续传的功能,这对于大文件下载尤其重要。 首先,断点续传是一种在网络不稳定或者设备意外断电的情况下,能够从上次中断的位置继续下载的技术。它通过保存已下载...
在IT领域,多线程下载和断点续传是提高下载效率和用户体验的重要技术。这里,我们将深入探讨这两个概念,并结合使用HttpURLConnection实现的多线程下载工具进行讲解。 首先,多线程下载是一种利用网络资源的方式,...
总的来说,"多线程断点续传(Android Studio项目)"涵盖了Android开发中的多线程编程、文件操作、网络通信和用户界面交互等多个方面,是学习和实践Android高级特性的良好案例。对于开发者来说,深入理解并实现这样的...
在实际应用中,多线程断点续传的实现需要考虑以下几个关键点: 1. **文件分割**:根据文件大小,将其合理地划分为多个部分,确保每个部分适合一个线程处理。 2. **线程管理**:创建和控制多个下载线程,确保它们...
Java多线程与线程安全实践-基于Http协议的断点续传 Java多线程与线程安全实践-基于Http协议的断点续传 Java多线程与线程安全实践-基于Http协议的断点续传 Java多线程与线程安全实践-基于Http协议的断点续传 Java多...
综上所述,多线程多任务断点续传下载技术是Android开发中的一个重要实践,它涉及到并发处理、文件流操作、持久化存储以及用户界面设计等多个方面。理解并掌握这些知识点对于开发高效、用户体验良好的下载功能至关...
多线程断点续传则进一步提高了下载效率,通过同时使用多个下载线程来分割文件,每个线程负责一部分数据的下载。 首先,让我们深入理解单个文件的断点续传。当下载一个大文件时,如果下载过程中因网络问题中断,传统...
在Android开发中,多线程断点续传技术是一种提高应用程序性能和用户体验的重要手段,尤其在处理大文件下载时...通过理解和实践以上知识点,开发者可以构建出稳定、高效且用户体验良好的Android多线程断点续传下载功能。
Java多线程与线程安全实践-基于Http协议的断点续传Java多线程与线程安全实践-基于Http协议的断点续传Java多线程与线程安全实践-基于Http协议的断点续传Java多线程与线程安全实践-基于Http协议的断点续传Java多线程与...
JAVA多线程与线程安全实践-基于Http协议的断点续传 JAVA多线程与线程安全实践-基于Http协议的断点续传 JAVA多线程与线程安全实践-基于Http协议的断点续传 JAVA多线程与线程安全实践-基于Http协议的断点续传 JAVA多...
"单线程断点续传"这个实例主要关注的是如何在一个线程中实现这个功能,避免了多线程可能带来的复杂性和资源消耗。 首先,我们需要理解服务(Service)在Android开发中的角色。在Android中,Service是一种后台运行的...
Java多线程与线程安全实践-基于Http协议的断点续传.rarJava多线程与线程安全实践-基于Http协议的断点续传.rarJava多线程与线程安全实践-基于Http协议的断点续传.rarJava多线程与线程安全实践-基于Http协议的断点续传...
总的来说,这个Java多线程断点续传下载程序是一个综合性的实践项目,它涵盖了Java编程的多个重要方面,对于提升你的技能和理解并发编程有极大的帮助。通过这个项目,你不仅可以学习到多线程编程的原理,还能掌握如何...
通过以上步骤,我们可以构建一个功能完备的Java多线程断点续传下载程序。这个项目不仅可以帮助初学者理解多线程和网络编程的基本概念,也可以作为实际项目开发中的一个参考模板。对于想要深入研究Java网络编程和并发...
基于Http协议的断点续传-Java多线程与线程安全实践编程.zip 基于Http协议的断点续传-Java多线程与线程安全实践编程.zip 基于Http协议的断点续传-Java多线程与线程安全实践编程.zip 基于Http协议的断点续传-Java多...