`
lc52520
  • 浏览: 369017 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

Java 理论与实践: 线程池与工作队列【Z】

    博客分类:
  • java
阅读更多

 

线程池有助于实现最佳资源利用率

Brian Goetz , 首席顾问, Quiotix Corp

简介:  贴在我们多线程 Java 编程论坛上最常见的问题之一是“怎样创建线程池?”。几乎在每个服务器应用程序中都会出现线程池和工作队列问题。本文中,Brian Goetz 探讨了线程池的动机、一些基本实现和调优技术以及一些要避免的常见危险。

为什么要用线程池?

诸如 Web 服务器、数据库服务器、文件服务器或邮件服务器之类的许多服务器应用程序都面向处理来自某些远程来源的大量短小的任务。请求以某种方式到达服务器,这种方 式可能是通过网络协议(例如 HTTP、FTP 或 POP)、通过 JMS 队列或者可能通过轮询数据库。不管请求如何到达,服务器应用程序中经常出现的情况是:单个任务处理的时间很短而请求的数目却是巨大的。

构建服务器应用程序的一个过于简单的模型应该是:每当一个请求到达就创建一个新线程,然后在新线程中为请求服务。实际上,对于原型开发这种方法工作得很 好,但如果试图部署以这种方式运行的服务器应用程序,那么这种方法的严重不足就很明显。每个请求对应一个线程(thread-per-request)方 法的不足之一是:为每个请求创建一个新线程的开销很大;为每个请求创建新线程的服务器在创建和销毁线程上花费的时间和消耗的系统资源要比花在处理实际的用 户请求的时间和资源更多。

除了创建和销毁线程的开销之外,活动的线程也消耗系统资源。在一个 JVM 里创建太多的线程可能会导致系统由于过度消耗内存而用完内存或“切换过度”。为了防止资源不足,服务器应用程序需要一些办法来限制任何给定时刻处理的请求数目。

线程池为线程生命周期开销问题和资源不足问题提供了解决方案。通过对多个任务重用线程,线程创建的开销被分摊到了多个任务上。其好处是,因为在请求到达时 线程已经存在,所以无意中也消除了线程创建所带来的延迟。这样,就可以立即为请求服务,使应用程序响应更快。而且,通过适当地调整线程池中的线程数目,也 就是当请求的数目超过某个阈值时,就强制其它任何新到的请求一直等待,直到获得一个线程来处理为止,从而可以防止资源不足。


线程池的替代方案

线程池远不是服务器应用程序内使用多线程的唯一方法。如同上面所提到的,有时,为每个新任务生成一个新线程是十分明智的。然而,如果任务创建过于频繁而任务的平均处理时间过短,那么为每个任务生成一个新线程将会导致性能问题。

另一个常见的线程模型是为某一类型的任务分配一个后台线程与任务队列。AWT 和 Swing 就使用这个模型,在这个模型中有一个 GUI 事件线程,导致用户界面发生变化的所有工作都必须在该线程中执行。然而,由于只有一个 AWT 线程,因此要在 AWT 线程中执行任务可能要花费相当长时间才能完成,这是不可取的。因此,Swing 应用程序经常需要额外的工作线程,用于运行时间很长的、同 UI 有关的任务。

每个任务对应一个线程方法和单个后台线程(single-background-thread)方法在某些情形下都工作得非常理想。每个任务一个线程方法 在只有少量运行时间很长的任务时工作得十分好。而只要调度可预见性不是很重要,则单个后台线程方法就工作得十分好,如低优先级后台任务就是这种情况。然 而,大多数服务器应用程序都是面向处理大量的短期任务或子任务,因此往往希望具有一种能够以低开销有效地处理这些任务的机制以及一些资源管理和定时可预见 性的措施。线程池提供了这些优点。


工作队列

就线程池的实际实现方式而言,术语“线程池”有些使人误解,因为线程池“明显的”实现在大多数情形下并不一定产生我们希望的结果。术语“线程池”先于 Java 平台出现,因此它可能是较少面向对象方法的产物。然而,该术语仍继续广泛应用着。

虽然我们可以轻易地实现一个线程池类,其中客户机类等待一个可用线程、将任务传递给该线程以便执行、然后在任务完成时将线程归还给池,但这种方法却存在几 个潜在的负面影响。例如在池为空时,会发生什么呢?试图向池线程传递任务的调用者都会发现池为空,在调用者等待一个可用的池线程时,它的线程将阻塞。我们 之所以要使用后台线程的原因之一常常是为了防止正在提交的线程被阻塞。完全堵住调用者,如在线程池的“明显的”实现的情况,可以杜绝我们试图解决的问题的 发生。

我们通常想要的是同一组固定的工作线程相结合的工作队列,它使用 wait()notify() 来通知等待线程新的工作已经到达了。该工作队列通常被实现成具有相关监视器对象的某种链表。清单 1 显示了简单的合用工作队列的示例。尽管 Thread API 没有对使用 Runnable 接口强加特殊要求,但使用 Runnable 对象队列的这种模式是调度程序和工作队列的公共约定。


清单 1. 具有线程池的工作队列

public class WorkQueue
{
    private final int nThreads;
    private final PoolWorker[] threads;
    private final LinkedList queue;
    public WorkQueue(int nThreads)
    {
        this.nThreads = nThreads;
        queue = new LinkedList();
        threads = new PoolWorker[nThreads];
        for (int i=0; i<nThreads; i++) {
            threads[i] = new PoolWorker();
            threads[i].start();
        }
    }
    public void execute(Runnable r) {
        synchronized(queue) {
            queue.addLast(r);
            queue.notify();
        }
    }
    private class PoolWorker extends Thread {
        public void run() {
            Runnable r;
            while (true) {
                synchronized(queue) {
                    while (queue.isEmpty()) {
                        try
                        {
                            queue.wait();
                        }
                        catch (InterruptedException ignored)
                        {
                        }
                    }
                    r = (Runnable) queue.removeFirst();
                }
                // If we don't catch RuntimeException, 
                // the pool could leak threads
                try {
                    r.run();
                }
                catch (RuntimeException e) {
                    // You might want to log something here
                }
            }
        }
    }
}

 

您可能已经注意到了清单 1 中的实现使用的是 notify() 而不是 notifyAll() 。大多数专家建议使用 notifyAll() 而不是 notify() ,而且理由很充分:使用 notify() 具有难以捉摸的风险,只有在某些特定条件下使用该方法才是合适的。另一方面,如果使用得当, notify() 具有比 notifyAll() 更可取的性能特征;特别是, notify() 引起的环境切换要少得多,这一点在服务器应用程序中是很重要的。

清单 1 中的示例工作队列满足了安全使用 notify() 的需求。因此,请继续,在您的程序中使用它,但在其它情形下使用 notify() 时请格外小心。


使用线程池的风险

虽然线程池是构建多线程应用程序的强大机制,但使用它并不是没有风险的。用线程池构建的应用程序容易遭受任何其它多线程应用程序容易遭受的所有并发风险,诸如同步错误和死锁,它还容易遭受特定于线程池的少数其它风险,诸如与池有关的死锁、资源不足和线程泄漏。

死锁

任何多线程应用程序都有死锁风险。当一组进程或线程中的每一个都在等待一个只有该组中另一个进程才能引起的事件时,我们就说这组进程或线程 死锁 了。死锁的最简单情形是:线程 A 持有对象 X 的独占锁,并且在等待对象 Y 的锁,而线程 B 持有对象 Y 的独占锁,却在等待对象 X 的锁。除非有某种方法来打破对锁的等待(Java 锁定不支持这种方法),否则死锁的线程将永远等下去。

虽然任何多线程程序中都有死锁的风险,但线程池却引入了另一种死锁可能,在那种情况下,所有池线程都在执行已阻塞的等待队列中另一任务的执行结果的任务, 但这一任务却因为没有未被占用的线程而不能运行。当线程池被用来实现涉及许多交互对象的模拟,被模拟的对象可以相互发送查询,这些查询接下来作为排队的任 务执行,查询对象又同步等待着响应时,会发生这种情况。

资源不足

线程池的一个优点在于:相对于其它替代调度机制(有些我们已经讨论过)而言,它们通常执行得很好。但只有恰当地调整了线程池大小时才是这样的。线程消耗包括内存和其它系统资源在内的大量资源。除了 Thread 对象所需的内存之外,每个线程都需要两个可能很大的执行调用堆栈。除此以外,JVM 可能会为每个 Java 线程创建一个本机线程,这些本机线程将消耗额外的系统资源。最后,虽然线程之间切换的调度开销很小,但如果有很多线程,环境切换也可能严重地影响程序的性能。

如果线程池太大,那么被那些线程消耗的资源可能严重地影响系统性能。在线程之间进行切换将会浪费时间,而且使用超出比您实际需要的线程可能会引起资源匮乏 问题,因为池线程正在消耗一些资源,而这些资源可能会被其它任务更有效地利用。除了线程自身所使用的资源以外,服务请求时所做的工作可能需要其它资源,例 如 JDBC 连接、套接字或文件。这些也都是有限资源,有太多的并发请求也可能引起失效,例如不能分配 JDBC 连接。

并发错误

线程池和其它排队机制依靠使用 wait()notify() 方法,这两个方法都难于使用。如果编码不正确,那么可能丢失通知,导致线程保持空闲状态,尽管队列中有工作要处理。使用这些方法时,必须格外小心;即便是专家也可能在它们上面出错。而最好使用现有的、已经知道能工作的实现,例如在下面的 无须编写您自己的池 中讨论的 util.concurrent 包。

线程泄漏

各种类型的线程池中一个严重的风险是线程泄漏,当从池中除去一个线程以执行一项任务,而在任务完成后该线程却没有返回池时,会发生这种情况。发生线程泄漏的一种情形出现在任务抛出一个 RuntimeException 或一个 Error 时。如果池类没有捕捉到它们,那么线程只会退出而线程池的大小将会永久减少一个。当这种情况发生的次数足够多时,线程池最终就为空,而且系统将停止,因为没有可用的线程来处理任务。

有些任务可能会永远等待某些资源或来自用户的输入,而这些资源又不能保证变得可用,用户可能也已经回家了,诸如此类的任务会永久停止,而这些停止的任务也 会引起和线程泄漏同样的问题。如果某个线程被这样一个任务永久地消耗着,那么它实际上就被从池除去了。对于这样的任务,应该要么只给予它们自己的线程,要 么只让它们等待有限的时间。

请求过载

仅仅是请求就压垮了服务器,这种情况是可能的。在这种情形下,我们可能不想将每个到来的请求都排队到我们的工作队列,因为排在队列中等待执行的任务可能会 消耗太多的系统资源并引起资源缺乏。在这种情形下决定如何做取决于您自己;在某些情况下,您可以简单地抛弃请求,依靠更高级别的协议稍后重试请求,您也可 以用一个指出服务器暂时很忙的响应来拒绝请求。


有效使用线程池的准则

只要您遵循几条简单的准则,线程池可以成为构建服务器应用程序的极其有效的方法:

  • 不要对那些同步等待其它任务结果的任务排队。这可能会导致上面所描述的那种形式的死锁,在那种死锁中,所有线程都被一些任务所占用,这些任务依次等待排队任务的结果,而这些任务又无法执行,因为所有的线程都很忙。
  • 在为时间可能很长的操作使用合用的线程时要小心。如果程序必须等待诸如 I/O 完成这样的某个资源,那么请指定最长的等待时间,以及随后是失效还是将任务重新排队以便稍后执行。这样做保证了:通过将某个线程释放给某个可能成功完成的任务,从而将最终取得 某些 进展。
  • 理解任务。要有效地调整线程池大小,您需要理解正在排队的任务以及它们正在做什么。它们是 CPU 限制的(CPU-bound)吗?它们是 I/O 限制的(I/O-bound)吗?您的答案将影响您如何调整应用程序。如果您有不同的任务类,这些类有着截然不同的特征,那么为不同任务类设置多个工作队 列可能会有意义,这样可以相应地调整每个池。

调整池的大小

调整线程池的大小基本上就是避免两类错误:线程太少或线程太多。幸运的是,对于大多数应用程序来说,太多和太少之间的余地相当宽。

请回忆:在应用程序中使用线程有两个主要优点,尽管在等待诸如 I/O 的慢操作,但允许继续进行处理,并且可以利用多处理器。在运行于具有 N 个处理器机器上的计算限制的应用程序中,在线程数目接近 N 时添加额外的线程可能会改善总处理能力,而在线程数目超过 N 时添加额外的线程将不起作用。事实上,太多的线程甚至会降低性能,因为它会导致额外的环境切换开销。

线程池的最佳大小取决于可用处理器的数目以及工作队列中的任务的性质。若在一个具有 N 个处理器的系统上只有一个工作队列,其中全部是计算性质的任务,在线程池具有 N 或 N+1 个线程时一般会获得最大的 CPU 利用率。

对于那些可能需要等待 I/O 完成的任务(例如,从套接字读取 HTTP 请求的任务),需要让池的大小超过可用处理器的数目,因为并不是所有线程都一直在工作。通过使用概要分析,您可以估计某个典型请求的等待时间(WT)与服 务时间(ST)之间的比例。如果我们将这一比例称之为 WT/ST,那么对于一个具有 N 个处理器的系统,需要设置大约 N*(1+WT/ST) 个线程来保持处理器得到充分利用。

处理器利用率不是调整线程池大小过程中的唯一考虑事项。随着线程池的增长,您可能会碰到调度程序、可用内存方面的限制,或者其它系统资源方面的限制,例如套接字、打开的文件句柄或数据库连接等的数目。


无须编写您自己的池

Doug Lea 编写了一个优秀的并发实用程序开放源码库 util.concurrent ,它包括互斥、信号量、诸如在并发访问下执行得很好的队列和散列表之类集合类以及几个工作队列实现。该包中的 PooledExecutor 类是一种有效的、广泛使用的以工作队列为基础的线程池的正确实现。您无须尝试编写您自己的线程池,这样做容易出错,相反您可以考虑使用 util.concurrent 中的一些实用程序。参阅 参考资料 以获取链接和更多信息。

util.concurrent 库也激发了 JSR 166,JSR 166 是一个 Java 社区过程(Java Community Process (JCP))工作组,他们正在打算开发一组包含在 java.util.concurrent 包下的 Java 类库中的并发实用程序,这个包应该用于 Java 开发工具箱 1.5 发行版。


结束语

线程池是组织服务器应用程序的有用工具。它在概念上十分简单,但在实现和使用一个池时,却需要注意几个问题,例如死锁、资源不足和 wait()notify() 的复杂性。如果您发现您的应用程序需要线程池,那么请考虑使用 util.concurrent 中的某个 Executor 类,例如 PooledExecutor ,而不用从头开始编写。如果您要自己创建线程来处理生存期很短的任务,那么您绝对应该考虑使用线程池来替代。

 

参考资料

关于作者

Brian Goetz 是一名软件顾问,在过去的 15 年里,他一直是一名专业软件开发人员。他是 Quiotix 的首席顾问,Quiotix 是一家位于加尼福利亚州洛斯拉图斯(Los Altos)市的软件开发与咨询公司。请在流行的业界出版物中查阅 Brian 的 已出版和即将出版的文章 。可通过 brian@quiotix.com 和 Brian 联系。

分享到:
评论

相关推荐

    深入理解高并发编程-Java线程池核心技术

    在深入理解高并发编程,尤其是Java线程池核心技术时,我们首先要明白线程与多线程的概念。线程是操作系统中的基本调度单元,它比进程更小,且基本不拥有系统资源,主要由程序计数器、寄存器和栈等组成。在同一个进程...

    JAVA面试专题.7z

    "JAVA面试专题.7z"这个压缩包包含了一系列关于Java基础、JVM、消息中间件、MySQL数据库等方面的面试题及答案,这些都是Java开发者必备的知识点。以下是这些主题的详细解析: 1. **Java基础**: Java基础涵盖广泛的...

    Java基础+Android面试题

    9. Java并发:包括创建线程的三种方式、Synchronized关键字和ReentrantLock的使用、线程池的使用、死锁的处理、生产者/消费者模式等并发编程的核心概念。 10. Java虚拟机:讨论了对象的创建、内存布局、访问定位,...

    200+道java基础题及答案.doc

    13. RabbitMQ:消息队列,工作队列模型,发布/订阅模式等。 14. Kafka:分布式流处理平台,生产者消费者模型,Kafka Streams等。 15. Zookeeper:分布式协调服务,选举、配置管理等。 16. MySQL:数据库操作,索引,...

    黑马程序员面试宝典(java).7z

    《黑马程序员面试宝典》是针对Java开发人员的一份综合性的面试准备资料,它涵盖了Java全栈开发中的...在准备面试的过程中,结合实际项目经验,将理论知识与实践经验相结合,更能展现个人的技术实力和解决问题的能力。

    1000道 互联网Java工程师面试题 (666).7z

    标签 "java" 明确指出这份资料与Java编程语言紧密相关,Java是互联网行业中广泛使用的后端开发语言,其面试题通常会涉及语言特性、JVM工作原理、并发编程、设计模式等多个领域。 压缩包内包含的文件 "1000道 互联网...

    java部分面试题答案.7z

    面试中可能会讨论AMQP协议、RabbitMQ的工作模式(Direct、Fanout、Topic、Header)、消息确认机制、队列的持久化与高可用性等。 3. **Spring框架**:Spring是Java企业级应用的核心,提供依赖注入、AOP(面向切面...

    Java坦克大战网络对战版源代码.7z

    1. **Java基础**:首先,你需要熟悉Java的基本语法、类与对象、继承、多态等面向对象编程概念。Java坦克大战游戏中的每个元素,如坦克、子弹、障碍物等,都可以用类来表示,通过对象进行交互。 2. **Swing或JavaFX*...

    基于JAVA的ICQ系统.7z

    Java的ServerSocket类用于监听和接受客户端的连接请求,而线程池可以有效管理并发连接,防止过多连接导致资源耗尽。消息路由可能涉及到队列数据结构,例如使用Java的ConcurrentLinkedQueue,确保消息的顺序处理。...

    LeetCode Java Algorithm 记录数据结构与算法训练题,分享java面试题.zip

    在本压缩包“LeetCode Java Algorithm 记录数据结构与算法训练题,分享java面试题.zip”中,我们可以发现这是一份集成了Java编程语言、数据结构和算法的学习资源,特别针对LeetCode上的问题和Java面试题进行了整理。...

    java 23种设计模式.7z

    6. **多例设计模式**:与单例模式类似,但允许有多个实例存在,通常用于需要多个实例的场景,如线程池。 7. **抽象工厂设计模式**:提供一个创建一系列相关或相互依赖对象的接口,而无需指定其具体类。适用于产品族...

    Java 并发编程

    Java内存模型详细定义了线程与主存之间的操作顺序以及主存与工作内存之间的交互规则。理解Java内存模型对于设计高性能且正确的并发程序至关重要。 并发新特性 Java并发编程的新特性还包括了更加丰富的并发工具类和...

    LsCron Java定时任务小工具,适用于指定时间修改状态等场景 软件架构使用DeplayQueue延时队列实现

    本文将为你介绍一个名为LsCron的Java定时任务小工具,它可以帮助你实现指定时间执行任务的需求。该工具使用DeplayQueue延时队列作为软件架构,通过简单的步骤即可完成安装和使用。首先,你需要创建一个实现LsDelayed...

    2019年_BATJ大厂面试题总结.7z

    《2019年BATJ大厂面试题总结》是一份综合性的Java互联网核心资料,主要针对准备在大型互联网公司(如百度、阿里巴巴...通过深入学习和实践,可以显著提升个人的Java技术水平,为在BATJ等大厂找到理想职位打下坚实基础。

    java多线程实现生产者消费者关系

    BlockingQueue提供了一种线程安全的队列,它内置了同步机制,使得生产者在队列满时会被阻塞,消费者在队列空时也会被阻塞,直到条件满足后才能继续执行。 以下是一个简单的基于synchronized关键字和wait/notify机制...

    ActiveMQ.7z

    Apache ActiveMQ是一款开源的消息中间件,它遵循Java消息服务(JMS)标准,提供高性能、高可靠性的消息传递服务。ActiveMQ在企业级应用中广泛使用,它支持多种协议,如OpenWire、AMQP、STOMP、MQTT、WSAMP等,能够...

    okhttp_simple_struct.7z

    6. **线程模型**:项目可能会涉及到如何处理并发请求,如使用线程池、工作队列等。 7. **日志和调试**:为了便于调试和理解网络请求的过程,简化版可能会有相应的日志输出功能。 通过对这些关键点的分析,我们可以...

    JDK API 1.6.0 中文版.7z

    `java.util.concurrent`包引入了线程池、并发集合、原子变量等高效并发工具,如`ExecutorService`、`Semaphore`、`CountDownLatch`等。 5. **网络编程**: `java.net`包提供了网络通信的基础类,如`Socket`和`...

    使用Java开发的地图瓦片图下载工具,支持以下XYZ瓦片图下载与合并 多线程瓦片图下载,最大限度地使用本机网络资源

    2. **多线程**:Java的`java.util.concurrent`包提供了线程池、Future、Callable等工具,用于管理多线程下载任务,确保资源的有效利用。 3. **文件操作**:下载的瓦片通常为图片格式,如JPEG或PNG,需要使用Java的`...

    面试必问并发编程高级面试专题.zip

    本面试专题主要针对高级并发编程的知识点进行探讨,旨在帮助求职者在面试中展现出深厚的并发编程理论基础和实践经验。 1. **线程与进程** - **线程定义**:线程是操作系统分配处理器时间的基本单位,它是进程中...

Global site tag (gtag.js) - Google Analytics