from: http://blog.csdn.net/solstice/article/details/8547547
为什么多线程读写 shared_ptr 要加锁?
陈硕(giantchen_AT_gmail_DOT_com)
2012-01-28
最新版下载:http://chenshuo.googlecode.com/files/CppEngineering.pdf
我在《Linux 多线程服务端编程:使用 muduo C++ 网络库》第 1.9 节“再论 shared_ptr 的线程安全”中写道:
(shared_ptr)的引用计数本身是安全且无锁的,但对象的读写则不是,因为 shared_ptr 有两个数据成员,读写操作不能原子化。根据文档(http://www.boost.org/doc/libs/release/libs/smart_ptr/shared_ptr.htm#ThreadSafety), shared_ptr 的线程安全级别和内建类型、标准库容器、std::string 一样,即:
• 一个 shared_ptr 对象实体可被多个线程同时读取(文档例1);
• 两个 shared_ptr 对象实体可以被两个线程同时写入(例2),“析构”算写操作;
• 如果要从多个线程读写同一个 shared_ptr 对象,那么需要加锁(例3~5)。
请注意,以上是 shared_ptr 对象本身的线程安全级别,不是它管理的对象的线程安全级别。
后文(p.18)则介绍如何高效地加锁解锁。本文则具体分析一下为什么“因为 shared_ptr 有两个数据成员,读写操作不能原子化”使得多线程读写同一个 shared_ptr 对象需要加锁。这个在我看来显而易见的结论似乎也有人抱有疑问,那将导致灾难性的后果,值得我写这篇文章。本文以 boost::shared_ptr 为例,与 std::shared_ptr 可能略有区别。
shared_ptr 的数据结构
shared_ptr 是引用计数型(reference counting)智能指针,几乎所有的实现都采用在堆(heap)上放个计数值(count)的办法(除此之外理论上还有用循环链表的办法,不过没有实例)。具体来说,shared_ptr<Foo> 包含两个成员,一个是指向 Foo 的指针 ptr,另一个是 ref_count 指针(其类型不一定是原始指针,有可能是 class 类型,但不影响这里的讨论),指向堆上的 ref_count 对象。ref_count 对象有多个成员,具体的数据结构如图 1 所示,其中 deleter 和 allocator 是可选的。
图 1:shared_ptr 的数据结构。
为了简化并突出重点,后文只画出 use_count 的值:
以上是 shared_ptr<Foo> x(new Foo); 对应的内存数据结构。
如果再执行 shared_ptr<Foo> y = x; 那么对应的数据结构如下。
但是 y=x 涉及两个成员的复制,这两步拷贝不会同时(原子)发生。
中间步骤 1,复制 ptr 指针:
中间步骤 2,复制 ref_count 指针,导致引用计数加 1:
步骤1和步骤2的先后顺序跟实现相关(因此步骤 2 里没有画出 y.ptr 的指向),我见过的都是先1后2。
既然 y=x 有两个步骤,如果没有 mutex 保护,那么在多线程里就有 race condition。
多线程无保护读写 shared_ptr 可能出现的 race condition
考虑一个简单的场景,有 3 个 shared_ptr<Foo> 对象 x、g、n:
- shared_ptr<Foo> g(new Foo); // 线程之间共享的 shared_ptr
- shared_ptr<Foo> x; // 线程 A 的局部变量
- shared_ptr<Foo> n(new Foo); // 线程 B 的局部变量
一开始,各安其事。
线程 A 执行 x = g; (即 read g),以下完成了步骤 1,还没来及执行步骤 2。这时切换到了 B 线程。
同时编程 B 执行 g = n; (即 write g),两个步骤一起完成了。
先是步骤 1:
再是步骤 2:
这是 Foo1 对象已经销毁,x.ptr 成了空悬指针!
最后回到线程 A,完成步骤 2:
多线程无保护地读写 g,造成了“x 是空悬指针”的后果。这正是多线程读写同一个 shared_ptr 必须加锁的原因。
当然,race condition 远不止这一种,其他线程交织(interweaving)有可能会造成其他错误。
思考,假如 shared_ptr 的 operator= 实现是先复制 ref_count(步骤 2)再复制 ptr(步骤 1),会有哪些 race condition?
杂项
shared_ptr 作为 unordered_map 的 key
如果把 boost::shared_ptr 放到 unordered_set 中,或者用于 unordered_map 的 key,那么要小心 hash table 退化为链表。http://stackoverflow.com/questions/6404765/c-shared-ptr-as-unordered-sets-key/12122314#12122314
直到 Boost 1.47.0 发布之前,unordered_set<std::shared_ptr<T> > 虽然可以编译通过,但是其 hash_value 是 shared_ptr 隐式转换为 bool 的结果。也就是说,如果不自定义hash函数,那么 unordered_{set/map} 会退化为链表。https://svn.boost.org/trac/boost/ticket/5216
Boost 1.51 在 boost/functional/hash/extensions.hpp 中增加了有关重载,现在只要包含这个头文件就能安全高效地使用 unordered_set<std::shared_ptr> 了。
这也是 muduo 的 examples/idleconnection 示例要自己定义 hash_value(const boost::shared_ptr<T>& x) 函数的原因(书第 7.10.2 节,p.255)。因为 Debian 6 Squeeze、Ubuntu 10.04 LTS 里的 boost 版本都有这个 bug。
为什么图 1 中的 ref_count 也有指向 Foo 的指针?
shared_ptr<Foo> sp(new Foo) 在构造 sp 的时候捕获了 Foo 的析构行为。实际上 shared_ptr.ptr 和 ref_count.ptr 可以是不同的类型(只要它们之间存在隐式转换),这是 shared_ptr 的一大功能。分 3 点来说:
1. 无需虚析构;假设 Bar 是 Foo 的基类,但是 Bar 和 Foo 都没有虚析构。
shared_ptr<Foo> sp1(new Foo); // ref_count.ptr 的类型是 Foo*
shared_ptr<Bar> sp2 = sp1; // 可以赋值,自动向上转型(up-cast)
sp1.reset(); // 这时 Foo 对象的引用计数降为 1
此后 sp2 仍然能安全地管理 Foo 对象的生命期,并安全完整地释放 Foo,因为其 ref_count 记住了 Foo 的实际类型。
2. shared_ptr<void> 可以指向并安全地管理(析构或防止析构)任何对象;muduo::net::Channel class 的 tie() 函数就使用了这一特性,防止对象过早析构,见书 7.15.3 节。
shared_ptr<Foo> sp1(new Foo); // ref_count.ptr 的类型是 Foo*
shared_ptr<void> sp2 = sp1; // 可以赋值,Foo* 向 void* 自动转型
sp1.reset(); // 这时 Foo 对象的引用计数降为 1
此后 sp2 仍然能安全地管理 Foo 对象的生命期,并安全完整地释放 Foo,不会出现 delete void* 的情况,因为 delete 的是 ref_count.ptr,不是 sp2.ptr。
3. 多继承。假设 Bar 是 Foo 的多个基类之一,那么:
shared_ptr<Foo> sp1(new Foo);
shared_ptr<Bar> sp2 = sp1; // 这时 sp1.ptr 和 sp2.ptr 可能指向不同的地址,因为 Bar subobject 在 Foo object 中的 offset 可能不为0。
sp1.reset(); // 此时 Foo 对象的引用计数降为 1
但是 sp2 仍然能安全地管理 Foo 对象的生命期,并安全完整地释放 Foo,因为 delete 的不是 Bar*,而是原来的 Foo*。换句话说,sp2.ptr 和 ref_count.ptr 可能具有不同的值(当然它们的类型也不同)。
为什么要尽量使用 make_shared()?
为了节省一次内存分配,原来 shared_ptr<Foo> x(new Foo); 需要为 Foo 和 ref_count 各分配一次内存,现在用 make_shared() 的话,可以一次分配一块足够大的内存,供 Foo 和 ref_count 对象容身。数据结构是:
不过 Foo 的构造函数参数要传给 make_shared(),后者再传给 Foo::Foo(),这只有在 C++11 里通过 perfect forwarding 才能完美解决。
(.完.)
相关推荐
参考陈硕的多线程服务端编程>>,中的用shared_ptr实现copy-on-write技术,不过这里的线程采用的是c++11的线程库
在多线程环境中,智能指针如`std::unique_ptr`和`std::shared_ptr`可以帮助管理线程间的资源所有权。例如,`std::unique_ptr`确保对象在不再被引用时自动删除,避免了资源泄露。而在多线程中,如果多个线程同时访问...
在VC++编程环境中,多线程技术被广泛用于提高程序的执行效率,特别是在处理大量并发任务时。然而,多线程环境下,内存操作的优化变得至关重要,因为不恰当的内存管理可能会导致数据竞争、死锁等问题,严重影响程序的...
在多线程环境中,`shared_ptr`使用了线程安全的引用计数,因此在并发环境下更适用。 2. `unique_ptr`:它是单个所有者的智能指针,不支持拷贝,只支持移动。当`unique_ptr`对象离开作用域时,其所指向的对象会被自动...
2. **线程同步与互斥**:在多线程环境下,为防止数据竞争,需要使用同步机制。C++提供了`std::mutex`来实现互斥锁,保证同一时间只有一个线程能访问临界资源。在这个双向链表的实现中,增删节点操作需要互斥锁来保证...
- **安全的拷贝和赋值**:为了保证线程对象的安全性,可能需要实现深拷贝和移动构造函数,防止多线程环境下错误的资源复制。 在实际编程中,理解如何正确使用线程指针对于编写高效且健壮的多线程程序至关重要。这...
线程库(thread)和互斥量(mutex)等并发编程工具,则支持多线程编程,帮助开发者构建高效的多任务系统。 总的来说,《C++标准程序库》这本书涵盖了C++编程的核心要素,从基本的容器和算法到高级的并发编程,都是...
《Linux多线程服务端编程:使用muduo C++网络库》主要讲述采用现代C++在x86-64 Linux上编写多线程TCP网络服务程序的主流常规技术,重点讲解一种适应性较强的多线程服务器的编程模型,即one loop per thread。...
3. **循环缓存区(Ring Buffer)**:循环缓存区是另一种高效的内存管理结构,通常用于多线程环境中的数据交换,如音频处理或网络通信。它通过在固定大小的缓冲区内进行数据的循环读写,避免了频繁的内存分配和释放,...
- 使用智能指针(如`std::shared_ptr`)可以自动管理资源,减少资源泄漏的风险,特别是在多线程环境下。 6. **Visual Studio调试多线程** - Visual Studio IDE提供了强大的调试工具,如并行堆栈窗口(Parallel ...
8. **性能优化**:对于大量形状的读写,可能需要考虑性能优化,比如批量读写、多线程处理、数据压缩等技术。 9. **测试**:最后,编写全面的单元测试确保代码正确无误,同时涵盖各种边界条件和异常情况。 在压缩包...
1. **线程库(Boost.Thread)**:提供了与C++11线程库类似的接口,使得多线程编程变得简单易行。 2. **智能指针(Boost.smart_ptr)**:如`shared_ptr`, `unique_ptr`等,这些智能指针帮助开发者更好地管理内存,防止...
Boost 库的多样性使得它在许多关键领域都有应用,如多线程编程、泛型编程、算法、容器、智能指针、日期时间处理、数学计算、图形界面和网络编程等。以下是一些 Boost 库的关键知识点: 1. **智能指针**: - `...
1. **智能指针**:Boost库提供了smart_ptr系列,如shared_ptr、unique_ptr和weak_ptr,用于智能管理对象的生命周期,避免内存泄漏,提升了代码的安全性。 2. **多线程支持**:Boost.Thread库提供了对多线程编程的...
在实际应用中,你还需要添加适当的同步机制,例如使用`pthread_mutex_t`类型互斥锁,来确保在多线程或多进程中安全地访问共享内存。 在“InterProcess Communication”这个压缩包文件中,可能包含了更详细的代码...