- 多线程下用 ConcurrentHashMap,到底要不要加 volatile?
- 先搞懂两个关键角色
- ConcurrentHashMap 是做什么的
- volatile 又是做什么的
- 分场景看,到底要不要加 volatile
- 场景一:ConcurrentHashMap 引用不会改变,不需要加 volatile
- 场景二:ConcurrentHashMap 引用会被重新赋值,必须加 volatile
- 结合实际业务,再加深理解
- 再延伸一个容易忽略的点
多线程下用 ConcurrentHashMap,到底要不要加 volatile?
这段时间在看并发相关的面试题,碰到一个特别容易让人绕晕的问题:多线程环境里使用 ConcurrentHashMap,要不要把它声明成 volatile 才能保证线程安全?
单独拎出来 ConcurrentHashMap 和 volatile,每个知识点我都能说上几句,可把它们放在一起提问,瞬间就有种熟悉又陌生的感觉,琢磨了好一会儿才理清楚里面的逻辑,今天就把自己的思考过程整理出来,都是很实在的理解,没有什么官方套话。
先把两个核心概念掰扯明白,这是搞懂整个问题的基础,后续的分析都要围绕这两个点展开。
先搞懂两个关键角色
ConcurrentHashMap 是做什么的
日常开发里,ConcurrentHashMap 算是并发场景的常客,面试里也总爱把它和 HashMap 放在一起对比。大家都知道 HashMap 不支持多线程并发操作,在多线程环境下会出现数据错乱的问题,而 ConcurrentHashMap 就是 Java 提供的线程安全的哈希表实现。
但这里必须抓住一个核心点:ConcurrentHashMap 的线程安全,只局限在它自身方法内部的操作。
比如调用它的 put、get、remove 这些方法,多个线程同时执行,底层通过 CAS 加同步机制等方式,能保证单个方法执行的原子性和数据一致性,不会出现并发修改导致的异常。但它管不了的是,这个 ConcurrentHashMap 实例的引用,在多线程之间的可见性问题。
volatile 又是做什么的
volatile 也是并发编程里的高频关键字,它的作用其实很明确,主要解决两个问题:一是保证变量的可见性,一个线程修改了被 volatile 修饰的变量,其他线程能立刻读取到最新的值,不会出现线程本地缓存和主内存数据不一致的情况;二是禁止指令重排序,避免编译器和处理器对指令的执行顺序做优化,导致多线程下出现意料之外的问题。
这里要划一个重点:volatile 修饰的是变量,也就是对象的引用,而不是对象内部的数据。想把 ConcurrentHashMap 和 volatile 关联起来,前提是 ConcurrentHashMap 作为一个引用变量,存在被修改的可能,否则讨论 volatile 就没有任何意义。
分场景看,到底要不要加 volatile
这个问题根本没有绝对的“要”或“不要”,必须结合实际的代码场景来判断,两种情况的区别非常明显。
场景一:ConcurrentHashMap 引用不会改变,不需要加 volatile
当我们在代码中,初始化 ConcurrentHashMap 之后,全程只调用它的内部方法操作数据,从来不会重新给这个变量赋值,让它指向新的实例,这种情况下完全不需要加 volatile。
最典型的写法就是用final修饰,直接锁定引用:
publicclassCacheService{// 用 final 保证引用不可变,全程只会操作这一个 CHM 实例privatestaticfinalConcurrentHashMap<String,Object>concurrentCache=newConcurrentHashMap<>();publicvoidputData(Stringkey,Objectvalue){// 仅调用 CHM 自身的方法,内部已保证线程安全concurrentCache.put(key,value);}publicObjectgetData(Stringkey){returnconcurrentCache.get(key);}}在这段代码里,concurrentCache的引用从初始化后就不会再改变,所有线程操作的都是同一个 ConcurrentHashMap 实例。此时线程安全完全由 ConcurrentHashMap 自身的方法保证,volatile 在这里没有任何发挥的空间,加上反而属于多余的代码。
场景二:ConcurrentHashMap 引用会被重新赋值,必须加 volatile
如果业务逻辑中,需要替换掉原来的 ConcurrentHashMap 实例,把新的实例赋值给同一个变量,这时候就必须使用 volatile 来保证引用的可见性。
比如常见的缓存全量更新场景,代码大概是这样:
publicclassCacheService{// 引用可能被替换,必须加 volatile 保证可见性privatevolatileConcurrentHashMap<String,Object>concurrentCache=newConcurrentHashMap<>();/** * 全量更新缓存,直接替换整个 CHM 实例 */publicvoidrefreshCache(){// 创建新的缓存实例,加载全量数据ConcurrentHashMap<String,Object>newCache=newConcurrentHashMap<>();// 模拟加载缓存数据的逻辑newCache.put("user:1","张三");newCache.put("user:2","李四");// 替换原有的缓存引用concurrentCache=newCache;}publicObjectgetData(Stringkey){returnconcurrentCache.get(key);}}在这个场景里,concurrentCache这个引用变量会被重新赋值,指向新的 ConcurrentHashMap 实例。如果不加 volatile,当一个线程执行了refreshCache方法替换了引用后,其他线程可能还在读取旧的引用,使用的是过时的缓存数据,这就产生了线程安全问题。
而加上 volatile 之后,就能保证引用修改的可见性,所有线程都能立即获取到最新的实例引用,再结合 ConcurrentHashMap 自身的方法安全,整个流程才是完整的线程安全。
结合实际业务,再加深理解
平时做 Spring Web 开发的时候,经常会把 ConcurrentHashMap 作为成员变量放在 Controller 里,这里就很容易踩坑,我们可以看一段实际的示例代码:
@RestControllerpublicclassDataController{// 单例 Bean 下的 CHM 成员变量privateConcurrentHashMap<String,String>dataMap=newConcurrentHashMap<>();@GetMapping("/add")publicStringaddData(Stringkey,Stringvalue){dataMap.put(key,value);return"添加成功";}@GetMapping("/get")publicStringgetData(Stringkey){returndataMap.get(key);}/** * 新增的方法,直接替换 CHM 引用 */@GetMapping("/reset")publicStringresetData(){// 此处直接重新赋值,修改了引用dataMap=newConcurrentHashMap<>();return"缓存已重置";}}Spring 的 Controller 默认是单例作用域,所有的请求都会共享同一个 DataController 实例,也就共享同一个dataMap变量。
在只调用addData和getData方法时,dataMap的引用没有改变,依靠 ConcurrentHashMap 自身的安全性,不会出现线程问题。但新增了resetData方法后,dataMap会被重新赋值,指向新的实例,此时没有 volatile 修饰,就会出现部分线程读取到旧实例、部分读取到新实例的问题,导致数据不一致。
解决这个问题的方式也很清晰:
- 给
dataMap加上volatile关键字,保证引用的可见性; - 给
dataMap加上final关键字,禁止引用被重新赋值,从根源上杜绝问题; - 将 Controller 的作用域改为 prototype,每次请求创建新实例,让每个线程操作独立的 CHM,但这种方式会增加内存开销,需要结合业务权衡。
再延伸一个容易忽略的点
这里还要补充一个很重要的误区,就算我们用了线程安全的 ConcurrentHashMap,也不代表所有场景下都绝对安全,尤其是涉及到复合操作的时候。
举个简单的例子,想要实现“如果 key 不存在,就放入数据”的逻辑:
publicvoidputIfNotExist(Stringkey,Stringvalue){// 先查询,再插入,两步操作if(!concurrentCache.containsKey(key)){concurrentCache.put(key,value);}}ConcurrentHashMap 的containsKey和put方法都是线程安全的,但这两个方法组合在一起,就变成了非原子操作。多线程环境下,可能两个线程同时判断 key 不存在,然后先后执行 put 方法,导致后执行的线程覆盖了先执行的线程的数据。
这种情况,ConcurrentHashMap 自身的线程安全解决不了,需要我们额外处理,比如使用 ConcurrentHashMap 提供的原子方法putIfAbsent,或者通过加锁来保证复合操作的原子性。
这也印证了一个道理:线程安全是一个全局的问题,不能只依赖某一个组件的特性,就觉得万事大吉,所有的逻辑都要结合具体的使用场景去分析。
回到最开始的问题,现在再看,答案其实已经很清晰了。ConcurrentHashMap 负责自身方法的线程安全,volatile 负责引用变量的可见性,两者的作用颗粒度完全不同。只有当 ConcurrentHashMap 的引用存在被修改的场景时,才需要使用 volatile,否则完全没有必要添加。