当前位置：首页 > 云谷精选

系统死锁：别让程序“卡”在黎明前

admin2026年03月17日云谷精选11.67万

摘要：# 系统死锁：别让程序“卡”在黎明前我前两天翻一个老项目的日志，半夜两点多突然停了，查了半天，最后发现是俩线程互相“等”上了——一个握着数据库连接不放，另一个占着文件锁不松手，结果谁也别想往下走。这场景你应该不陌生吧？这就是典型的死锁。说白了，死锁…

我前两天翻一个老项目的日志，半夜两点多突然停了，查了半天，最后发现是俩线程互相“等”上了——一个握着数据库连接不放，另一个占着文件锁不松手，结果谁也别想往下走。这场景你应该不陌生吧？这就是典型的死锁。

说白了，死锁就像两个人在窄巷里迎面遇上，谁也不肯先让，结果大家都卡在那儿干瞪眼。在系统里，这事儿一旦发生，相关进程就彻底“僵”住了，CPU空转，资源白占，业务直接停摆。很多运维兄弟半夜被叫起来重启服务，根子往往就在这儿。

今天咱们就抛开那些教科书式的定义，聊聊怎么防、怎么抓、万一真碰上了又该怎么救。这玩意儿，配好了是防火墙，配不好就是给自己挖坑。

死锁到底怎么来的？四个条件凑一桌麻将

先得说清楚，死锁不是凭空蹦出来的。它得凑齐四个“缺一不可”的条件，跟打麻将凑牌一样：

互斥条件：资源一次只能给一个进程用。比如打印机，你打着呢，别人就干等着。
请求与保持条件：进程占着A资源不放，还伸手要B资源。
不剥夺条件：资源除非进程自己放手，否则系统不能强行抢走。
循环等待条件：最后形成个“等待圈”——P1等P2占着的资源，P2等P3的，P3又回头等P1的，闭环了。

这四个条件同时满足，死锁就“啪”一下锁上了。所以，咱们的预防策略，核心就是别让它们四个同时凑齐。

预防：最好的防守，是别让它发生

很多团队喜欢出事再救，但死锁这事儿，预防的代价往往比事后处理小得多。说几个实在的招：

1. 破掉“请求与保持”——要么全给，要么都别给 这就是所谓的“一次性申请”策略。进程在启动前，必须把它这辈子可能需要的所有资源都申请到手。如果不够？那就等着，啥都别干。这方法简单粗暴，能彻底杜绝死锁，但缺点也明显：资源利用率可能极低。比如一个进程早期只需要一点点内存，却不得不提前申请几个G备着，别人就只能干瞪眼。

（我自己见过不少设计过度的系统，资源规划得太“大方”，反而让整体吞吐量上不去。）

2. 破掉“不剥夺条件”——该出手时就出手 如果进程A占着资源R1，又想申请R2但申请不到，系统可以强行把R1从A手里“抢”过来放回资源池，让A先等着。等R2有空了，再连本带利把R1、R2一起还给A。这招适合那些容易保存和恢复状态的资源，比如CPU、内存池。但对于打印机、数据库事务锁这种，你强行中断可能引发数据错乱，那就得慎用。

3. 破掉“循环等待”——给资源排个队，按顺序来 这是最常用、也最有效的预防手段之一。给系统里所有资源类型定一个全局的线性顺序（比如：扫描仪=1，打印机=2，磁带机=3）。进程申请资源时，必须严格按照序号递增的顺序来申请。

举个例子：如果进程已经持有了序号为3的资源（磁带机），那它后续只能申请序号大于3的资源（比如4号绘图仪），绝不允许回头再去申请序号更小的（比如1号扫描仪）。这样一来，循环等待链在逻辑上就被切断了，因为等待方向只能是单向的。

这个策略实现起来不复杂，对资源利用率影响也相对小，很多数据库管理系统（比如MySQL的InnoDB引擎在处理行级锁时）底层就用了类似的思路。

检测：当预防没拦住，得有个“警报器”

预防措施不可能面面俱到，尤其在大规模分布式系统里。这时候，一个灵敏的死锁检测机制就至关重要了。它就像系统的“心电图”，定期扫描，看看有没有出现“心跳停止”（循环等待）。

核心方法是构建并分析“资源分配图”。系统会维护一张图：

把进程和资源都画成节点。
进程指向资源？表示它在申请这个资源。
资源指向进程？表示这个资源已经分配给了该进程。

检测算法（比如银行家算法，或者简化的图搜索）会定期跑一遍，看看这张图里有没有形成闭环。一旦发现环，就实锤死锁了。

但这里有个坑：检测频率怎么定？

太频繁（每秒一次）：CPU开销巨大，可能检测本身就成了性能瓶颈。
太稀疏（一小时一次）：死锁可能卡在那儿几十分钟才被发现，业务早凉了。

所以，折中很重要。通常可以结合资源等待超时时间来定：如果某个资源类型的等待超时是30秒，那检测间隔可以设为10-15秒。同时，在关键事务路径上增加监控埋点，一旦等待时间异常飙升，立刻触发一次紧急检测。

恢复：死锁发生了，怎么“重启心跳”

检测到死锁，警报响了，接下来就是最棘手的：怎么恢复？目标是最小化业务影响和数据损失。

1. 优雅终止：逐个“牺牲”进程 系统会从死锁环里挑一个或多个“牺牲品”进程，强制终止它（们）。释放出来的资源就能打破循环，让其他进程继续跑。挑谁呢？有几个策略：

挑最年轻的：刚创建的进程，干得少，回滚代价小。
挑资源占得少的：恢复起来快。
挑优先级低的：业务影响相对小。
挑已执行步数最多的：这个其实有争议，因为可能它快干完了，杀了损失大，但有时为了避免“饿死”其他进程，也得这么干。

终止后，不能一杀了之。必须要有完善的事务回滚机制，确保被终止进程的操作全部撤销，数据回到一致状态。然后，可以把它重新放入队列，等待再次执行。

2. 资源抢占：温柔一点的“抢夺” 不直接杀进程，而是从某个进程那里把资源“抢”过来，给另一个用。被抢的进程会回滚到之前的安全状态，并等待资源再次可用。这比终止温和，但实现复杂得多：

抢哪个进程的资源？同样面临选择“牺牲品”的问题。
抢了之后，进程回滚到哪个时间点？
如何避免同一个进程被反复抢夺，导致“饿死”？因此，资源抢占一般用于对进程生命周期有严格要求的场景，比如一些实时系统。

3. 人工介入：最后的“大招” 对于核心业务系统，自动恢复策略可能风险太高。这时，检测到死锁后，系统可以自动告警，并给出详细的诊断报告（比如是哪些进程/线程、在争抢哪些资源、形成了怎样的等待环），然后由运维人员根据业务情况，手动决策恢复方案。虽然慢，但最稳妥。

写在最后：别指望银弹，要的是组合拳

聊了这么多，其实我想说，没有一种机制能百分百完美解决死锁。预防、检测、恢复，这三者必须结合业务特点来搭配使用。

对实时性要求极高、不容出错的系统（比如交易引擎），重点砸在预防上，通过严格的资源排序和申请策略，把死锁概率压到无限低。
对业务复杂、并发路径多的在线服务（比如电商后台），预防要做，但更要建设强大的检测和告警能力，配合部分自动恢复（如终止非核心任务），核心链路则准备手动恢复预案。
对资源竞争激烈、设计老旧的系统，可能在架构层面就得动刀，比如引入消息队列异步化、优化事务粒度、拆分资源池等，从根源上减少死锁发生的土壤。

最后说句大实话：很多团队一上来就追求最复杂、最“先进”的死锁处理算法，结果把系统搞得无比复杂，反而引入了新的问题。有时候，最简单的“超时释放”策略，配合清晰的日志和告警，可能就是最务实、最有效的选择。

毕竟，系统设计的艺术，往往不在于用了多高深的技术，而在于在复杂度和实用性之间，找到那个最平衡的点。你的系统，现在找到这个点了吗？

扫描二维码推送至手机访问。

本文链接：http://www.ysyg.cn:80/?id=28

返回列表

上一篇：扛不住！华中地区网站老板，正被这种“温柔一刀”放倒

下一篇：内网网络访问控制：基于802.1X的准入认证

系统死锁：别让程序“卡”在黎明前

死锁到底怎么来的？四个条件凑一桌麻将

预防：最好的防守，是别让它发生

检测：当预防没拦住，得有个“警报器”

恢复：死锁发生了，怎么“重启心跳”

写在最后：别指望银弹，要的是组合拳

“系统死锁：别让程序“卡”在黎明前” 的相关文章

解析高防CDN中的自动阈值调整算法：根据业务波峰实时动态加固

研究基于Referer与UA特征的异常访问过滤算法及白名单策略

详解高防 CDN 故障时的回源切换逻辑与源站防火墙的联动配合

分析高防 CDN 接入后 CSS/JS 文件未生效的缓存刷新排查指南

电商平台大促期间高防 CDN 的流量调度与边缘缓存优化方案

探讨自建高防 CDN 面对僵尸网络攻击时的 IP 行为建模与特征过滤

鄂ICP备2025123191号-1