从ARM汇编ldrex/strex入手，彻底搞懂Linux原子操作的硬件实现原理

张开发

• 2026/6/25 2:35:57 • 15 分钟阅读

分享文章

从ARM汇编ldrex/strex入手彻底搞懂Linux原子操作的硬件实现原理在多核处理器成为主流的今天如何确保多个CPU核心对共享数据的访问不会引发竞态条件是操作系统内核设计中的核心挑战之一。原子操作作为解决这一问题的基石其硬件实现机制往往被封装在高层次的API之下成为大多数开发者眼中的黑盒。本文将深入ARM架构的ldrex/strex指令对揭示Linux原子操作如何在硬件层面实现真正的不可分割性。1. 原子操作的硬件本质原子操作的核心特征是不可中断性——要么完整执行要么完全不执行。这种特性无法仅靠软件实现必须依赖处理器提供的特殊指令。不同架构对此有不同的实现方式x86通过lock前缀锁定总线MIPS使用ll(load linked)/sc(store conditional)指令对ARM采用ldrex(load exclusive)/strex(store exclusive)机制以ARMv7架构为例当CPU执行ldrex指令时会同时完成两件事从内存加载数据到寄存器标记该内存区域为独占访问状态对应的strex指令在执行存储操作前会检查这个独占标记是否仍然有效。只有当没有其他处理器核心修改过该内存区域时存储才会成功并返回0否则存储被放弃返回1。// ARMv7原子加操作的典型实现 1: ldrex r0, [r1] 独占加载 add r0, r0, r2 修改值 strex r3, r0, [r1] 尝试独占存储 cmp r3, #0 检查是否成功 bne 1b 失败则重试这种加载-修改-条件存储的循环模式构成了LL/SC(Load-Link/Store-Conditional)的通用范式相比x86的总线锁定具有更精细的并发控制粒度。2. Linux内核中的原子变量实现Linux通过atomic_t类型封装原子操作其定义体现了与硬件的紧密耦合typedef struct { volatile int counter; } atomic_t;volatile关键字在这里起到双重作用阻止编译器对内存访问进行优化确保每次操作都直接作用于内存而非寄存器内核提供了一系列原子操作API其实现最终都会落实到架构特定的汇编指令API函数作用描述典型使用场景atomic_read原子读取获取引用计数值atomic_set原子写入初始化原子变量atomic_add原子加法增加资源计数atomic_sub原子减法减少资源计数atomic_inc原子自增1引用计数增加atomic_dec原子自减1引用计数减少atomic_cmpxchg比较并交换实现锁、等待队列等这些API在ARM平台下的实现都遵循相似的模板static inline void atomic_add(int i, atomic_t *v) { unsigned long tmp; int result; __asm__ __volatile__( atomic_add\n 1: ldrex %0, [%3]\n add %0, %0, %4\n strex %1, %0, [%3]\n teq %1, #0\n bne 1b : r (result), r (tmp), Qo (v-counter) : r (v-counter), Ir (i) : cc); }注意Qo约束表示操作数既是输入也是输出且要求内存位置可寻址3. 多核环境下的内存屏障问题在SMP系统中原子操作还需要考虑内存可见性问题。ARM等弱内存模型架构中处理器可能对内存访问进行重排序导致意外的执行结果。这就是为什么返回结果的原子操作需要包含内存屏障static inline int atomic_add_return(int i, atomic_t *v) { unsigned long tmp; int result; smp_mb(); // 内存屏障 __asm__ __volatile__( atomic_add_return\n 1: ldrex %0, [%3]\n add %0, %0, %4\n strex %1, %0, [%3]\n teq %1, #0\n bne 1b : r (result), r (tmp), Qo (v-counter) : r (v-counter), Ir (i) : cc); smp_mb(); // 内存屏障 return result; }内存屏障确保了屏障前的所有内存操作在屏障后的操作之前完成操作结果对其他处理器核心立即可见下表对比了不同架构的原子操作实现特点架构指令/机制特点内存模型强度x86lock前缀总线锁定开销大强一致性ARMldrex/strex细粒度独占标记弱一致性MIPSll/sc类似ARM但延迟槽设计不同弱一致性RISC-Vlr/sc可配置的保留集大小弱一致性4. 原子操作在内核中的典型应用4.1 引用计数内核中广泛使用原子操作管理资源生命周期如网络协议栈中的IP分片重组struct ipq { atomic_t refcnt; /* 其他字段 */ }; // 创建时初始化计数 atomic_set(ipq-refcnt, 1); // 引用时增加计数 atomic_inc(ipq-refcnt); // 释放时减少计数 if (atomic_dec_and_test(ipq-refcnt)) { kfree(ipq); }4.2 自旋锁实现原子操作也是构建更高级同步原语的基础如自旋锁的核心操作void spin_lock(spinlock_t *lock) { while (atomic_cmpxchg(lock-val, 0, 1) ! 0) { while (atomic_read(lock-val) ! 0) cpu_relax(); // 降低CPU占用 } }4.3 调试子系统内核调试工具如KGDB使用原子变量确保同一时间只有一个CPU进入调试状态static atomic_t kgdb_active ATOMIC_INIT(-1); // 尝试获取调试权限 int old_cpu atomic_cmpxchg(kgdb_active, -1, current_cpu); if (old_cpu ! -1) { // 已有其他CPU在调试状态 while (atomic_read(kgdb_active) ! -1) cpu_relax(); }5. 性能优化与陷阱规避虽然原子操作必不可少但滥用会导致严重的性能问题缓存颠簸多个核心频繁访问同一缓存行解决方案使用__cacheline_aligned_in_smp对齐关键数据过度争用高并发下的重试开销替代方案考虑percpu变量或无锁数据结构编译器优化干扰// 错误示例可能被优化为寄存器操作 atomic_t counter ATOMIC_INIT(0); for (int i 0; i 100; i) atomic_inc(counter); // 正确做法保持volatile语义 volatile atomic_t counter ATOMIC_INIT(0);在ARMv8架构中原子操作有了进一步优化新增的LSE(Large System Extension)指令集提供了单条指令实现的原子操作如ldadd(原子加)、stset(原子置位)等显著降低了多核争用场景下的开销。

从ARM汇编ldrex/strex入手，彻底搞懂Linux原子操作的硬件实现原理

最新文章

如何轻松批量下载视频号内容：res-downloader完整指南

高通Camera HAL3实战：从configure_streams到Usecase创建，一次搞懂ZSL拍照背后的完整流程

从天气预报到视频预测：ConvLSTM实战项目入门（附PyTorch完整代码）

别再乱卸载补丁了！Win10共享打印机0x00000709/11b错误，用这个官方修复补丁KB5007253一键搞定

别再只会下载程序了！手把手教你用J-Link的J-Scope和RTT功能做实时数据可视化

mysql如何使用INNER JOIN内连接_mysql等值连接实现方式

推荐文章

相关文章

分享文章

更多文章

终极指南：3分钟创建专属动态生日祝福网页（完全免费）

AI写代码已过时？下一代DevOps正在用“生成+自愈”双引擎重构研发流水线：揭秘Gartner 2024技术成熟度曲线TOP3实践路径

告别环境冲突！用WSL2+Docker在Win11上打造纯净的PyTorch炼丹炉（保姆级避坑）

告别追番焦虑！蜜柑计划：一站式动漫资源管理神器

Minecraft 1.16自动钓鱼：从‘开阔水域’机制到Python脚本的完整避坑指南

Java的java.lang.foreign竞技场

从蓝牙到UWB：手把手拆解CCC R3标准如何实现车辆‘厘米级’安全定位

洛雪音乐助手：全网音乐聚合播放器终极使用指南 [特殊字符]

从硬件寄存器到Arduino封装：深入聊聊GPIO的底层原理与上层简化

你的团队还在用SITS2025？SITS2026新增的Context-Aware Guardrails机制，已让37个生产环境零误生成事故

从协议到实践：I2S在SoC音频子系统中的核心角色与设计考量

【STM32】I2C实战：HAL库驱动MPU6050，从零解析数据手册与寄存器配置