【数据同化第三期】数据同化理论基础:贝叶斯定理+贝叶斯推断

张开发
2026/6/9 17:02:19 15 分钟阅读
【数据同化第三期】数据同化理论基础:贝叶斯定理+贝叶斯推断
目录条件概率Conditional probability贝叶斯定理 (Bayes’ Theorem)贝叶斯推断 (Bayesian Inference)参考本博客结合 NCAR-Conditional probability and Bayes’ theorem 网页中对条件概率和贝叶斯定理的解释详细说明数据同化的基本原理。在气象预报、大气传输建模中我们不断地根据“观测数据”来修正“模型预测”这本质上就是一个应用条件概率和贝叶斯定理的过程。条件概率Conditional probability1. 核心概念不确定性 (Uncertainty)在科学建模中我们无法百分之百确定某个结果只能用概率来描述。数学符号P ( A ) P(A)P(A)表示事件A AA发生的概率。取值范围概率值介于0 00绝不可能和1 11必然发生之间。例子如果A AA是“航班准点”P ( A ) 0.85 P(A) 0.85P(A)0.85意味着基于历史经验有 85% 的概率航班会按时起飞。2. 条件概率 (Conditional Probability)这是理解数据同化的关键。它描述的是在已知另一个事件B BB发生的前提下事件A AA发生的概率。数学符号P ( A ∣ B ) P(A|B)P(A∣B)读作“在B BB条件下A AA的概率” (Probability ofA AAgivenB BB)。实例分析先验情况正常情况下航班准点率很高P ( A ) 0.85 P(A) 0.85P(A)0.85。新信息条件突然得知一小时后有暴风雪事件B BB。更新后的概率此时准点率会骤降P ( A ∣ B ) 0.05 P(A|B) 0.05P(A∣B)0.05。直观理解条件概率本质上是在缩小样本空间。原本我们考虑所有天气情况下的航班现在我们只考虑“有暴风雪”这一特定子集里的航班情况。3. 为什么这在数据同化中很重要事件A AA状态估计真实的大气状态例如某一时刻真实的 CO2 浓度。事件B BB观测值卫星OCO-2/3或地面站观测到的数据。P ( A ) P(A)P(A)你的模型WRF/STILT给出的预测先验概率。P ( B ∣ A ) P(B|A)P(B∣A)似然函数Likelihood。即如果真实浓度是A AA那么观测仪测出B BB的概率是多少这涉及到观测误差。P ( A ∣ B ) P(A|B)P(A∣B)后验概率。这就是数据同化的目标在已知观测值B BB的情况下修正后的最接近真实的大气状态A AA是多少贝叶斯定理 (Bayes’ Theorem)贝叶斯定理的核心在于当我们获得新的证据观测数据时如何更新我们对某个事件发生概率的认知。1. 核心公式与术语 (The Core Formula)贝叶斯定理的公式为P ( A ∣ B ) P ( B ∣ A ) P ( A ) P ( B ) P(A|B) \frac{P(B|A)P(A)}{P(B)}P(A∣B)P(B)P(B∣A)P(A)​在报警器的例子中各部分的含义如下先验概率 (Prior),P ( A ) P(A)P(A)在报警器响之前你家发生一氧化碳泄露的概率。似然度 (Likelihood),P ( B ∣ A ) P(B|A)P(B∣A)如果真的发生了泄露报警器会响的概率体现仪器的灵敏度。归一化常量 (Normalization),P ( B ) P(B)P(B)报警器响了的总概率包括真报和误报。后验概率 (Posterior),P ( A ∣ B ) P(A|B)P(A∣B)既然报警器响了家里真的发生泄露的概率。这是我们最终想要计算的结果。2. 实例背景 (The Scenario)环境数据美国每年约有 100,000 起 CO 暴露事件总户数约为 1.4 亿户。仪器性能报警器的错误率误报或漏报为 0.1%即 0.001。3. 分步计算过程 (Step-by-Step Calculation)第一步计算先验概率P ( A ) P(A)P(A)基于全美的统计数据在没有任何新信息前你家发生泄露的概率极低P ( A ) 100 , 000 140 , 000 , 000 ≈ 7.1 × 10 − 4 P(A) \frac{100,000}{140,000,000} \approx 7.1 \times 10^{-4}P(A)140,000,000100,000​≈7.1×10−4第二步计算似然度P ( B ∣ A ) P(B|A)P(B∣A)如果真的有 CO 泄露报警器正常工作的概率已知错误率为 0.1%P ( B ∣ A ) 1 − 0.001 0.999 P(B|A) 1 - 0.001 0.999P(B∣A)1−0.0010.999第三步计算归一化因子P ( B ) P(B)P(B)报警器响的总概率这是最关键的一步报警器响有两种可能真报P ( B ) P(B^)P(B)真的有泄露且报警了。P ( B ) P ( A ) × P ( B ∣ A ) 7.1 × 10 − 4 × 0.999 ≈ 7.1 × 10 − 4 P(B^) P(A) \times P(B|A) 7.1 \times 10^{-4} \times 0.999 \approx 7.1 \times 10^{-4}P(B)P(A)×P(B∣A)7.1×10−4×0.999≈7.1×10−4误报P ( B − ) P(B^-)P(B−)没有泄露但报警器出错了。P ( B − ) P ( 无泄露 ) × 错误率 139 , 900 , 000 140 , 000 , 000 × 0.001 ≈ 9.9 × 10 − 4 P(B^-) P(\text{无泄露}) \times \text{错误率} \frac{139,900,000}{140,000,000} \times 0.001 \approx 9.9 \times 10^{-4}P(B−)P(无泄露)×错误率140,000,000139,900,000​×0.001≈9.9×10−4总概率P ( B ) P ( B ) P ( B − ) 1.7 × 10 − 3 P(B) P(B^) P(B^-) 1.7 \times 10^{-3}P(B)P(B)P(B−)1.7×10−3第四步计算后验概率P ( A ∣ B ) P(A|B)P(A∣B)现在将数据带入贝叶斯公式P ( A ∣ B ) 0.999 × 7.1 × 10 − 4 1.7 × 10 − 3 0.42 P(A|B) \frac{0.999 \times 7.1 \times 10^{-4}}{1.7 \times 10^{-3}} 0.42P(A∣B)1.7×10−30.999×7.1×10−4​0.424. 结论与科学启示结论即使报警器响了你家真的发生一氧化碳泄露的概率也只有42%。为什么虽然报警器的精度很高99.9%但由于“一氧化碳泄露”本身是一个极小概率事件先验概率极低导致“报警器出错”的次数在总量上甚至超过了“真实报警”的次数。对数据同化研究的意义这完美解释了为什么在数据同化如 WRF-DART中我们不能完全迷信观测值也不能完全迷信模型预测P ( A ) P(A)P(A)就像是你的WRF 模拟背景场。P ( B ∣ A ) P(B|A)P(B∣A)就像是观测算子考虑到卫星 OCO-3 或仪器的误差。P ( A ∣ B ) P(A|B)P(A∣B)就是同化后的分析场。贝叶斯推断 (Bayesian Inference)如果说贝叶斯定理是静态地评估一次证据那么贝叶斯推断就是一个持续学习、不断更新的动态过程。它的核心哲学是今天的后验概率就是明天的先验概率。1. 核心概念贝叶斯推断 (Bayesian Inference)当新的信息证据不断涌现时可以多次应用贝叶斯定理来持续修正我们对事件发生概率的估计。在数学上这意味着上一次计算得出的后验概率 (Posterior)将无缝转换为下一次计算的先验概率 (Prior)。2. 实例背景的推进 (The Updated Scenario)前情提要你家里的 CO 报警器响了基于它的精度0.1% 错误率和极低的事故发生率推断出真正泄露的概率只有42%。新证据介入消防员带着更专业的 CO 探测仪进入你家并且也发出了警报。新仪器性能消防员的仪器更精确错误率仅为 0.01%即 0.0001。3. 分步计算过程 (The Second Update)这一次计算过程的结构完全相同但输入的概率值先验和似然发生了根本变化。第一步确立“新”的先验概率P ( A ) P(A)P(A)这是贝叶斯推断最精妙的一步。在消防员测之前你对家里是否泄露的认知不再是全美平均概率而是第一阶段得出的结论P ( A ) 0.42 P(A) 0.42P(A)0.42第二步计算“新”的似然度P ( B ∣ A ) P(B|A)P(B∣A)基于专业仪器极低的错误率0.01%如果真有泄露它正常报警的概率极高P ( B ∣ A ) 1 − 0.0001 0.9999 P(B|A) 1 - 0.0001 0.9999P(B∣A)1−0.00010.9999第三步计算“新”的归一化因子P ( B ) P(B)P(B)专业仪器报警的总概率同样分为真报和误报误报P ( B − ) P(B^-)P(B−)没泄露概率为1 − 0.42 1 - 0.421−0.42但仪器出错了P ( B − ) ( 1 − 0.42 ) × 0.0001 5.8 × 10 − 5 P(B^-) (1 - 0.42) \times 0.0001 5.8 \times 10^{-5}P(B−)(1−0.42)×0.00015.8×10−5真报P ( B ) P(B^)P(B)真泄露了且正常报警P ( B ) 0.42 × 0.9999 ≈ 0.42 P(B^) 0.42 \times 0.9999 \approx 0.42P(B)0.42×0.9999≈0.42(注这里0.419958 0.4199580.419958在文本中近似为0.42 0.420.42以简化计算)总概率P ( B ) P ( B − ) P ( B ) 5.8 × 10 − 5 0.42 ≈ 0.42 P(B) P(B^-) P(B^) 5.8 \times 10^{-5} 0.42 \approx 0.42P(B)P(B−)P(B)5.8×10−50.42≈0.42第四步计算最终的后验概率P ( A ∣ B ) P(A|B)P(A∣B)将新数据带入公式P ( A ∣ B ) 0.9999 × 0.42 0.42 0.9999 P(A|B) \frac{0.9999 \times 0.42}{0.42} 0.9999P(A∣B)0.420.9999×0.42​0.99994. 结论与科学启示结论当家里的报警器和消防员的专业仪器同时报警时你家发生一氧化碳泄露的概率飙升至99.99%。直觉上我们都知道“两次确认就基本确定了”而贝叶斯推断为这种直觉提供了严谨的数学框架。对大气传输与数据同化的深刻意义这完全模拟了序贯数据同化Sequential Data Assimilation如 DART 系统中的集合卡尔曼滤波 EnKF的运行机制T 0 T_0T0​时刻WRF-Chem 模型基于初始场向前积分给出一个预测状态初代先验。T 1 T_1T1​时刻引入 OCO-2 卫星过境的柱浓度数据。结合卫星的 Averaging Kernels观测误差/似然度进行第一次同化得到T 1 T_1T1​时刻的分析场第一代后验。预测循环这个T 1 T_1T1​时刻的分析场立刻成为模型继续向T 2 T_2T2​时刻积分的初始条件也就是进入下一轮的“新先验”正如例子中的 0.42。T 2 T_2T2​时刻也许 TROPOMI 卫星的数据来了新证据系统再次进行同化计算得出新的分析场第二代后验如同例子中的 0.9999。通过这样不断用新的观测数据即使带有误差去更新模型状态系统的不确定性被逐渐压缩使得模拟出的 3D CO2 浓度场越来越逼近真实大气状态。参考

更多文章