本文介绍了 MotionDiffuser,一种基于去噪扩散模型(Denoising Diffusion Models)的创新框架,用于可控的多智能体未来轨迹预测。该模型旨在解决自动驾驶中运动预测的固有挑战:多模态性、联合推理和可控性 。
1. 核心思想与优势
-
扩散模型基础:MotionDiffuser 利用去噪扩散模型学习多智能体未来轨迹的联合分布。这类模型通过迭代地从纯高斯噪声中去噪样本来生成数据,能够捕捉复杂、高维和多模态的分布 。
-
多模态性:模型能学习高度多模态的分布,以捕捉未来各种可能的轨迹结果,应对交通场景的不确定性 。
-
训练简洁高效:预测器设计简单,仅需单个 L2 损失进行端到端训练,不依赖于轨迹锚点 。
-
置换不变性:模型以置换不变的方式学习多智能体运动的联合分布,确保预测结果不受智能体输入顺序的影响 。(比如输入agent2,agent3不会影响实验结果
-
压缩轨迹表示:通过主成分分析(PCA)实现轨迹的压缩表示。这不仅提高了模型性能和推理速度,还使得精确样本对数概率的计算更为高效 。(将Nf*Nt压缩成Np,其中Nt为时间步,Nf为特征数)
-
可控采样框架:引入通用约束采样框架,允许根据可微分的成本函数进行轨迹采样,从而强制执行规则、物理先验或创建定制仿真场景 。
-
SOTA 性能:MotionDiffuser 结合现有骨干网络(如 Wayformer)在 Waymo Open Motion Dataset 上实现了多智能体运动预测的最先进结果 。
2. 模型架构与流程(结合图 2)
MotionDiffuser 的流程分为训练和推理两个阶段:
A. 训练阶段 (Training)
- 场景输入 (Scene Input):模型接收包含智能体历史(History)、上下文智能体(Context Agents)、交通灯(Traffic Light)和道路图(Road Graph)等元素。
-
编码器 (Encoder):这些场景元素通过 Transformer 编码器被编码成一组条件令牌 C (Condition Tokens) 。
-
噪声注入:将真实的地面轨迹(GT Trajectory)s1,s2 与从高斯分布 $N(0,σ^2I)$ 中采样的随机噪声 ϵ 相加,生成噪声轨迹(Noisy Trajectory)。这意味着 x=x0+ϵ 。
-
去噪器 (Denoiser):去噪器接收噪声轨迹 x+ϵ 和噪声水平 σ 作为输入,并 attend 到条件令牌 C 。其目标是预测出去噪轨迹(Denoised Trajectory),即原始的真实轨迹 x 。
- 损失函数:模型通过最小化预测的去噪轨迹与真实轨迹之间的简单 L2 损失进行端到端训练 。
B. 推理阶段 (Inference)
- 初始噪声采样:从最高噪声水平 σmax 下的纯噪声 $N(0,σ_{max}^2I)$ 中采样得到一组初始轨迹(例如 s1,s2)。
-
迭代去噪:这些噪声轨迹被送入去噪器,通过迭代的去噪过程逐步提炼。去噪器在每个步骤中接收当前的噪声轨迹和条件令牌 C,并预测去噪方向 。
-
轨迹生成:经过多次迭代(例如 32 步),去噪器将纯噪声转化为一组** plausible 的未来轨迹分布 spred** 。
- 可选约束 (Optional Constraint x):在去噪过程中,可以选择性地注入约束,形式为任意可微分的损失函数。这使得模型能够生成满足额外先验或行为要求的轨迹 。
3. 关键技术细节
-
分数函数与去噪器关系:扩散模型不直接学习难以归一化的概率密度函数 pθ(x),而是学习其分数函数 ∇xlogpθ(x;σ) 。去噪器 D(x;σ) 通过关系 ∇xlogp(x;σ)=(D(x;σ)−x)/σ2 与分数函数相关联 。分母的 σ2 是为了正确缩放去噪器的预测残差,使其与概率梯度尺度相匹配,源于得分匹配理论和高斯噪声的方差 。
-
ODE 动力学:数据生成通过求解一个 ODE 实现: $\boldsymbol{x}{0}=\boldsymbol{x} ( T )+\int{T}^{0}-\dot{\sigma} ( t ) \sigma( t ) \nabla_{\boldsymbol{x}} \operatorname{l o g} p_{\boldsymbol{\theta}} ( \boldsymbol{x} ( t ) ; \sigma( t ) ) d t$ 。其中 −σ˙(t)σ(t) 项来源于反向 SDE 的漂移项,σ(t) 因子用于平衡不同噪声水平下梯度对样本的影响 。
-
置换等变去噪器:为了处理多智能体的无序性,去噪器采用了基于 Transformer 的置换等变架构。通过自注意力层和不使用智能体维度的位置编码,确保模型输出对智能体顺序不变 。
- PCA 潜在扩散:
-
原因:轨迹在时间和几何上平滑,PCA 能高效捕捉低维结构,提高推理速度、约束处理效果和模型性能 。
-
过程:
-
线性插值/外推填充轨迹缺失时间步 。
-
轨迹居中、旋转到 +y 方向并展平 。
-
计算主成分矩阵 $W_{pca}$ 和均值 sˉ′(可能包含白化)。
-
轨迹从原始高维空间 (Nt*Nf) 转换到低维 PCA 空间 (Np):$\hat{s}{i}=( s{i}-\bar{s} ) W_{\mathrm{p c a}}^{T} \Leftrightarrow\bar{s}{i}=\hat{s}{i} ( W_{\mathrm{p c a}}^{T} )^{-1}+\bar{s}$。MotionDiffuser 在此 Np=10 的低维空间中进行扩散 。
-
-
- 可控采样:
-
原理:通过在去噪过程中,在标准分数函数梯度上叠加一个约束梯度评分 $\nabla_{\boldsymbol{S}} \operatorname{l o g} q ( \boldsymbol{S} ; \boldsymbol{C}, \sigma)$,实现可控性 。
-
近似方法:约束梯度评分近似为$\lambda\frac{\partial} {\partial S} \mathcal{L} \Big( D ( S ; C, \sigma) \Big)$ 。该近似利用了去噪器输出 D(S;C,σ) 即使在有噪声输入 S 的情况下也能接近真实数据流形的特性 。L相当于约束,D可以看作当噪声为0接近真实轨迹
-
吸引子成本:$\mathcal{L}_{\mathrm{a t t r a c t}} ( D ( \mathbf{S} ; \mathbf{C}, \sigma) )=\frac{\sum ( D ( \mathbf{S} ; \mathbf{C}, \sigma)-\mathbf{S}{\mathrm{t a r g e t}} ) \odot\mathbf{M}{\mathrm{t a r g e t}} } {\sum \mathbf{M}_{\mathrm{t a r g e t}} +e p s}$,用于引导轨迹到达特定目标点 。 -
排斥子成本:$\mathbf{A}=\operatorname* {m a x} \Bigl( \bigl( 1-\frac{1} {r} \Delta( D ( \mathbf{S} ; \mathbf{C}, \sigma) ) \bigr) \odot( 1-I ), 0 \Bigr)$,${\cal L}_{\mathrm{r e p e l l}} ( D ( \boldsymbol{S} ) )=\frac{\sum\boldsymbol{A}} {\sum( \boldsymbol{A} > 0 )+e p s}$用于避免智能体间碰撞。(1−I) 用于排除智能体自身与自身的距离计算 。
- 约束分数阈值化 (ST):将约束分数裁剪到特定范围,即 $\nabla_{S} \operatorname{l o g} q ( S ; C, \sigma) :=\mathrm{c l i p} ( \sigma\nabla_{S} \operatorname{l o g} q ( S ; C, \sigma), \pm1 ) / \sigma$。这提高了采样稳定性,防止梯度过大,并帮助保持生成轨迹的真实性 。
-
4. 实验结果
-
WOMD 交互式数据集:在 Waymo Open Motion Dataset 交互式拆分上进行评估 。
-
SOTA 性能:在 minSADE、minSFDE 等指标上取得最先进结果。相较于 Wayformer(相同骨干),MotionDiffuser 性能显著提升 。
- 可控性验证:
-
吸引子:能有效引导轨迹到目标,同时保持高真实性(minSADE 0.533),优于仅优化后处理(minSADE 4.563,但完美满足约束)或 GTC [53](minSADE 1.18)。
-
排斥子:显著降低联合预测的重叠率(从 0.059 降至 0.008),有效减轻碰撞,同时保持轨迹真实性 。
-
- 消融研究:证明了 PCA 轨迹表示、Transformer 架构和自注意力层对模型性能的重要性 。ST 策略对约束满足度至关重要 。