Multiple futures prediction

历史输入 + 地图上下文 ↓ PoV 标准化 + 编码器(RNNEnc) ↓ 动态注意力编码器(DynEnc) ↓ 推断离散 latent 模式 z^n(每个 agent 一个) ↓ →→→ 解码器(RNN) →→→ 多步未来轨迹预测 y_{t+1:t+T} ↑ 交互状态更新(所有 agent 协同预测)

输入模块:多 agent 状态 + 地图上下文

  • 每个 agent 的历史轨迹 $x_{t-\tau:t}^n$​,包含其位置、速度、朝向等

  • 上下文信息 III,如地图、车道线,用 CNN 提取

    视角标准化(Point-of-View)

每个 agent 的输入都被转换为“自车视角”–参考系变化,然后我们可以预测车左转右转等等:

  • +x 轴对齐朝向

  • 使得模型具有方向不变性和更好的泛化能力

如图实验中不同模式的预测

|855

编码器(RnnEnc)

  • 每个 agent 独立使用一个 RNN(如 GRU)对其历史状态编码

  • 输出为一个固定维度向量,表示该 agent 的历史行为特征

|695

动态注意力编码器(Dynamic Encoder,DynEnc)

这是 MFP 的核心创新之一:

  • 使用 Radial Basis Function(RBF)进行距离敏感的注意力匹配 \(\mathrm{score}_{ij}=\exp\left(-\frac{\|\mathrm{key}_i-\mathrm{key}_j\|^2}{\sigma^2}\right)\)
    • 用 key 之间的距离来衡量相似性(RBF 比 dot-product 更适合表达空间/语义距离)
  • 每个 agent 只关注“对自己预测有影响的其他 agent”
    • 匹配出 N 个关键 agent,将它们的状态(key)送入编码器
    • 编码器将这些状态通过(例如)MLP 或 transformer 层聚合成一个最终表示
    • 最后这个表示作为输入传递给轨迹解码器,用于预测未来行为
  • 该机制比 Transformer 的 softmax 更适合建模物理空间中的影响力衰减

🔍 优点:

  • 支持任意数量 agent

  • 对排列顺序不敏感(permutation equivariant)

  • 自动聚焦关键交互(如让行、并线)

所有 agent 状态 → key 向量 ↓ ego 与其他 key 做 RBF 匹配 → 选 top-N ↓ 将选中的 key 输入编码器(MLP / attention / slot) ↓ 得到交互表示 h^{interact} ↓ → 解码器 RNN → latent 推断网络

离散 laten z^n

每个 agent 会推断一个离散 latent variable $z^n \in {1, …, K}$,代表其未来行为意图,例如:

  • 保守直行

  • 激进变道

  • 停车等待

该 latent:

  • 只采样一次

  • 控制整个未来预测序列(非逐步采样,避免信息泄漏与过拟合)

  • 在训练中通过变分推理推断(详见 ELBO)

🔍 优点:

  • 多模态建模无需标签

  • 行为模式更具有语义解释性

  • 支持精确 log-likelihood 计算(无需蒙特卡洛

解码器(RNN)

  • 每个 agent 使用共享参数的 RNN 解码器(GRU)

  • 接收:

    • 其历史 hidden state htnh_t^nhtn​

    • 上一步预测值

    • 自身 latent 模式 znz^nzn

    • 联合场景表示(world)

输出为每个时间步的状态分布参数(例如高斯均值和方差),可用于采样轨迹

多 agent 联合 rollout

  • 所有 agent 并行预测 $y_{t+1:t+T}$​

  • 每一步预测都会影响下一步输入,体现交互性

  • 支持 hypothetical rollout(假设 ego 做某事时他人如何响应) hypothetical rollout指的是在推理阶段,人为设定 ego 的未来行为,然后观察其他 agent 如何响应。比如:

  • 给定 ego 的未来轨迹为一条向左变道的路径

  • 其他 agent 仍用 MFP rollout 模型进行预测

  • 由于所有 agent 是联合 rollout 的,其他 agent 会将 ego 的“假设动作”当作真实输入,产生相应变化(如减速、变线等)

这种功能对 行为预测 + 规划耦合 特别有用。

Time: t t+1 t+2 t+3 … ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ Agent 1 │ y_t │→│ y_t+1│→│ y_t+2│→│ y_t+3│→ … └─────┘ └─────┘ └─────┘ └─────┘ ↘ ↘ ↘ Agent 2 └→ uses └→ uses └→ uses y_t+1 y_t+2 y_t+3 of Agent 1

类别 创新点 说明  
模型设计 离散 latent variable znz^n 行为模式抽象明确,不需要连续采样  
多模态性 自动学习潜在行为模式 不依赖人工标签或预定义动作集  
多 agent 联合预测 所有 agent 同时预测,交互编码共享 实现真实交互感知  
动态注意力机制 RBF-based 注意力替代 softmax 区分近邻与远处 agent,有空间感知能力  
假设推理能力 支持“如果 ego 改变策略,其他 agent 会如何” 有效用于 planning 与 RL  
推理效率 不依赖 Monte Carlo 支持显式对数似然估计与在线决策 文章

文章还详细解释了损失函数的计算,使用ELBO

Share: X (Twitter) Facebook LinkedIn