【论文笔记】MambaGlue: Fast and Robust Local Feature Matching With Mamba

【引用格式】：Ryoo K, Lim H, Myung H. MambaGlue: Fast and Robust Local Feature Matching With Mamba[J]. arXiv preprint arXiv:2502.00462, 2025.

【网址】：https://arxiv.org/pdf/2502.00462

【开源代码】：https://github.com/uri-Kaist/MambaGlue

【PPT】：https://download.csdn.net/download/Word_And_Me_/90409456

一、瓶颈问题

二、本文贡献

三、解决方案

1、输入特征与初始化

2、单层处理流程

1）MambaAttention Mixer

a）MambaAttention Mixer（上图（b））

b）交叉注意力模块

2）深度置信分数回归器

3）Exit Test机制

3、损失函数

四、实验结果

1、Homography Estimation

2、Relative Pose Estimation

3、Outdoor Visual Localization

4、Ablation Study

一、瓶颈问题

效率与鲁棒性的权衡：现有基于Transformer的局部特征匹配方法（如SuperGlue、LightGlue）虽然鲁棒，但计算复杂度高（随关键点数量平方增长），难以满足实时性需求（如SLAM、视觉定位）。
特征描述符的局限性：传统方法依赖独立特征检测器和描述符，难以应对光照变化、弱纹理场景和视角差异，导致匹配错误率较高。

二、本文贡献

MambaAttention Mixer模块：结合Mamba架构（选择性状态空间模型）与自注意力机制，同时捕捉全局和局部上下文，显著提升特征表达能力。
深度置信分数回归器：基于多层感知机（MLP）设计，动态评估匹配置信度，支持早期停止机制（Exit Test），减少冗余计算。
高效混合架构：并行融合Mamba与Transformer，在保持高精度的同时实现线性时间复杂度，显著降低推理延迟。

三、解决方案

MambaGlue的核心架构由多层堆叠结构组成，每层通过三个关键模块处理特征：MambaAttention Mixer、交叉注意力（Cross-Attention）和深度置信分数回归器。

1、输入特征与初始化

系统的输入由图像A和B的两组局部特征组成，将A和B的特征集分别表示为 $F_{A}$ 和 $F_{B}$ ，表示如下：

$F_{A}={(p_{i}^{A},d_{i}^{A})}_{i=1}^{N_{A}}$

$F_{B}={(p_{j}^{B},d_{j}^{B})}_{j=1}^{N_{B}}$

其中， $N_{A}$ 和 $N_{B}$ 分别是图像A和B上的特征数；为简单起见， $F_{A}$ 或 $F_{B}$ 中任意 q 特征点和 d 维描述符分别记为 $p_{q}^{I}$ 和 $d_{q}^{I}$ ， $I\in \begin{Bmatrix} {A,B} \end{Bmatrix}$ 。

每个关键点的状态 $x_{q}^{I}$ 初始化为对应的描述符：

$x_{q}^{I}\leftarrow d_{q}^{I}(I\in \begin{Bmatrix} A,B \end{Bmatrix})$

2、单层处理流程

每一层的具体流程可见上图（b）所示

1）MambaAttention Mixer

受 MambaVision [MambaVision: A hybrid mamba- transformer vision backbone]（见上图 (a)）的启发，文中首先提出了一个基于 Mamba 的自注意模块，称为 MambaAttention Mixer。如上图 (b)所示，MambaAttention 混合器由一个自注意区块、一个直接连接的输入区块和一个基于 Mamba 的区块组成。自注意和 Mamba 的结合允许对输入标记进行全局和选择性扫描。之后，MambaAttention Mixer和交叉注意块的组合构成了系统每一层的重要组成部分。

a）MambaAttention Mixer（上图（b））

自注意区块：编辑全局相对位置关系，计算公式如下:

其中，W为投影矩阵；R为相对位置之间的旋转编码；q和k是从状态向量 $x_{i}$ 通过不同的线性变换得到的查询向量和键向量。

直连区块：保留原始特征 $x_{q}$ ，防止信息丢失。

基于Mamba区块：通过选择性扫描（Selective Scan）捕捉序列中重要局部信息，计算公式如下：

$y_{q}=Linear(\frac{d}{2},d)(Scan(f(x_{q})))$

$z_{q}=Linear(\frac{d}{2},d)(f(x_{q}))$

其中，Scan(-) 是选择性扫描操作，用于有效地聚焦于输入序列中最相关的片段； $f(x_{q})$ 为 $\sigma (Conv(Linear(d,\frac{d}{2})(x_{q})))$ ； $Linear(d_{in}, d_{out})(\cdot )$ 为对后面信息进行线性操作；

更新状态：将三个信息融合并更新，公式如下：

$m_{q}=[s_{q}|y_{q}|z_{q}]$

$x_{q}\leftarrow x_{q}+MLP([x_{q}|m_{q}])$

b）交叉注意力模块

图像A与B相互交换信息并更新向量x，公式如下：

$x_{q}^{I}\leftarrow x_{q}^{I}+MLP([x_{q}^{I}|m_{q}^{I\leftarrow S}])$

2）深度置信分数回归器

深度置信分数回归器预测的置信分表示每个特征点的匹配预测与地面实况匹配的置信度。

在Lightglue中仅使用了一个Sigmoid层和一个线性层组合来预测置信度得分；文中认为一个线性计算层不足以分析经过神经网络许多步骤的每个状态的复杂表示。为此，文中增加了线性层，如下公式所示；经过文中实验，在训练和推理方面都更快，没有变慢，并且能够更好地理解上下文中的层次和抽象含义。

$c_{q}=Sigmoid(MLP(d\rightarrow \frac{d}{2}\rightarrow \frac{d}{4}\rightarrow 1)(x_{q}))$

3）Exit Test机制

文中针对置信度分数进行下列计算得到是否退出推理：

其中， $g(c_{n})=(1/|k_{n}|)\sum _{q=1}^{|k_{n}|}[[c_{q}>\lambda _{n}]]$ ；[[·]] 代表艾弗森算子；

这意味着，当图像对上所有点的比率 $\alpha$ 足够大时，我们就会停止迭代。

3、损失函数

文中分两个阶段训练 MambaGlue，与 LightGlue 的训练过程类似。首先，监督模型预测的匹配对与真实匹配对的一致性，而不进行退出测试，然后只训练深度置信度回归因子。第二步不会影响各层的性能。

匹配损失：

$\sigma _{i}=Sigmoid(Linear(x_{i}))$

其中 $\sigma _{i}$ 为匹配度得分，表示第 i 个点有对应点的可能性； $S_{ij}$ 为匹配矩阵，表示每对点对应关系的概率得分；

置信损失：

训练深度置信度平分回归器中，使用的是最小化二元交叉熵损失函数，使匹配预测与地面实况匹配相同。

四、实验结果

与Lightglue训练对比：

文中使用官方预训练的权重，将 MambaGlue 与 SuperGlue、SGMNet 和 LightGlue 等基于变换器的稀疏特征匹配方法进行了比较，评估了 MambaGlue 在同构估计、相对姿态估计和室外视觉定位这三个视觉任务上的表现。

在Homography Estimation方面，文中使用了 HPatches 数据集，该数据集提供了具有挑战性的条件，如光照变化、遮挡或视点变化。在相对姿态估计方面，我们使用了 MegaDepth-1500 数据集中的 1,500 对图像，该数据集包括具有结构和视觉变化的室外场景，并通过视觉重叠率调整了难度级别。在室外视觉定位方面，文中采用了 Aachen Day-Night 基准，沿用了 Sarlin 等人提出的基准。