【引用格式】:Ryoo K, Lim H, Myung H. MambaGlue: Fast and Robust Local Feature Matching With Mamba[J]. arXiv preprint arXiv:2502.00462, 2025.
【网址】:https://arxiv.org/pdf/2502.00462
【开源代码】:https://github.com/uri-Kaist/MambaGlue
【PPT】:https://download.csdn.net/download/Word_And_Me_/90409456
目录
一、瓶颈问题
二、本文贡献
三、解决方案
1、输入特征与初始化
2、单层处理流程
1)MambaAttention Mixer
a)MambaAttention Mixer(上图(b))
b)交叉注意力模块
2)深度置信分数回归器
3)Exit Test机制
3、损失函数
四、实验结果
1、Homography Estimation
2、Relative Pose Estimation
3、Outdoor Visual Localization
4、Ablation Study
一、瓶颈问题
- 效率与鲁棒性的权衡:现有基于Transformer的局部特征匹配方法(如SuperGlue、LightGlue)虽然鲁棒,但计算复杂度高(随关键点数量平方增长),难以满足实时性需求(如SLAM、视觉定位)。
- 特征描述符的局限性:传统方法依赖独立特征检测器和描述符,难以应对光照变化、弱纹理场景和视角差异,导致匹配错误率较高。
二、本文贡献
- MambaAttention Mixer模块:结合Mamba架构(选择性状态空间模型)与自注意力机制,同时捕捉全局和局部上下文,显著提升特征表达能力。
- 深度置信分数回归器:基于多层感知机(MLP)设计,动态评估匹配置信度,支持早期停止机制(Exit Test),减少冗余计算。
- 高效混合架构:并行融合Mamba与Transformer,在保持高精度的同时实现线性时间复杂度,显著降低推理延迟。
三、解决方案
MambaGlue的核心架构由多层堆叠结构组成,每层通过三个关键模块处理特征:MambaAttention Mixer、交叉注意力(Cross-Attention)和深度置信分数回归器。
1、输入特征与初始化
系统的输入由图像A和B的两组局部特征组成,将A和B的特征集分别表示为和
,表示如下:
其中,和
分别是图像A和B上的特征数;为简单起见,
或
中任意 q 特征点和 d 维描述符分别记为
和
,
。
每个关键点的状态初始化为对应的描述符:
2、单层处理流程
每一层的具体流程可见上图(b)所示
1)MambaAttention Mixer
受 MambaVision [MambaVision: A hybrid mamba- transformer vision backbone](见上图 (a))的启发,文中首先提出了一个基于 Mamba 的自注意模块,称为 MambaAttention Mixer。如上图 (b)所示,MambaAttention 混合器由一个自注意区块、一个直接连接的输入区块和一个基于 Mamba 的区块组成。自注意和 Mamba 的结合允许对输入标记进行全局和选择性扫描。之后,MambaAttention Mixer和交叉注意块的组合构成了系统每一层的重要组成部分。
a)MambaAttention Mixer(上图(b))
自注意区块:编辑全局相对位置关系,计算公式如下:
其中,W为投影矩阵;R为相对位置之间的旋转编码;q和k是从状态向量通过不同的线性变换得到的查询向量和键向量。
直连区块:保留原始特征,防止信息丢失。
基于Mamba区块:通过选择性扫描(Selective Scan)捕捉序列中重要局部信息,计算公式如下:
其中,Scan(-) 是选择性扫描操作,用于有效地聚焦于输入序列中最相关的片段;为
;
为对后面信息进行线性操作;
更新状态:将三个信息融合并更新,公式如下:
b)交叉注意力模块
图像A与B相互交换信息并更新向量x,公式如下:
2)深度置信分数回归器
深度置信分数回归器预测的置信分表示每个特征点的匹配预测与地面实况匹配的置信度。
在Lightglue中仅使用了一个Sigmoid层和一个线性层组合来预测置信度得分;文中认为一个线性计算层不足以分析经过神经网络许多步骤的每个状态的复杂表示。为此,文中增加了线性层,如下公式所示;经过文中实验,在训练和推理方面都更快,没有变慢,并且能够更好地理解上下文中的层次和抽象含义。
3)Exit Test机制
文中针对置信度分数进行下列计算得到是否退出推理:
其中,;[[·]] 代表艾弗森算子;
这意味着,当图像对上所有点的比率 足够大时,我们就会停止迭代。
3、损失函数
文中分两个阶段训练 MambaGlue,与 LightGlue 的训练过程类似。首先,监督模型预测的匹配对与真实匹配对的一致性,而不进行退出测试,然后只训练深度置信度回归因子。第二步不会影响各层的性能。
匹配损失:
其中为匹配度得分,表示第 i 个点有对应点的可能性;
为匹配矩阵,表示每对点对应关系的概率得分;
置信损失:
训练深度置信度平分回归器中,使用的是最小化二元交叉熵损失函数,使匹配预测与地面实况匹配相同。
四、实验结果
与Lightglue训练对比:
文中使用官方预训练的权重,将 MambaGlue 与 SuperGlue、SGMNet 和 LightGlue 等基于变换器的稀疏特征匹配方法进行了比较,评估了 MambaGlue 在同构估计、相对姿态估计和室外视觉定位这三个视觉任务上的表现。
在Homography Estimation方面,文中使用了 HPatches 数据集,该数据集提供了具有挑战性的条件,如光照变化、遮挡或视点变化。在相对姿态估计方面,我们使用了 MegaDepth-1500 数据集中的 1,500 对图像,该数据集包括具有结构和视觉变化的室外场景,并通过视觉重叠率调整了难度级别。在室外视觉定位方面,文中采用了 Aachen Day-Night 基准,沿用了 Sarlin 等人提出的基准。
1、Homography Estimation
Lo-RANSAC:稳健性,利用随机抽样和局部优化来有效处理异常值,鲁棒性较高(适合有异常值的环境中)【Poselib -minimal solvers for camera pose estimation】
DLT:非稳健性,直接计算单应性变换矩阵,在有噪声的情况下容易出错【Multiple View Geometry in Computer Vision】
PR:3px误差阈值下的精度
通过上表可以看出,文中的方法与稀疏匹配器相比,文中方法最优;与密集匹配器相比,在5px阈值误差下更优
2、Relative Pose Estimation
文中方法大多数展现出了良好的性能,与Lightglue相比,精度有了一定的提升;文中方法实现了稳健性和效率之间的平衡。
3、Outdoor Visual Localization
在室外视觉定位方面,使用了RANSAC和透视点求解器(PnP)估算相机的姿势。根据上表可以看出文中方法性能有了大幅度提升,在速度上略有折衷。
4、Ablation Study
文中使用homography数据集比较的MambaGlue和LightGlue的退出测试行为,可见,文中模型在所有场景下的表现都优于LightGlue。
如图(a)所示,当模型的层数受到限制不进行退出测试时,从第一层开始,MambaGlue在每层的准确率方面优于LightGlue,而且随着层数的增加,MambaGlue表现更加稳定。
如图(b)所示,通过在LightGlue上的应用,可以看到文中提出的深度置信度评分回归器可以在更精确的时刻停止,从而以更少的迭代提高了性能。