【论文笔记】MambaGlue: Fast and Robust Local Feature Matching With Mamba

news/2025/2/21 8:20:43

【引用格式】:Ryoo K, Lim H, Myung H. MambaGlue: Fast and Robust Local Feature Matching With Mamba[J]. arXiv preprint arXiv:2502.00462, 2025.

【网址】:https://arxiv.org/pdf/2502.00462

开源代码】:https://github.com/uri-Kaist/MambaGlue

【PPT】:https://download.csdn.net/download/Word_And_Me_/90409456

目录

一、瓶颈问题

二、本文贡献

三、解决方案

1、输入特征与初始化

2、单层处理流程

1)MambaAttention Mixer

        a)MambaAttention Mixer(上图(b))

        b)交叉注意力模块

2)深度置信分数回归器

3)Exit Test机制

3、损失函数

四、实验结果

1、Homography Estimation

2、Relative Pose Estimation

3、Outdoor Visual Localization

4、Ablation Study


一、瓶颈问题

  • 效率与鲁棒性的权衡:现有基于Transformer的局部特征匹配方法(如SuperGlue、LightGlue)虽然鲁棒,但计算复杂度高(随关键点数量平方增长),难以满足实时性需求(如SLAM、视觉定位)。
  • 特征描述符的局限性:传统方法依赖独立特征检测器和描述符,难以应对光照变化、弱纹理场景和视角差异,导致匹配错误率较高。

二、本文贡献

  1. MambaAttention Mixer模块:结合Mamba架构(选择性状态空间模型)与自注意力机制,同时捕捉全局和局部上下文,显著提升特征表达能力。
  2. 深度置信分数回归器:基于多层感知机(MLP)设计,动态评估匹配置信度,支持早期停止机制(Exit Test),减少冗余计算。
  3. 高效混合架构:并行融合Mamba与Transformer,在保持高精度的同时实现线性时间复杂度,显著降低推理延迟。

三、解决方案

        MambaGlue的核心架构由多层堆叠结构组成,每层通过三个关键模块处理特征:MambaAttention Mixer、交叉注意力(Cross-Attention)和深度置信分数回归器

1、输入特征与初始化

        系统的输入由图像A和B的两组局部特征组成,将A和B的特征集分别表示为F_{A}F_{B},表示如下:

F_{A}={(p_{i}^{A},d_{i}^{A})}_{i=1}^{N_{A}}

F_{B}={(p_{j}^{B},d_{j}^{B})}_{j=1}^{N_{B}}

        其中,N_{A}N_{B}分别是图像A和B上的特征数;为简单起见,F_{A}F_{B}中任意 q 特征点和 d 维描述符分别记为p_{q}^{I} 和 d_{q}^{I} I\in \begin{Bmatrix} {A,B} \end{Bmatrix}

        每个关键点的状态x_{q}^{I}初始化为对应的描述符:

x_{q}^{I}\leftarrow d_{q}^{I}(I\in \begin{Bmatrix} A,B \end{Bmatrix})

2、单层处理流程

        每一层的具体流程可见上图(b)所示

1)MambaAttention Mixer

        受 MambaVision [MambaVision: A hybrid mamba- transformer vision backbone](见上图 (a))的启发,文中首先提出了一个基于 Mamba 的自注意模块,称为 MambaAttention Mixer。如上图 (b)所示,MambaAttention 混合器由一个自注意区块、一个直接连接的输入区块一个基于 Mamba 的区块组成。自注意和 Mamba 的结合允许对输入标记进行全局和选择性扫描。之后,MambaAttention Mixer和交叉注意块的组合构成了系统每一层的重要组成部分。

a)MambaAttention Mixer(上图(b))

        自注意区块:编辑全局相对位置关系,计算公式如下:

        其中,W为投影矩阵;R为相对位置之间的旋转编码;qk是从状态向量x_{i}通过不同的线性变换得到的查询向量和键向量。

        直连区块:保留原始特征x_{q},防止信息丢失。

        基于Mamba区块:通过选择性扫描(Selective Scan)捕捉序列中重要局部信息,计算公式如下:

y_{q}=Linear(\frac{d}{2},d)(Scan(f(x_{q})))

z_{q}=Linear(\frac{d}{2},d)(f(x_{q}))

        其中,Scan(-) 是选择性扫描操作,用于有效地聚焦于输入序列中最相关的片段;f(x_{q})\sigma (Conv(Linear(d,\frac{d}{2})(x_{q})))Linear(d_{in}, d_{out})(\cdot )为对后面信息进行线性操作;

        更新状态:将三个信息融合并更新,公式如下:

m_{q}=[s_{q}|y_{q}|z_{q}]

x_{q}\leftarrow x_{q}+MLP([x_{q}|m_{q}])

b)交叉注意力模块

        图像AB相互交换信息并更新向量x,公式如下:

x_{q}^{I}\leftarrow x_{q}^{I}+MLP([x_{q}^{I}|m_{q}^{I\leftarrow S}])

2)深度置信分数回归器

        深度置信分数回归器预测的置信分表示每个特征点的匹配预测与地面实况匹配的置信度。

        在Lightglue中仅使用了一个Sigmoid层和一个线性层组合来预测置信度得分;文中认为一个线性计算层不足以分析经过神经网络许多步骤的每个状态的复杂表示。为此,文中增加了线性层,如下公式所示;经过文中实验,在训练和推理方面都更快,没有变慢,并且能够更好地理解上下文中的层次和抽象含义。

c_{q}=Sigmoid(MLP(d\rightarrow \frac{d}{2}\rightarrow \frac{d}{4}\rightarrow 1)(x_{q}))

3)Exit Test机制

        文中针对置信度分数进行下列计算得到是否退出推理:

        其中,g(c_{n})=(1/|k_{n}|)\sum _{q=1}^{|k_{n}|}[[c_{q}>\lambda _{n}]];[[·]] 代表艾弗森算子;

        这意味着,当图像对上所有点的比率 \alpha 足够大时,我们就会停止迭代。

3、损失函数

        文中分两个阶段训练 MambaGlue,与 LightGlue 的训练过程类似。首先,监督模型预测的匹配对与真实匹配对的一致性,而不进行退出测试,然后只训练深度置信度回归因子。第二步不会影响各层的性能。

        匹配损失:

\sigma _{i}=Sigmoid(Linear(x_{i}))

        其中\sigma _{i}为匹配度得分,表示第 i 个点有对应点的可能性;S_{ij}为匹配矩阵,表示每对点对应关系的概率得分;

        置信损失:

        训练深度置信度平分回归器中,使用的是最小化二元交叉熵损失函数,使匹配预测与地面实况匹配相同。

四、实验结果

与Lightglue训练对比:

        文中使用官方预训练的权重,将 MambaGlue SuperGlueSGMNet LightGlue 等基于变换器的稀疏特征匹配方法进行了比较,评估了 MambaGlue 在同构估计、相对姿态估计和室外视觉定位这三个视觉任务上的表现。

        在Homography Estimation方面,文中使用了 HPatches 数据集,该数据集提供了具有挑战性的条件,如光照变化、遮挡或视点变化。在相对姿态估计方面,我们使用了 MegaDepth-1500 数据集中的 1,500 对图像,该数据集包括具有结构和视觉变化的室外场景,并通过视觉重叠率调整了难度级别。在室外视觉定位方面,文中采用了 Aachen Day-Night 基准,沿用了 Sarlin 等人提出的基准。

1、Homography Estimation

Lo-RANSAC稳健性,利用随机抽样和局部优化来有效处理异常值,鲁棒性较高(适合有异常值的环境中)Poselib -minimal solvers for camera pose estimation

DLT非稳健性,直接计算单应性变换矩阵,在有噪声的情况下容易出错Multiple View Geometry in Computer Vision

PR3px误差阈值下的精度

        通过上表可以看出,文中的方法与稀疏匹配器相比,文中方法最优;与密集匹配器相比,在5px阈值误差下更优

2、Relative Pose Estimation

        文中方法大多数展现出了良好的性能,与Lightglue相比,精度有了一定的提升;文中方法实现了稳健性和效率之间的平衡。

3、Outdoor Visual Localization

        在室外视觉定位方面,使用了RANSAC和透视点求解器(PnP)估算相机的姿势。根据上表可以看出文中方法性能有了大幅度提升,在速度上略有折衷。

4、Ablation Study

        文中使用homography数据集比较的MambaGlue和LightGlue的退出测试行为,可见,文中模型在所有场景下的表现都优于LightGlue。

        如图(a)所示,当模型的层数受到限制不进行退出测试时,从第一层开始,MambaGlue在每层的准确率方面优于LightGlue,而且随着层数的增加,MambaGlue表现更加稳定。

        如图(b)所示,通过在LightGlue上的应用,可以看到文中提出的深度置信度评分回归器可以在更精确的时刻停止,从而以更少的迭代提高了性能。


http://www.niftyadmin.cn/n/5860528.html

相关文章

将Neo4j用于Python学习的创新方法

Neo4j作为一款强大的图数据库,其独特的关系性特点能够为Python学习带来全新的视角和深度理解。通过将Neo4j与Python学习相结合,可以帮助学生更直观、更深入地掌握Python编程的各个方面。以下是具体的建议和方法: 1. 利用Neo4j可视化Python数…

rtconfig.cpython-313.pyc 在 .gitignore文件中写入 *.pyc 文件仍然没有被忽略?

在 .gitignore 文件中添加 *.pyc 和 *.*.pyc 规则时,如果 .pyc 文件仍然没有被忽略,可能有以下几种原因: 1. 已经被 Git 跟踪的文件 即使您在 .gitignore 中指定了忽略 .pyc 文件,Git 仍然会跟踪已经被提交到版本库中的文件。如…

Qt--源码

完整的源码 源码解析 链接

标量化rknn的输入输出向量转换处理[进行中...]

1.问题 当onnx模型尚未标量化(quantize)之前,自训练数据集能够有效识别目标对象,但是,rknn模型,通常是标量化转换过的,就是输入输出参数已经从float32->u8。那么如何处理丢给rknn模型的输入…

MAC快速本地部署Deepseek (win也可以)

MAC快速本地部署Deepseek (win也可以) 下载安装ollama 地址: https://ollama.com/ Ollama 是一个开源的大型语言模型(LLM)本地运行框架,旨在简化大模型的部署和管理流程,使开发者、研究人员及爱好者能够高效地在本地环境中实验和…

C# 十六进制字符串转换为十进制

在 C# 中,将十六进制(Hexadecimal)字符串转换为十进制(Decimal)整数非常简单。以下是几种常见的方法: 方法 1: 使用 Convert.ToInt32 Convert.ToInt32 方法可以直接将十六进制字符串转换为十进制整数。 示…

UE引擎游戏加固方案解析

据VGinsights的报告,近年来UE引擎在过去几年中市场占比显著增长,其中亚洲市场增幅达到了30%,随着UE5的推出和技术的不断进步,UE引擎在独立开发者和移动游戏开发中的应用也在逐步增加。 UE引擎的优势在于强大的画面表现与视觉特效…

R语言NIMBLE、Stan和INLA贝叶斯平滑及条件空间模型死亡率数据分析:提升疾病风险估计准确性...

全文链接:https://tecdat.cn/?p40365 在环境流行病学研究中,理解空间数据的特性以及如何通过合适的模型分析疾病的空间分布是至关重要的。本文主要介绍了不同类型的空间数据、空间格点过程的理论,并引入了疾病映射以及对空间风险进行平滑处理…