AI/논문 리뷰

[논문 리뷰] Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space (ICCV 2025)

도도걸만단 2025. 7. 25. 04:48
반응형

 

Accepted to ICCV 2025 Conference
Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space

https://github.com/Sharpiless/L2M

 

GitHub - Sharpiless/L2M: Official implementation of our ICCV'25 paper "Learning Dense Feature Matching via Lifting Single 2D Ima

Official implementation of our ICCV'25 paper "Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space" - Sharpiless/L2M

github.com

https://arxiv.org/pdf/2507.00392

 

 

 


0. Abstract

Feature matching은 많은 컴퓨터 비전 과제에서 근본적인 역할을 수행함.

그러나 기존 방법은 희소하고 깔끔한 multi-view 이미지 컬렉션에 크게 의존함.

  • 이는 다양한 도전적인 상황에 대한 일반화를 제한함.
  • 또한 기존 feature encoder는 일반적으로 single-view 2D 이미지로 학습되므로, 3D 인식 대응관계를 포착하는 능력이 제한됨.

 

본 논문에서는 Lift to Match (L2M)이라 명명한 2단계 프레임워크를 제안함.

이는 대규모이자 다양한 single-view 이미지를 활용하여 2D 이미지를 3D 공간으로 리프팅함. 구체적으로, 

  • 첫 번째 단계에서는 multi-view 이미지 합성3D feature Gaussian 표현을 조합하여 3D-aware feature encoder를 학습함. 이 과정은 encoder에 3D 기하 정보를 주입함.
  • 두 번째 단계에서는 novel-view 렌더링 전략 single-view 이미지로부터의 대규모 synthetic 데이터 생성을 결합하여, 강건한 feature matching을 위한 feature decoder를 학습함.

이로써 다양한 도메인에 대한 일반화를 달성함.

광범위한 실험을 통해 본 방법이 zero-shot 평가 benchmark에서 뛰어난 일반화 성능을 달성함을 입증함.

제안된 프레임워크가 강건한 feature matching에 효과적임을 강조함. 코드는 https://github.com/Sharpiless/L2M 에서 제공함.


1. Introduction

Feature matching은 컴퓨터 비전에서 핵심적인 과제로, 3D reconstruction [13, 23], visual localization [32, 38], 로보틱스 [39, 46]를 포함한 다양한 응용을 가능하게 함.
전통적인 feature matching 방법인 SIFT [22], SURF [2], ORB [31] 등은 주로 hand-crafted descriptor에 의존함.
최근에는 deep learning 기술이 feature matching을 크게 발전시킴 [24].
SuperPoint [9], DKM [11]과 같은 모델은 기존 방법을 능가하며, 실제 환경에서도 우수한 성능을 보이며 state-of-the-art 결과를 달성함.

그러나 Figure 1에서 보이듯이, 현재의 학습 기반 방법은 여전히 대규모로 주석된 2D image collection [19, 47]에 크게 의존함.
이러한 데이터는 일반적으로 multi-view 카메라와 기존 Structure-from-Motion (SfM) 알고리즘 [34]을 통해 수집됨.
이러한 dataset은 multi-view 2D image 기반 dataset의 한계에 의해 제약을 받으며, 이는 시간이 많이 소요되는 multi-view image 캡처와 정적이며 깔끔한 환경에 대한 엄격한 요구 조건을 필요로 함.
그 결과, 이러한 dataset으로 학습된 모델은 domain-specific한 경향이 있으며, 다양한 장면과 도전적인 조건을 처리하는 데 필요한 generalization 능력이 부족함.

  • 또 다른 한계는 feature extraction encoder의 설계에서 발생함 [10, 15, 26].
    이들은 일반적으로 ImageNet [17]과 같은 2D image dataset에 대해 사전학습되며, 단일 이미지의 2D feature를 포착하도록 최적화됨.
  • 그러나 이러한 2D feature는 다양한 시점에서의 multi-view perception을 포함할 수 없음 [49].
    이러한 3D geometry 지식 없이 encoder는 occlusion, 시점 변화, 기하학적 왜곡 등을 처리하는 데 어려움을 겪으며, 복잡한 장면에서 불안정한 matching을 유발함.
  • 따라서 이러한 2D encoder와 제한된 데이터로 학습된 현재의 feature matching 모델은 더욱 신뢰할 수 있는 matching을 완전히 달성하기 어려움.

본 논문에서는 이러한 한계를 해결하기 위해 Lift to Match (L2M)이라는 새로운 two-stage framework를 제안함.
이는 대규모이자 다양한 2D 이미지를 3D 공간으로 lifting함으로써 기존 한계를 해결함.

  • 구체적으로, stage1에서는 feature encoder에 3D geometry 지식을 직접 주입하기 위해 새로운 3D-aware encoder 학습 전략을 제안함.
    • 이 전략은 3D feature Gaussian을 활용하여 feature encoder를 학습함.
    • 구체적으로, encoder는 multi-view perceptual 정보를 포함하는 명시적인 3D feature로 안내되는 synthesized multi-view data를 기반으로 학습됨.
    • 이로 인해 encoder는 단순히 국소적인 2D texture만이 아니라 3D geometry 지식을 인식하는 multi-view consistent feature를 학습하게 됨.
      이와 같이 학습된 3D-aware feature encoder는 시점 변화, occlusion, 기하적 모호성에 더 잘 대응할 수 있게 됨.
  • 더 나아가, second stage에서는 대규모 single-view 이미지와 novel-view rendering을 이용한 다양한 training data를 활용하는 강건한 decoder 학습 전략을 제안함.
    • 이 학습 과정은 frozen된 3D-aware encoder와 함께 robust matching 결과를 생성하는 feature decoder를 학습함.
    • 구체적으로, single-view 2D 이미지로부터 depth를 추정하고 3D mesh를 재구성함으로써 novel-view rendering을 수행할 수 있으며, 다양한 조명 조건에서 대규모로 다양하고 synthetic한 training data를 생성함.
    • 이러한 data generation pipeline은 장면, 시점, 조명 조건의 넓은 스펙트럼을 포괄하는 training sample의 다양성과 풍부함을 크게 확장함.
    • 이러한 방식으로 L2M은 기존 multi-view dataset의 도메인 제약으로부터 자유로워지며, 학습된 모델의 generalization을 향상시킴.

실험을 통해 제안한 방법이 여러 zero-shot evaluation benchmark에서 state-of-the-art 성능을 보임을 입증함.

 

요약하면, 우리의 주요 기여는 다음과 같음:

  • 2D 이미지를 3D 공간으로 lifting하여 multi-view synthesis 및 novel-view rendering을 수행하는 two-stage framework를 제안함. 이는 robust feature matching 학습을 위해 대규모이자 다양한 single-view 이미지를 활용함.
  • multi-view synthesis와 3D feature Gaussians를 활용하여 3D geometry 지식을 적응시키는 3D-aware encoder 학습 전략을 제안함. 이를 통해 추출된 feature가 multi-view perception을 포착할 수 있도록 함.
  • single-view 2D 이미지로부터 novel-view rendering을 통해 다양한 대규모 training data를 생성하고 이를 활용하여, 다양한 장면에 대한 generalization을 향상시키는 robust feature decoder 학습 전략을 제안함.

 


2. Related Work

Feature Matching Methods.


Feature matching은 3D 재구성에서 증강현실, 자율주행에 이르기까지 다양한 응용을 포함하는 컴퓨터 비전의 핵심 과제였음.

초기 방법들은 주로 SIFT 및 RootSIFT [1]와 같은 수작업 기반 descriptor에 의존하였음. 그러나 이러한 방법들은 실제 환경에서 낮은 강건성을 보이며 종종 한계를 겪음.

feature matching의 최근 발전은 학습 기반 방법으로 이동함. SuperGlue [33]와 같은 sparse 방법들은 deep learning을 활용하여 공간적 관계를 모델링함으로써 feature matching을 정교화함. 그러나 이러한 방법들도 조명과 카메라의 변화에 대한 대응에는 여전히 어려움을 겪음.

LoFTR [37]와 같은 semi-dense 방법은 deep network를 사용하여 장거리 의존성을 포착함. 하지만 이러한 개선에도 불구하고, 이러한 방법들은 큰 시점 변화나 낮은 텍스처 영역과 같은 극한 조건에서는 여전히 매칭에 어려움을 겪음.

Dense 방법들 [11, 12, 35]은 전체 이미지에 걸쳐 대응점을 밀집하게 예측함으로써 feature matching을 확장함. 이러한 방법들은 state-of-the-art 결과를 보여줌. 그러나 제한된 데이터셋으로 학습되었을 경우, 특히 매우 복잡한 장면에 대해 일반화하는 데에는 여전히 한계를 가짐.

 

Datasets for Feature Matching.

현재의 feature matching 방법들은 주로 학습을 위한 주석된 데이터셋을 필요로 하는 supervised learning에 의존함. 공개된 대부분의 데이터셋들, 예를 들어 BlendedMVS [47]와 Megadepth [19]는 소규모 시나리오에 초점을 맞추며 실제 환경의 다양성을 완전히 포착하지 못함. 이러한 한계를 극복하기 위해, synthetic data generation이 인기 있는 해결책으로 부상함. game engine을 사용하는 방법 [25], 비디오를 전방향으로 이용하는 방법 [35], 단일 이미지에 2D affine transformation을 적용하는 방법 [3] 등이 학습을 위한 데이터셋 생성을 위해 제안됨. 그러나 이러한 데이터셋들은 실제 세계의 전체적인 다양성을 포착하지 못하며, 실제 데이터에 적용할 때 상당한 도메인 갭이 발생함. 이러한 방법들과 대조적으로, 본 연구는 실제 단일 시점 이미지(single-view image)로부터 대규모 데이터를 생성하여 다양한 학습 데이터셋을 구성함.

 

Representation Learning.

Vision 모델은 다양한 후속 과제를 위한 feature extraction encoder로 자주 사용됨. ResNet [15], DINOv2 [26]와 같은 모델은 종종 ImageNet [17]과 같은 대규모 데이터셋에 대해 학습되며, single-view 2D 이미지로부터 semantic representation을 추출하도록 학습됨. 그러나 single-view 이미지만으로 학습된 이러한 모델은 2D 정보에만 초점을 맞추며, 다양한 시점 간 정확한 feature matching을 위해 필요한 multi-view 이미지의 복잡한 3D 기하 정보를 완전히 포착하지 못함. Fit3D [49]는 multi-view 3D Gaussians 컬렉션을 활용하여 2D feature representation을 fine-tune하는 방법을 제안함. 그러나 여전히 multi-view 이미지를 수집하기 어렵다는 문제에 직면함. 이 간극을 해결하기 위해, 우리는 encoder에 3D 기하 지식을 통합하는 학습 과정을 도입하며, 이는 단일 시점의 2D 이미지만을 필요로 함.


3. Method

이 절에서는 먼저 Figure 2에 나타난 것처럼 single-view 2D 이미지를 3D 공간으로 lifting하여 수행하는 novel-view synthesis 전략과 함께 문제 설정과 동기를 상세히 설명함.
그 후, Figure 3에 나타난 3D feature Gaussians를 활용한 3D-aware encoder 학습 과정을 소개함.
그 다음으로는 robust decoder 학습 과정을 설명함.
마지막으로 implementation detail을 제공함.

 

3.1. Formulation and Motivation

dense feature matching에서, 두 입력 이미지 I₁과 I₂가 주어졌을 때, 먼저 shared encoder를 사용하여 이들의 feature representation을 추출함:

F₁ = E(I₁), F₂ = E(I₂), (1)

여기서 E는 shared weight를 갖는 feature encoder임.
이러한 feature들은 decoder로 전달되어, pixel 단위의 transformation (warp) W와 certainty σ를 예측함:

{W, σ} = D(F₁, F₂). (2)

그러나 여전히 두 가지 주요한 과제가 존재함.
첫째, state-of-the-art feature matching 모델들은 2D vision encoder에 의존함.
이러한 encoder는 일반적으로 단일 2D 이미지로 학습되며, 3D geometry knowledge를 포착할 수 없어 복잡하거나 동적인 환경에서 성능이 제한됨.
이러한 한계를 극복하기 위해, 우리는 2D vision 모델을 3D-aware encoder로 학습시키며, 3D feature Gaussians의 도움을 받아 feature extraction 과정에 multi-view perception을 주입함.

둘째, 대규모이자 다양한 training data를 수집하는 것은 어렵고 비용도 많이 듦.
다양한 domain과 조건을 포괄하는 multi-view image dataset은 고비용이며 노동 집약적임.
이는 다양한 실제 시나리오에 대한 generalization을 제한함.
우리의 framework는 single-view depth estimation과 novel-view rendering을 이용하여 대규모이고 다양한 dataset을 생성함으로써 이러한 문제를 해결함.

3.2. Lifting 2D Image to 3D for Novel-view Synthesis

구체적으로, 2D image를 3D 공간으로 lifting하기 위해, 우리는 Depth Anything V2 [45]와 같은 사전학습된 monocular depth estimation 모델을 사용함.
이 모델은 단일 RGB 이미지로부터 depth map을 예측함.
각 자연 이미지 Isin에 대해, monocular depth estimation 모델을 사용하여 dense depth map Dsyn을 예측하고, random scale a와 shift b를 샘플링함:

Dsyn = a × Mmo(Isin) + b, (3)

여기서 Mmo는 monocular depth estimation 모델을 나타냄.
이렇게 합성된 depth map은 metric scale에서는 정확하지 않을 수 있지만, 장면 내의 상대적인 depth 관계와 구조적 세부 정보를 포착함.
이는 pre-training 동안 중요한 supervision signal을 제공함.

 

 

 

그다음 예측된 depth를 사용하여 single-view 이미지를 3D 공간으로 lifting함.
먼저 무작위로 camera intrinsic matrix K를 샘플링함.
그 다음, depth map의 각 pixel (u, v)에 대해, 해당 pixel의 depth 값을 기반으로 샘플링된 intrinsic matrix K를 사용하여 camera 좌표계에서의 3D 좌표를 계산함.
이 변환을 통해 각 pixel의 3D 공간 위치를 나타내는 point cloud P = {(X, Y, Z)}를 생성함.

그 후, 이미지를 새로운 시점에서 novel view image로 렌더링하기 위해 warp를 수행하고, occlusion을 처리하기 위한 mask를 적용함.
구체적으로, mask M은 이미지에서 어떤 부분이 보이는지, 어떤 부분이 가려지는지를 나타냄.
occlusion을 처리하기 위해, 우리는 inpainting model Minpaint를 사용하여 렌더링된 이미지에서 누락된 영역을 채움.
이 inpainting 과정은 다음과 같이 표현됨:

I₁ = Minpaint(Iₙₒᵥₑₗ, M), (4)

 

여기서 Minpaint는 가시 영역을 기반으로 이미지의 가려진 부분을 복원하는 inpainting model임.
이 과정은 depth map과 camera parameter가 포함된 paired image를 생성하며, 이는 dense feature matching 모델 학습을 위한 유용한 training data를 제공함.

3.3. Learning 3D-aware Encoder from Gaussians

전통적인 feature encoder는 일반적으로 2D feature 추출에 특화되어 있으며, 정확한 feature matching에 필요한 3D 구조와 multi-view perception을 포착하기에 불충분함.
이러한 한계를 해결하기 위해, 우리는 multi-view generation과 3D feature Gaussians를 결합하여 3D geometry knowledge를 feature encoder에 통합함.
이 과정은 encoder가 multi-view perception을 더 잘 이해하도록 함.

 

Building 3D Feature Gaussians.
multi-view generation 방법을 활용하여, 우리는 2D feature extraction encoder (예: DINOv2 [26])로부터 {Ii}₁≤ᵢ≤ᴺ과 대응하는 feature map {Fi}₁≤ᵢ≤ᴺ의 multi-view image 집합을 생성할 수 있음.
이 feature map들은 이후 3D feature Gaussians 구축에 사용됨.

3D feature Gaussians 구축의 목적은, 이미지 I와 feature map F가 3D 공간에서 잘 표현되도록 Gaussian parameter를 최적화하는 것임.
이는 2D feature가 3D 구조와 정렬되도록 함. [49]를 따라, 3D Gaussians의 집합은 다음과 같이 정의됨:

G = {(µ, s, R, α, SH, f)ⱼ}₁≤ⱼ≤ᴹ, (5)

여기서 µ는 3D mean, s는 scale, R은 orientation, α는 opacity임.
또한 SH는 view-dependent color를 나타내고, f는 3D 공간에 증류된 2D feature를 저장함.
연산 비용을 줄이기 위해, 학습 가능한 CNN C를 사용하여 feature의 차원을 축소함.

 

Learning 3D-aware Encoder.
scene에 대한 3D feature Gaussian parameter를 최적화한 후, 우리는 이 Gaussians로부터 novel-view image Ir와 저차원 feature map Flow_r을 렌더링할 수 있음.
구체적으로, 이미지와 feature는 α-blending 기반 differentiable feature rasterizer를 사용하여 렌더링됨:

Flow_r = ∑ᵢ∈ᴺ fᵢ αᵢ ∏ʲ₌₁⁽ʸ⁻¹⁾ (1 − αᵢ), (6)

여기서 N은 overlapping된 Gaussian의 집합이고, αᵢ는 Gaussian의 공분산 행렬에서 계산된 opacity임.
이 과정은 저차원 feature image를 생성하고, 이후 CNN 기반 up-sampling network를 통해 고차원 feature로 투영함: Fhigh_r = C(Flow_r).
이 feature map들은 pixel-wise L1 loss를 사용하여 encoder 학습에 사용됨.
이 과정을 통해 encoder는 3D geometry knowledge를 더 잘 포착할 수 있게 됨.

3.4. Learning Robust Feature Decoder

stage1이 3D awareness를 갖춘 feature encoder 강화를 목표로 하는 반면, stage2는 viewpoint, lighting, appearance의 큰 차이를 포함하는 다양한 image pair에 일반화할 수 있는 robust feature matching decoder 학습을 목표로 함.
이 단계에서의 핵심 도전 과제는 대규모 multi-view training data의 부족임.
이러한 data는 전통적으로 camera pose와 depth가 주어진 정렬된 image pair를 수작업으로 수집해야 하므로 매우 노동집약적임.

이 문제를 해결하기 위해, 우리는 monocular depth estimation을 활용하여 single-view 이미지로부터 다양한 training pair를 합성하는 확장 가능한 data generation pipeline을 설계함.
이 pipeline은 명시적인 multi-view supervision 없이도 training data를 구성할 수 있게 하며, dataset의 domain coverage를 크게 확장함.

구체적으로, 우리는 서로 다른 방식으로 이미지 I₁과 I₂를 얻음.
우선, data generation pipeline은 single-view 이미지 Isin으로 시작함.
이미지 I₁은 monocular depth estimation, image warping, inpainting 기술을 결합한 novel view synthesis 전략을 통해 생성됨.
그 다음, monocular depth와 re-light 기법을 이용해 novel lighting 조건 하에서 이미지 I₂를 얻음.

더불어, 우리는 physics engine의 능력을 충분히 활용하여 원본 mesh를 다양한 시점에서 재렌더링하며, 조명 변화와 같은 다양한 조건을 시뮬레이션함.
novel-view synthesis 과정에서 생성된 3D point cloud를 활용하여 Poisson Surface Reconstruction [16]과 같은 surface reconstruction 기술을 사용하여 연속적인 3D surface 모델 Me를 생성함.
그 후, 조명 변화를 시뮬레이션하기 위해 light source vector L을 도입하고, 렌더링 방정식을 수정하여 조명 조건을 반영함:

I₂ = R(Me, L), (7)

여기서 R은 mesh Me와 조명 L을 고려하는 rendering function임.

이제, dense matching label을 포함한 paired image I₁과 I₂는 3D-aware feature encoder가 장착된 feature decoder 학습에 사용될 수 있음.
이 과정을 통해 다양한 이미지 집합을 생성할 수 있으며, 이는 모델의 robust함을 향상시키고 미지의 상황에 대한 일반화를 가능하게 함.

3.5. Implementation Details

Data Sources.
다양한 training data를 생성하기 위해, 우리는 Table 1에 제시된 바와 같이 single-view image를 포함하는 실제 환경 기반의 풍부한 dataset들을 활용함.
이 dataset들은 실내 및 실외 환경을 모두 포함하며, 다양한 장면과 조건을 제공하여 학습된 모델이 다양한 domain에 대해 generalization될 수 있도록 함.
사용된 dataset에는 COCO [20], Google Landmarks [43], Nuscenes [4], Cityscapes [7] 등이 포함되며, 이는 도시, 자연, 실내 장면뿐만 아니라 조명, 객체, 카메라의 다양한 변화를 포함함.

Training Parameters.
decoder는 (GPU당 batchsize = 8 기준) learning rate 10⁻⁴를 사용하고, encoder는 5 × 10⁻⁶를 사용함.
모델은 584 × 584 해상도에서 학습되며, 전체 training 과정은 4개의 A100 80GB GPU에서 약 3.5일 소요됨.
inpainting model로는 Stable-Diffusion v1.5 [30]를 사용함.
encoder fine-tuning 시에는 무작위로 10,000개의 이미지를 샘플링하고 각 이미지당 9개의 novel view를 합성함.
decoder 학습 시에는 전체 이미지 (약 525,000장)를 사용하고, 각 이미지에서 하나의 image pair를 생성함.
camera intrinsic matrix K의 focal length는 [0.58, 0.88] 범위에서 샘플링됨.
조명 조건은 조명의 개수(1–3개), 강도(1000–3000), 색상, 위치를 무작위로 변경하여 다양화함.
3DGS construction은 FiT3D [49]의 설정을 따름.


4. Experiments

이 절에서는 먼저 실험에 사용된 dataset과 평가 지표를 소개함.
그 다음, state-of-the-art 방법들과의 상세 비교를 수행함.
마지막으로, 주요 구성 요소들의 효과를 확인하기 위한 ablation 및 분석을 수행함.
추가적인 실험과 분석은 supplementary materials에 포함되어 있음.

4.1. Evaluation Datasets and Metrics

Evaluation Datasets.
우리 모델의 in-the-wild 데이터에 대한 robust함을 분석하기 위해, 우리는 다양한 이미지 해상도, 장면 조건, 시점을 포함하는 8개의 실제 dataset과 4개의 시뮬레이션 dataset으로 구성된 종합적인 zero-shot evaluation benchmark (ZEB) [35]를 사용함.
또한, MegeDepth dataset [19]로 fine-tuning한 후의 in-domain dataset에 대한 zero-shot 성능과, METU-VisTIR [40] dataset에서의 RGB-IR matching에 대한 cross-modal 성능도 평가함.

Evaluation Metrics.
RGB dataset에 대한 평가 지표로는 GIM [35]을 따라, pose error가 5° 이내일 때의 relative pose error의 AUC를 보고함.
여기서 pose error는 회전 각 오차와 이동 각 오차 중 최대값으로 정의됨.
relative pose는 matching 결과에서 얻은 대응점을 기반으로 essential matrix를 추정하고 RANSAC을 통해 계산됨.
cross-modal dataset의 경우, 대응점으로부터 복원된 pose를 평가하여 정확도를 측정함.
pose error의 threshold 5°, 10°, 20°에 대한 AUC를 보고함.

 

4.2. Main Results

본 연구에서는 feature matching 연구에서 state-of-the-art로 간주되는 dense feature matching 방법들과의 비교를 중심으로 함.
또한 보다 넓은 맥락을 제공하기 위해, 대표적인 sparse 및 semi-dense 방법들의 결과도 함께 보고함.

Zero-shot Performance Evaluation.
Table 2에 나타난 바와 같이, 우리는 다양한 장면과 날씨 조건을 포함하는 12개의 public dataset으로 구성된 Zero-shot Evaluation Benchmark (ZEB) [35]에서 종합적인 비교를 수행함.
이 benchmark는 실제 dataset과 synthetic dataset 모두를 포함하며, 성능은 pose error의 5° threshold에서 AUC로 측정됨.
여기서 “outdoor”는 MegaDepth로 학습된 모델을, “indoor”는 MegaDepth와 Scannet 모두로 학습된 모델을 의미함.
참고로, ELoFTR [41]는 indoor checkpoint를 제공하지 않음.
우리 방법은 대부분의 경우에서 기존 기법들을 꾸준히 능가함.
특히 SEA (52.9%) 및 WEA (32.0%)와 같은 어려운 dataset에서 최고 AUC 값을 달성함.
우리 방법은 더 도전적인 조건에서도 성능이 견고하게 유지되며, 다른 방법들을 능가함.
이러한 결과는 다양한 실제 환경에서도 우수한 generalization 능력을 확인시켜줌.

In-domain Performance Evaluation.
또한 우리는 MegaDepth training set으로 fine-tuning한 후 MegaDepth1500 test set [37]에서 in-domain 성능을 평가함.
test set은 두 개의 도전적인 장면(scene 0015 및 scene 0022)으로부터 다양한 날씨, occlusion, 조명 조건을 가진 1500개의 image pair로 구성됨.
[12, 37]의 protocol을 따라, pose estimation 시 RANSAC threshold는 0.5로 설정함.
성능은 5°, 10°, 20°의 angular threshold에서 AUC로 보고됨.
Table 3에 나타난 바와 같이, 우리의 방법(L2M)은 기존 방법들을 능가하며, 복잡한 geometric 관계와 세밀한 요소를 잘 처리하는 강력한 성능을 입증함.

 

Cross-modal Generalization.


Table 4에 나타난 바와 같이, 우리는 RGB data만으로 학습된 모든 방법에 대해 RGB-IR dataset (METU-VisTIR [40])에서 L2M의 zero-shot 성능을 평가함.
우리 방법은 모든 error threshold에서 기존 방법들을 능가함.
구체적으로, L2M은 5°에서 30.13%, 10°에서 53.11%, 20°에서 71.80%의 AUC를 달성함.
이는 sparse 및 dense matching 방법 모두에 비해 우수한 pose estimation 정확도를 보여줌.
DKM, GIM과 같은 dense matching 방법들도 pose estimation 정확도가 높은 편이며, DKM은 20°에서 22.53%를 달성함.
그러나 가장 성능이 좋은 dense 방법인 RoMa조차도 20°에서 68.37%로, L2M보다 상당히 낮은 성능을 보임.
이러한 결과는 특히 cross-modal matching이 복잡하고 pose estimation error가 크기 쉬운 RGB-IR domain에서도, 우리 방법이 robust하고 효과적임을 강조함.

 

Qualitative Results.
Figure 5에 나타난 바와 같이, 우리는 실제 및 synthetic 환경에서의 도전적인 시나리오에서 기존 dense matching 방법들과의 비교를 통해 우리 방법의 효과를 질적으로 시각화함.
우리 방법은 실제 장면에서 더 조밀한 matching을 달성하며, 거의 point-to-point 대응을 이루는 성능을 보임.
이는 정밀한 대응을 설정하는 데 어려움을 겪는 기존의 state-of-the-art dense matching 방법들과 극명한 대조를 이룸.
우리 방법은 복잡한 환경에서도 세부적인 matching을 찾아낼 수 있어, 실제 응용에서 매우 robust함.


4.3. Discussions

Effectiveness of the 3D-aware encoder.


Table 5에 나타난 바와 같이, 우리는 핵심 구성 요소의 기여도를 평가하기 위한 ablation study를 수행함.
구체적으로, 먼저 3D-aware encoder(Stage 1)를 도입하는 효과를 평가함.
결과는 real-world 및 synthetic dataset 모두에서 3D-aware encoder의 추가가 일관된 성능 향상을 가져옴을 보여줌.
이는 다양한 domain에서 robust한 feature matching 성능을 달성하기 위해 3D-awareness의 통합이 중요함을 강조함.

 

Effectiveness of the Robust Decoder Learning Process.
우리의 학습 전략의 중요성을 추가적으로 분석하기 위해, 우리는 feature matching decoder(Stage 2)의 학습 시, 대규모이고 다양한 synthetic data를 사용하는 효과를 평가함.
비교를 위해, 우리는 decoder를 MegaDepth dataset [19]만을 사용하여 학습함.
결과는 synthetic data의 사용이 실제 training data가 제한적인 dataset에 대한 generalization 향상에 유리함을 보여줌.
이는 feature matching 모델을 보강하고 다양한 실제 시나리오에서의 generalization 능력을 향상시키는 우리 data generation pipeline의 가치를 입증함.

 

Feature Visualization.


Figure 6에 나타난 바와 같이, 우리는 3D-aware encoder를 사용할 때의 우리 방법의 feature를 시각화함.
3D-aware 학습 없이 encoder를 사용할 경우, 세밀하고 의미 있는 대응점을 설정하지 못하고, 잘못된 keypoint 대응이 발생함.
반면, 우리 방법은 시각적으로 큰 차이가 존재하는 경우에도 정확하고 세밀한 대응점을 성공적으로 찾아냄.
예를 들어, 탑 구조물의 texture 부족이나 반투명 표면에서의 불연속적인 feature 조건에서도 정확한 matching을 수행함.


5. Conclusion

본 논문에서는 single-view 2D 이미지를 3D 공간으로 lifting하여 dense feature matching을 향상시키는 새로운 two-stage framework인 L2M을 제안함.
우리의 접근 방식은 제한된 multi-view dataset과 통제된 환경에서 촬영된 이미지에 의존하는 기존의 2D image 기반 방법의 한계를 해결함.
특히, L2M은 명시적인 3D feature Gaussian에 의해 안내되는 synthesized multi-view image를 활용하는 3D-aware encoder 학습 전략을 포함함.
이 과정은 encoder에 multi-view geometric awareness를 주입하며, 도전적인 상황을 처리하는 능력을 향상시킴.
또한, large-scale synthetic novel view와 re-rendering 전략을 활용하여 robust feature decoder를 학습함으로써, 다양한 domain에 걸친 feature decoder의 robustnessgeneralization을 더욱 향상시킴.
다양한 zero-shot benchmark에 걸친 광범위한 실험을 통해, 제안한 L2M이 실제 환경 및 미지의 domain에서도 기존 방법을 능가하는 state-of-the-art generalization 성능을 달성함을 입증함.

 

 

 

 

 

반응형