논문 리뷰

[논문 리뷰] DINOv2: Learning Robust Visual Features without Supervision

도도걸만단 2025. 1. 23. 23:14
반응형

 

Meta
https://arxiv.org/abs/2304.07193

 

DINOv2: Learning Robust Visual Features without Supervision

The recent breakthroughs in natural language processing for model pretraining on large quantities of data have opened the way for similar foundation models in computer vision. These models could greatly simplify the use of images in any system by producing

arxiv.org

https://github.com/facebookresearch/dinov2

 

GitHub - facebookresearch/dinov2: PyTorch code and models for the DINOv2 self-supervised learning method.

PyTorch code and models for the DINOv2 self-supervised learning method. - facebookresearch/dinov2

github.com


0. Abstract


1. Introduction

 

2. Related Work

Intra-image self-supervised training.

Discriminative self-supervised learning.

Scaling self-supervised pretraining.

Automatic data curation.


3. Data Processing

Data sources.

Deduplication.

Self-supervised image retrieval.

Implementation Details.

 


4. Discriminative Self-supervised Pre-training

Image-level objective (Caron et al., 2021).

Patch-level objective (Zhou et al., 2022a).

Untying head weights between both objectives.

Sinkhorn-Knopp centering (Caron et al., 2020).

KoLeo regularizer (Sablayrolles et al., 2019).

Adapting the resolution (Touvron et al., 2019).


5. Efficient implementation

Fast and memory-efficient attention.

Sequence packing.

Efficient stochastic depth.

Fully-Sharded Data Parallel (FSDP).

Model distillation.


6 Ablation Studies

 

6.1 Improved Training Recipe

 

 

6.2 Pretraining Data Source

6.3 Model Size and Data

6.4 Loss Components

6.5 Impact of Knowledge Distillation

 

6.6 Impact of Resolution


7 Results

Baselines.

 

7.1 ImageNet Classification

How far are we from weakly-supervised models?

Can we finetune the encoders?

Table 4: ImageNet-1k 데이터셋에서 고정된 사전 학습 특징(frozen pretrained features)에 대한 선형 평가(linear evaluation)를 나타낸다. 공개 혹은 비공개 데이터로 학습된 공개적으로 이용 가능한 모델들에 대해, 텍스트 감독(text supervision, text sup.) 여부를 포함하여 검증 세트에서 Top-1 정확도를 보고한다. 참고로, 검증 세트에서의 kNN 성능도 함께 보고한다. 아키텍처(Arch.)는 가능한 모든 구조를 비교하며, 특별히 명시되지 않는 한 해상도는 224 × 224로 설정된다. EVA-CLIP의 학습에 사용된 데이터셋은 맞춤형 혼합 데이터(custom mixture)이며, 자세한 내용은 논문(Fang et al., 2023)을 참조하기 바란다.

Robustness analysis.

Im-A (ImageNet-A): ImageNet에서 어려운 샘플만 모아둔 데이터셋.

Im-R (ImageNet-R): ImageNet의 복제 또는 변형 이미지들로 구성된 데이터셋.

Im-C (ImageNet-C): ImageNet에 노이즈와 왜곡이 추가된 데이터셋.

Sketch: 스케치 스타일의 이미지 데이터셋.

이 표는 DINOv2와 다른 모델들의 **도메인 일반화 성능(domain generalization)**을 비교한 결과를 나타낸다. 여기서 도메인 일반화란, 사전 학습된 모델이 학습하지 않은 새로운 데이터나 도메인에서 얼마나 잘 작동하는지를 평가하는 것이다.

 

7.2 Additional Image and Video classification Benchmarks

 

 

7.3 Instance Recognition

7.4 Dense Recognition Tasks

Semantic segmentation.

Frozen backbone in a SOTA pipeline.

Depth estimation.

Table 11: 고정된 특징(frozen features)을 사용한 깊이 추정(depth estimation) 결과를 나타낸다. 선형 분류기(linear classifier)를 Transformer 레이어 하나(lin. 1) 또는 네 개(lin. 4), 그리고 Ranftl et al. (2021)의 DPT 디코더(DPT)를 기반으로 학습시켰을 때의 성능을 보고한다. 세 개의 데이터셋에 대해 RMSE(metric)를 사용하며, 값이 낮을수록 더 좋다. 참고로, 각 벤치마크에서의 최신(state-of-the-art) 결과는 Li et al. (2022b)에서 가져온 값을 표 상단에 보고한다.

7.5 Qualitative Results

Semantic Segmentation and Depth Estimation.

Out-of-distribution generalization.

 

PCA of patch features.

 

Figure 9: 첫 번째 PCA 구성요소들의 시각화를 추가로 보여준다. 모든 이미지의 패치 간 PCA를 계산하고, 첫 세 가지 구성요소를 시각화한다. 각 구성요소는 특정 색상 채널에 대응하며, 포즈, 스타일, 또는 객체가 달라지더라도 유사한 이미지 간 동일한 부분이 일치한다. 배경은 첫 번째 PCA 구성요소의 점수가 음수인 패치를 제거하여 제거한다.

Patch matching.


8 Fairness and Bias Analysis

 

Figure 10: 이미지 간의 매칭 결과를 보여준다. 서로 다른 도메인, 포즈, 심지어는 객체에 속하더라도 유사한 의미적 정보를 공유하는 패치 수준의 특징들을 매칭한다. 이는 모델이 도메인을 넘어 전이하고, 서로 다른 객체의 유사한 부분 간 관계를 이해하는 능력을 보여준다.

Table 13: 성별, 피부 톤, 나이 그룹 간의 라벨 연관성 공정성(label association fairness)을 평가한 결과를 나타낸다. Goyal et al. (2022b)에서 제안한 프로토콜을 약간 수정하여 사용하였다. 백본(backbone)을 파인튜닝하는 대신, ImageNet-22k의 619개 클래스의 하위 집합에서 선형 분류기를 단순히 학습하였다.

Table 14: DINOv2를 재현(reproducing)하는 데 따른 탄소 배출량을 평가한 결과를 나타낸다. A100-40GB의 전력 소비를 400W로 가정하고, 전력 사용 효율(PUE)을 1.1, 그리고 탄소 집약도(carbon intensity factor)를 KWh당 0.385kg CO2e로 가정하여 계산하였다.


9 Estimating the Environmental Impact of Training our Models


10 Future work and Discussion

Acknowledgments.

 

반응형