AI/Dataset

[Dataset] ADE20K, NYU Depth V2 download

도도걸만단 2026. 2. 12. 14:45
반응형

 

ADE20K (ADEChallengeData2016)

  • ADE20K는 장면 이해(Scene Parsing)와 의미 분할(Semantic Segmentation)을 목적으로 구축된 대규모 이미지 데이터셋이다. 실내와 실외를 모두 포함하는 다양한 장면으로 구성되어 있으며, 일반적인 객체(object)뿐 아니라 벽, 바닥, 하늘, 도로와 같은 배경(stuff) 클래스가 풍부하게 포함되어 있다는 점이 특징이다.
  • 이 데이터셋은 총 약 25,000장의 이미지로 구성되어 있으며, 학습용 약 20,000장과 검증용 약 2,000장, 테스트용 이미지로 나뉜다. 각 이미지에는 픽셀 단위의 semantic segmentation annotation이 제공되며, 총 150개의 클래스가 정의되어 있다. 클래스 수가 많고 장면 구성이 다양해, 단순 객체 인식이 아닌 고수준 장면 이해 능력을 평가하는 데 적합하다.
  • ADE20K는 COCO와 유사하게 일반적인 자연 이미지와 실생활 장면을 폭넓게 포함하고 있으나, COCO가 instance segmentation 중심인 반면 ADE20K는 semantic segmentation에 초점을 맞춘 데이터셋이라는 차이가 있다. 이러한 특성 때문에 representation learning이나 feature quality 평가에서 COCO의 대체 데이터셋으로 자주 사용된다.
  • FiT3D에서는 ADE20K를 semantic segmentation downstream evaluation용 데이터셋으로 사용하며, 사전학습되거나 fine-tuning된 feature를 고정한 상태에서 linear probing 방식으로 성능을 평가한다.

NYU Depth V2

  • NYU Depth V2는 실내 환경에서의 깊이 추정(Depth Estimation)을 목적으로 구축된 데이터셋이다. Microsoft Kinect 센서를 이용해 수집된 RGB 이미지와 이에 대응하는 depth map으로 구성되어 있으며, 실내 장면 이해와 3D 인식 연구에서 표준적으로 사용되는 데이터셋이다.
  • 데이터셋은 약 1,449장의 정제된 RGB-D 이미지로 구성되어 있으며, 일반적으로 795장은 학습용, 654장은 테스트용으로 사용된다. 각 이미지에는 픽셀 단위의 연속적인 depth 값이 제공되며, 단위는 미터 단위의 실제 거리 정보를 반영한다. 장면 구성은 주로 주거 공간, 사무실, 교실 등 실내 환경에 한정되어 있다.
  • NYU Depth V2는 semantic label도 함께 제공되지만, depth estimation 연구에서는 주로 RGB 이미지와 depth ground truth 쌍만 사용된다. 실내 환경 특성상 물체 간 거리 변화가 크고 구조적 정보가 풍부해, depth prediction 모델의 정밀도를 평가하기에 적합하다.
  • FiT3D에서는 NYU Depth V2를 depth estimation downstream evaluation용 데이터셋으로 사용하며, 학습된 feature를 고정한 상태에서 linear regressor를 학습해 depth 예측 성능을 측정한다. 이를 통해 FiT3D가 학습한 3D-aware feature가 실제 기하 정보 복원에 얼마나 효과적인지를 정량적으로 평가한다.

정리

ADE20K는 다양한 장면과 풍부한 semantic 정보를 기반으로 feature의 의미적 표현 능력을 평가하는 데 적합한 데이터셋이며, NYU Depth V2는 실내 환경에서의 깊이 추정을 통해 feature의 기하학적 이해 능력을 평가하는 데 사용된다. FiT3D는 이 두 데이터셋을 통해 3D-aware representation이 semantic understanding과 geometric understanding 모두에서 효과적임을 검증한다.

 

 


1. ADE20K = ADEChallengeData2016 (맞음)

정확한 관계

  • ADE20K = 데이터셋 이름
  • ADEChallengeData2016 = ADE20K의 semantic segmentation 공식 배포 이름 / 폴더명

 


ADE20K (ADEChallengeData2016) 다운로드 방법

공식 다운로드 페이지

http://sceneparsing.csail.mit.edu/

 

MIT Scene Parsing Benchmark

Overview Scene parsing is to segment and parse an image into different image regions associated with semantic categories, such as sky, road, person, and bed. MIT Scene Parsing Benchmark (SceneParse150) provides a standard training and evaluation platform f

sceneparsing.csail.mit.edu

 

다운로드 파일

페이지 중간에 있는:

ADEChallengeData2016.zip

다운로드 & 압축 해제

# 예시
wget http://data.csail.mit.edu/places/ADEchallenge/ADEChallengeData2016.zip
unzip ADEChallengeData2016.zip

 


2. NYU Depth V2 다운로드 방법 (Depth 평가용)

NYU Depth V2 (depth estimation)

공식 페이지

https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

 

NYU Depth V2 « Nathan Silberman

NYU Depth Dataset V2 Nathan Silberman, Pushmeet Kohli, Derek Hoiem, Rob Fergus If you use the dataset, please cite the following work: Indoor Segmentation and Support Inference from RGBD Images ECCV 2012 [PDF][Bib] Samples of the RGB image, the raw depth i

cs.nyu.edu

 

반드시 받아야 할 파일 

(1) RGB + Depth raw data

nyu_depth_v2_labeled.mat

다운로드

wget http://horatio.cs.nyu.edu/mit/silberman/nyu_depth_v2/nyu_depth_v2_labeled.mat

 


절대 헷갈리면 안 되는 것 ⚠️

❌ NYUv2 semantic ≠ NYU Depth V2

  • NYUv2 (semantic) → segmentation
  • NYU Depth V2 → depth
반응형