[논문 리뷰] 3D GENERATION ON IMAGENET (ICLR 2023)

논문 리뷰

[논문 리뷰] 3D GENERATION ON IMAGENET (ICLR 2023)

도도걸만단 2025. 3. 3. 16:15

계속 업데이트 수정중

https://snap-research.github.io/3dgp/

3D generation on ImageNet

snap-research.github.io

https://openreview.net/forum?id=U2WjB9xxZ9q

3D generation on ImageNet

openreview.net

0. Abstract

기존의 3D-from-2D 생성 모델들은 단일 카테고리 데이터셋에 맞춰 설계됨. 이 데이터셋은 모든 객체가 동일한 크기, 3D 위치, 방향을 가지며, 카메라는 항상 장면의 중심을 가리킴. 따라서 이런 모델들은 다양한 환경에서, 정렬되지 않은 장면을 임의의 카메라 각도에서 렌더링한 데이터셋에는 적용하기 어려움. 본 연구에서는 **3D generator with Generic Priors (3DGP)**을 개발함. 이는 훈련 데이터에 대한 더 일반적인 가정을 기반으로 한 3D 합성 프레임워크이며, ImageNet과 같은 난이도 높은 데이터셋에서도 확장 가능함을 보임.

이 모델은 세 가지 새로운 아이디어를 기반으로 함.

1. 정확도가 낮은 기존 depth estimator를 3D GAN 학습에 통합하기 위해 Depth Adaptation Module을 추가하여 보정 가능하도록 설계함.

2. 유연한 카메라 모델을 도입하고, 학습 과정에서 카메라 분포 파라미터를 학습하는 정규화 전략을 적용함.

3. 사전 학습된 분류기의 지식을 GAN 모델로 전이하는 최신 기법을 발전시켜, Discriminator에서 Distillation-based Technique을 활용함. 이를 통해 기존 방식보다 학습이 더 안정적으로 진행되며, 수렴 속도가 최소 40% 빨라짐.

모델을 네 가지 데이터셋에서 평가함: SDIP Dogs 256², SDIP Elephants 256², LSUN Horses 256², ImageNet 256². 결과적으로, 3DGP는 최신 SOTA 모델 대비 텍스처 및 기하학적 품질에서 우수한 성능을 보임.

코드 및 결과 시각화: https://snap-research.github.io/3dgp

1. INTRODUCTION

최근 3D-aware Image Synthesis 분야에서 큰 발전이 이루어짐. 연구 커뮤니티는 이미지 품질, 3D 일관성, 생성 효율성을 높이기 위한 새로운 방법들을 지속적으로 개발 중 (Chan et al., 2022; Deng et al., 2022; Skorokhodov et al., 2022; Zhao et al., 2022; Schwarz et al., 2022). 하지만 기존 프레임워크는 대부분 정제된 단일 카테고리 데이터셋에 맞춰져 있음. 예를 들어, 인간 또는 고양이 얼굴과 같은 데이터셋에서는 동일한 카테고리의 객체들이 같은 크기와 장면 구조를 가짐 (Chan et al., 2021). 이를 위해선 객체의 3D keypoint를 분석하여 이미지를 적절히 crop, rotate, scale 해야 하는데, 이는 특정 도메인 지식이 필요함 (Deng et al., 2022; Chan et al., 2022).

하지만 대규모 다중 카테고리 데이터셋은 본질적으로 정렬이 불가능(Non-alignable)함. 예를 들어, 풍경 사진과 숟가락 이미지를 동일한 기준으로 정렬하는 것은 불가능함. 따라서 이러한 In-the-Wild 데이터셋에서 3D 합성을 수행하려면, 더 보편적인 3D priors에 의존하는 프레임워크가 필요함.

본 연구에서는 **3D Generator with Generic Priors (3DGP)**를 제안함. 이 모델은 완벽하지 않은 Monocular Depth Estimator를 통해 예측된 깊이 정보를 활용하여 학습함. 놀랍게도, 이러한 3D cues만으로도 ImageNet과 같은 비정렬 데이터셋에서 합리적인 장면을 학습하는 것이 가능함.

2. Challenges

In-the-Wild 데이터셋에서 3D Generator를 학습하는 데는 세 가지 주요 문제가 있음.

1. 실제 이미지의 카메라 외부 파라미터(Extrinsic Parameters)를 알 수 없음 → 추론 불가능

2. 객체의 형태, 위치, 회전, 크기가 다양함 → 기하 구조 학습이 어려움

3. 데이터셋 자체가 텍스처와 구조에서 큰 변화를 가짐 → 2D 생성 모델에서도 학습이 어렵기 때문에 3D는 더 난이도가 높음

기존 3D-aware 생성 모델(예: EG3D (Chan et al., 2022))은 이런 환경에서 제대로 된 3D 구조를 학습하는 데 어려움을 겪음 (Fig. 1 참고). 본 연구에서는 이를 해결하기 위해 세 가지 새로운 기법을 제안함.

3. 주요 기법 (Key Techniques)

(1) Learnable “Ball-in-Sphere” Camera Distribution

기존 3D 모델들은 제한적인 카메라 모델을 사용함 (Schwarz et al., 2020; Niemeyer & Geiger, 2021b; Chan et al., 2021). 보통 카메라는 구(Sphere) 위의 일정한 반지름에서 배치되며, 항상 장면의 중심을 바라보는 방식임. 하지만 비정렬 데이터셋에서는 이 가정이 깨짐.

예를 들어, Dog Dataset은 코 근접 사진부터 전체 몸 사진까지 포함하는데, 이는 **초점 거리(focal length)**와 **시선 방향(look-at position)**이 다양하다는 뜻임. 이를 해결하기 위해 6-DOF(자유도 6)의 새로운 카메라 모델을 도입함. 학습 과정에서 카메라 분포 파라미터를 최적화하고, Gradient Penalty를 추가하여 분포가 특정 값으로 붕괴되는 것(Collapse)을 방지함.

(2) Adversarial Depth Supervision (ADS)

다양한 객체 형태와 포즈를 포함하는 일반적인 이미지 데이터셋에서는 정확한 3D 기하학(Geometry) 학습이 어려움. 잘못된 크기 추론은 잘못된 카메라 모델로 보정될 수 있고, 평평한 구조(flat geometry)로 변질될 위험이 있음 (Hartley & Zisserman, 2003; Zhao et al., 2022).

이를 방지하기 위해, Discriminator에 Scene Geometry 정보를 제공하는 기법을 도입함. RGB 입력의 4번째 채널로 Depth Map을 추가함.

• 실제 이미지 → 기존 Monocular Depth Predictor (Miangoleh et al., 2021)로 깊이 추정

• 생성된 이미지 → Radiance Field에서 깊이를 렌더링한 후, Depth Adaptation Module을 통해 분포 차이를 보정함

이 기법을 적용하면 Generator가 보다 정확한 3D 구조를 학습할 수 있음.

(3) Knowledge Distillation into Discriminator

사전 학습된 2D 이미지 인코더의 지식을 GAN 모델로 전이하는 것이 성능 향상에 유용함 (Sauer et al., 2022). 기존 방식은 Pretrained Image Classifier를 Discriminator의 백본으로 활용하는데, 이는 일반적인 Patch-wise Training 설정에서는 효과가 떨어짐 (Schwarz et al., 2020).

이를 개선하기 위해, 본 연구에서는 Knowledge Distillation을 기반으로 한 새로운 기법을 적용함.

• ResNet50 (He et al., 2016)의 Feature를 예측하도록 Discriminator를 훈련

• 기존 학습 대비 연산 오버헤드 1% 미만으로 유지

• 2D 및 3D Generator 모두에서 FID 최소 40% 개선

4. 실험 결과 (Experiments)

비정렬된 단일 카테고리 데이터셋에서 검증:

• SDIP Dogs 256² (Mokady et al., 2022)

• SDIP Elephants 256² (Mokady et al., 2022)

• LSUN Horses 256² (Yu et al., 2015)

모델을 ImageNet 1,000개 카테고리에서 학습한 결과, 다중 카테고리 3D 합성이 가능함을 입증함 (Fig. 1 참고).

2 RELATED WORK

3D-aware image synthesis.

Mildenhall et al. (2020)은 **Neural Radiance Fields (NeRF)**를 소개함. 이는 RGB supervision만으로 학습 가능한 3D 볼륨 표현 방식임. 이후 NeRF를 기반으로 한 3D-aware 이미지/비디오 생성 모델들이 등장함 (Schwarz et al., 2020; Niemeyer & Geiger, 2021b; Chan et al., 2021; Xue et al., 2022; Zhou et al., 2021 등). 이들 모델은 전부 GAN-based (Goodfellow et al., 2014)임.

특히 고해상도 이미지 생성의 비용을 줄이기 위한 다양한 기법이 연구됨:

• Patch-wise training (Schwarz et al., 2020; Meng et al., 2021; Skorokhodov et al., 2022)

• MPI-based rendering (Zhao et al., 2022)

• Separate 2D upsampler 사용 (Gu et al., 2022)

Learning the Camera Poses

NeRF 기반 모델들은 멀티 뷰 스테레오(MVS) (Schonberger et al., 2016) 또는 Structure from Motion (SfM) (Schonberger & Frahm, 2016) 기법을 사용하여 카메라 포즈 정보를 사전에 알고 있어야 함.

반면, 몇몇 연구들은 카메라 포즈를 자동 추정하거나 훈련 과정에서 미세 조정하는 방식을 시도함 (Wang et al., 2021; Lin et al., 2021; Kuang et al., 2022). 하지만 본 연구에서는 멀티 뷰 관찰을 통한 포즈 추정이 아니라, 다양한 객체 카테고리를 포함하는 단일 뷰 데이터에서 카메라 포즈 분포를 학습하는 문제를 다룸.

이 점에서 가장 유사한 연구는 **CAMPARI (Niemeyer & Geiger, 2021a)**임. 이 모델 역시 카메라 분포를 학습하는 방식임.

GANs with External Knowledge

GAN 학습 시 기존의 이미지 기반 모델을 활용하면 수렴 속도와 이미지 품질이 향상됨 (Kumari et al., 2022; Sauer et al., 2021; Mo et al., 2020). 대표적인 사례로 **StyleGAN-XL (Sauer et al., 2022)**이 있음. 이 모델은 사전 학습된 **EfficientNet (Tan & Le, 2019)**을 Discriminator에 결합하여 성능을 높임.

그러나 이러한 방식은 대규모 RGB-D 데이터셋이 부족하여 적용하기 어려움. 대신, FreezeD (Mo et al., 2020) 같은 연구에서는 Discriminator의 feature를 distillation하여 GAN을 finetune하는 기법을 제안함.

본 연구에서는 이미지 분류 모델을 활용한 새로운 Knowledge Distillation 기법을 적용함.

Off-the-Shelf Depth Guidance

GSN (DeVries et al., 2021)은 Discriminator의 입력으로 Depth Map을 4번째 채널로 추가함. 하지만 이는 Ground Truth Depth가 필요하며, 대규모 데이터셋에는 적용하기 어려움.

DepthGAN (Shi et al., 2022)은 Depth Estimator를 활용하여 2D GAN 학습을 보조하는 기법을 사용함. 또한 Monocular Depth Estimator를 활용한 Neural Rendering 개선 연구 (Yu et al., 2022)도 진행됨. 하지만 이 연구들은 단순한 Geometry Reconstruction에 초점이 맞춰져 있음.

본 연구의 핵심 차별점은 Depth Estimator의 오차를 고려하여 학습 가능한 Depth Adaptor Module을 도입한 것임 (→ §3.2 참고).

3 METHOD

본 연구에서는 **EpiGRAF (Skorokhodov et al., 2022)**을 기반으로 Generator를 설계함. EpiGRAF은

1. 학습 속도가 빠르고

2. 2D upsampler 없이도 합리적인 이미지 품질을 제공하며

3. Patch-wise training 방식으로 학습된다는 장점이 있음 (Schwarz et al., 2020).

랜덤 잠재 코드 z가 주어지면, Generator G는 Tri-plane Representation을 생성함. 이후, 얕은 2-layer MLP가 3D 좌표에서의 RGB 색상과 밀도(σ)를 예측함. 그다음 **Volumetric Rendering (Mildenhall et al., 2020)**을 통해 임의의 카메라 위치에서 이미지와 Depth Map을 렌더링함.

기존 연구 (Chan et al., 2021; Niemeyer & Geiger, 2021b)는 고정된 카메라 분포를 사용했지만, 본 연구에서는 Trainable Camera Generator C를 도입하여 동적으로 카메라를 샘플링함 (§3.1 참고).

또한 Depth Adaptation Module을 적용하여, 렌더링된 Depth와 추정된 Depth 사이의 분포 차이를 보정함 (§3.2 참고).

Discriminator D는 StyleGAN2 (Karras et al., 2020a) 아키텍처를 따르며, 4번째 채널로 Depth 정보를 추가로 입력받음. 이를 보완하기 위해 ResNet (He et al., 2016)에서 추출한 외부 지식을 활용하는 Knowledge Distillation 기법을 적용함 (§3.3 참고).

전체 모델 아키텍처는 Fig. 2에 나타냄.

3.1 LEARNABLE “BALL-IN-SPHERE” CAMERA DISTRIBUTION

3.1 학습 가능한 “Ball-in-Sphere” 카메라 분포 (Learnable “Ball-in-Sphere” Camera Distribution)

Limitations of Existing Camera Parameterization.

기존 카메라 파라미터화의 한계

기존 3D 생성 모델들은 지나치게 단순화된 카메라 분포를 사용함. 일반적으로 고정 반지름의 구(Sphere) 위에서 카메라 위치를 샘플링하고, 모든 카메라가 (0, 0, 0)을 바라보는 방식임.

이 방식은 Pitch와 Yaw(φ_pos) 두 개의 자유도(DOF)만 가짐 (Fig. 3 (a)). 따라서 모든 객체가 일정한 정렬 기준을 따를 수 있다고 가정함. 하지만 실제 In-the-Wild 3D 장면은 본질적으로 Non-alignable함.

• 여러 개의 객체가 존재할 수 있음

• 객체의 형태와 자세가 다양함

• 일부 객체(예: 연기)는 볼륨(volume) 형태로만 표현됨

따라서 기존 카메라 모델은 이런 데이터에 적용하기 어려움.

Learnable “Ball-in-Sphere” Camera Distribution.

학습 가능한 “Ball-in-Sphere” 카메라 분포

새로운 “Ball-in-Sphere” 카메라 모델을 도입함. 기존 방식과 달리,

1. Field of View (φ_fov)

2. 내부 구(Sphere)에서의 Pitch, Yaw, Radius (φ_lookat)

총 **4개의 추가 자유도(DOF)**를 가짐 (Fig. 3 (b)). 기존 외부 구(Sphere)의 파라미터와 결합하면, 최종적으로

φ = [φ_pos ∥ φ_fov ∥ φ_lookat] (∥: Concatenation) 형태의 6-DOF 카메라 파라미터가 됨.

기존 연구처럼 고정된 카메라 분포를 수동 정의하는 대신, 본 연구에서는 Camera Generator C를 학습하여 데이터셋마다 최적의 카메라 분포를 자동 학습하도록 설계함.

• ImageNet 같은 다중 카테고리 데이터셋: 클래스 레이블 c 및 잠재 코드 z를 추가 입력

• 단일 카테고리 데이터셋: φ = C(φ’, z) 형태로 학습

Camera Gradient Penalty

기존 CAMPARI (Niemeyer & Geiger, 2021a) 모델도 카메라 분포를 학습하지만, 본 연구에서는 기존 방식이 복잡한 데이터셋에서는 분포 붕괴(Collapse) 현상이 발생함을 관찰함 (Fig. 7 참고).

이를 방지하기 위해 Camera Gradient Penalty를 도입함.

1. 급격한 카메라 변화 방지 → 학습 안정성 증가

2. Lipschitz 상수를 줄여 GAN 학습 안정성 유지 (Odena et al., 2018)

자세한 수식은 **식 (1)**을 참고.

3.2 Adversarial Depth Supervision

정규화된 Depth 계산

NeRF 기반 Volumetric Rendering을 통해 깊이 d를 계산함:

여기서 는 near/far plane, 는 누적 투과율, 는 ray를 의미함.

Raw depth를 정규화하기 위해, 범위에서 로 변환함:

여기서 는 학습 가능한 추가적인 이동 값으로, 카메라 앞의 빈 공간을 보정하는 역할을 함. 실제 depth도 동일한 방식으로 범위로 정규화됨.

Learnable Depth Adaptor.

정규화된 depth 는 기존 depth 과 동일한 범위를 가지지만, 직접 Discriminator에 입력하기에는 부적절함.

이유는 Depth Estimator 가 갖는 오차 때문임. 그대로 학습하면, Generator 가 E의 모든 예측 오류까지 학습하게 됨.

이를 해결하기 위해, **Depth Adaptor **를 도입하여 depth를 변환함:

여기서 는 샘플링된 픽셀 수를 의미함. 변환된 깊이 **(가짜 또는 실제 )**는 RGB 입력과 함께 Discriminator 에 전달됨.

Depth Adaptor 의 역할은 E가 생성하는 아티팩트(artifact)를 모델링하여, Discriminator가 고수준의 기하학적 구조만 학습하도록 유도하는 것임. 하지만, 너무 강력한 는 원본 depth를 완전히 변형할 수 있음. 그렇게 되면 Generator가 3D 구조를 학습하지 못하는 문제가 발생함.

이를 방지하기 위해, 를 단순한 3-layer Convolutional Network로 설계함 (Fig. 4 참고).

각 층은 다른 수준의 적응을 수행한 depth map을 출력함:

최종적으로, 변환된 depth 는 또는 중 랜덤하게 선택됨.

이런 방식은 과적합을 방지하면서도 안정적인 3D 기하학 학습을 가능하게 함.

• Discriminator가 원본 depth 를 입력받으면, Generator는 강한 기하학적 신호를 학습함.

• 변환된 depth 를 입력받으면, Generator는 depth estimator의 오차를 보정하는 방식으로 학습함.

3.3 KNOWLEDGE DISTILLATION FOR DISCRIMINATOR

Discriminator를 위한 Knowledge Distillation

사전 학습된 분류 네트워크의 지식 전이

기존 연구에서 사전 학습된 이미지 분류 네트워크를 활용하면 2D GAN의 학습 안정성과 생성 품질이 향상됨이 확인됨 (Sauer et al., 2021; Kumari et al., 2022; Casanova et al., 2021).

Sauer et al. (2021, 2022)는 Off-the-Shelf 모델을 Discriminator로 활용하고 대부분의 가중치를 고정하는 방식을 제안함.

하지만, 본 연구에서는 Discriminator의 아키텍처를 수정하여 추가적인 Depth 입력을 받도록 변경했기 때문에, 기존 방법을 그대로 적용할 수 없음 (§3.2 참고).

이를 해결하기 위해, Discriminator 아키텍처에 독립적인 Knowledge Distillation 기법을 개발함.

구체적으로, 각 실제 샘플에서 두 개의 feature representation을 추출함:

• : 사전 학습된 **ResNet (He et al., 2016)**에서 추출한 feature

• : Discriminator 의 최종 feature

이 두 feature가 가까워지도록 하는 Loss를 정의함:

이를 통해, ResNet의 지식이 Discriminator로 효과적으로 전이됨.

3.4 TRAINING

Generator 의 총 손실 함수는 두 가지로 구성됨:

• : Non-saturating GAN Loss (Goodfellow et al., 2014)

• : Camera Gradient Penalty

카메라 기하학을 학습할 때, 다양한 카메라 원점 분포를 유지하는 것이 중요하지만, 이 분포는 쉽게 붕괴되는 경향이 있음.

따라서, 각 카메라 파라미터에 대해 가중치를 다르게 설정함:

• (카메라 위치)

• (시야각)

• (시선 방향)

Discriminator 의 손실 함수는 세 가지로 구성됨:

• : Adversarial Loss

• : Knowledge Distillation Loss (ResNet feature matching)

• : Gradient Penalty (Mescheder et al., 2018)

학습 과정에서는 EpiGRAF와 동일한 옵티마이저 및 하이퍼파라미터를 사용함.

특히, Depth Adaptor의 샘플링 방식에서 모든 변환 depth를 동일 확률로 선택하는 것이 최적이 아님을 관찰함.

따라서, (원본 depth를 50% 확률로 선택) 설정이 더 나은 3D 기하학 학습을 유도함.

추가적인 세부 사항은 부록(Appx B) 참고.

4 EXPERIMENTAL RESULTS

Datasets

실험에는 4개의 비정렬(Non-aligned) 데이터셋을 사용함:

• SDIP Dogs (Mokady et al., 2022)

• SDIP Elephants (Mokady et al., 2022)

• LSUN Horses (Yu et al., 2015)

• ImageNet (Deng et al., 2009)

처음 세 개는 단일 카테고리 데이터셋이며, 복잡한 관절 구조(articulated geometry)를 가진 객체들을 포함하여 일반적인 3D 생성 모델이 처리하기 어려운 환경임.

SDIP Dogs와 LSUN Horses에서는 이상치(outlier) 이미지 제거를 위해 Instance Selection 기법(DeVries et al., 2020)을 적용하여 각각 40K 샘플로 줄임. 이를 SDIP Dogs40k, LSUN Horses40k로 명명함.

이후, 다중 카테고리(real-world) 데이터셋인 ImageNet에서 모델을 검증함. ImageNet은 1,000개 객체 카테고리, 각 카테고리당 1,000개 이상의 이미지로 구성됨.

모든 3D 생성 모델(베이스라인 포함)은 동일한 필터링 전략을 사용함. ImageNet의 이미지 2/3를 필터링하되, 모든 성능 지표(FID, IS 등)는 전체 ImageNet에서 측정함.

Evaluation

이미지 품질은 FID (Frechet Inception Distance) (Heusel et al., 2017)로 측정함.

• FID2k: 기존 FID(50K 샘플 기반)보다 빠른 평가를 위해 2,048개 이미지에서 계산됨.

• Inception Score (IS) (Salimans et al., 2016): ImageNet에서 추가적으로 평가함.

3D 생성 모델의 기하학적 품질을 평가하는 공식적인 프로토콜은 존재하지 않음.

하지만, 최신 연구들은 Tri-plane 기반 모델(Chan et al., 2022; Sun et al., 2022) 또는 MPI 기반 모델(Zhao et al., 2022)을 사용하며, 주요한 기하학적 실패 사례는 “Flatness” (평면화) 현상임.

이를 정량화하기 위해, **Non-Flatness Score (NFS)**를 제안함.

• NFS = 정규화된 Depth Map의 히스토그램 엔트로피 평균값

• Fig. 6에서 직관적 개념을 설명하고, 자세한 내용은 Appx F 참고.

4.1 3D GENERATION FOR SINGLE CATEGORY DATASETS

4.1 단일 카테고리 데이터셋의 3D 생성

Table 1a에서 EG3D (Chan et al., 2022), EpiGRAF (Skorokhodov et al., 2022)와 비교한 정량적 결과를 제시함.

• EG3D는 FFHQ (Karras et al., 2019)에 최적화된 모델로, 실제 이미지에서 추론한 정확한 카메라 포즈를 사용함.

• 본 연구에서는 실제 카메라 분포를 알 수 없는 환경이므로, EG3D와 유사한 조건을 유지하기 위해 FFHQ에서 사용된 표준 편차를 적용함:

• Yaw:

• Pitch:

• 더 나은 기하학적 구조 학습을 위해, 카메라 분포를 기존보다 2배 넓게 설정한 실험도 수행:

• Yaw:

• Pitch:

• → 평면화(flatness) 감소 효과는 있었지만, FID2k 성능이 최대 500% 악화됨.

결과:

• 본 연구 모델(3DGP)은 EG3D 대비 최소 2배 더 나은 FID2k 성능을 보이며,

• StyleGAN2보다는 약간 낮은 성능을 보이지만,

• 모든 데이터셋에서 더 높은 NFS를 기록함 → 더 나은 기하학적 품질을 보임.

NFS가 낮을수록 Flatness가 심한 기하학적 구조를 의미하며, 사이드 뷰 생성 능력이 저하됨.

Fig. 5 (left)에서 확인할 수 있듯,

• EG3D, EpiGRAF는 사이드 뷰 생성에 실패하지만, 3DGP는 현실적인 사이드 뷰 생성 가능.

Adversarial Depth Supervision (ADS)

ADS와 Depth Adaptor 의 효과를 평가함.

• 주요 하이퍼파라미터: (Non-adapted Depth 사용 확률)

• Table 1b에서 변화에 따른 결과를 분석함.

결과:

• ADS가 없을 때, NFS가 가장 낮음 → 3D 구조를 학습하지 못함.

• (Adaptor만 사용):

• Discriminator가 **Rendered Depth **를 학습하지 않아 Flat Geometry 문제 발생.

• (Adaptor 미사용):

• Rendered Depth와 Estimated Depth의 도메인 차이(domain gap)가 커서 FID 성능 저하.

• 에서 최적의 결과

• **Fig. 5 (middle)**에서 확인 가능.

• Bare 3DGP, 모델들은 사이드 뷰 생성 실패.

• 모델은 전체적으로 가장 나은 기하학적 품질과 사이드 뷰를 생성.

Knowledge Distillation

Discriminator 에 적용한 Knowledge Distillation 기법을 분석함 (§3.3 참고).

• Adversarial Training 안정성을 증가시키며, FID 개선 효과가 큼

• EpiGRAF, Bare 3DGP 결과와 비교하면 성능 향상 명확함 (Table 1a 참고)

• 다양한 Knowledge Distillation 기법을 비교한 실험은 Appx C 참고.

그러나 **Parmar et al. (2021)**의 연구에 따르면,

• 추가적인 분류 네트워크를 활용한 기법들은 FID 향상을 가져오지만, 시각적 품질 향상과 반드시 연결되지 않음.

“Ball-in-Sphere”Camera Distribution.

Fig. 7에서 다양한 카메라 분포 학습 전략을 비교함:

1. 사전 분포 에서 샘플링 (학습 없음)

2. Residual 예측

3. 제안한 Camera Generator + Camera Gradient Penalty 적용

결과:

• 1, 2번 방식 → 학습된 분포가 거의 결정론적(deterministic)

• Flat Geometry 현상 발생 → 의미 있는 사이드 뷰 생성 불가능.

• 3번 방식 (Camera Generator + Regularization) → 적절한 분포 학습

• 현실적인 기하학과 사이드 뷰 생성 가능.

추가 연구:

• 논문 제출 후, 더 간단하고 유연한 “Entropy Maximization” 기반 카메라 정규화 기법을 발견함.

• Appx J에서 논의함.

4.2 3D SYNTHESIS ON IMAGENET

4.2 ImageNet에서의 3D 합성 (3D SYNTHESIS ON IMAGENET)

ImageNet (Deng et al., 2009)은 단일 카테고리 데이터셋보다 훨씬 어려운 데이터셋임. 기존 연구를 따라, 모든 모델을 조건부 생성(Conditional Generation) 환경에서 학습함 (Brock et al., 2018).

Table 2에 정량적 결과를 제시함. 참고를 위해 최신 2D 생성 모델들의 성능도 함께 보고함.

• 예상대로, 2D 생성 모델이 3D 모델보다 FID 및 IS 점수에서 우수함.

• 이유는 2D 모델이 기하학을 학습할 필요가 없고, 더 강력한 연산 리소스를 사용하며, 연구 기간이 더 길었기 때문임.

카메라 분포를 최적으로 설정하려 했으나, EG3D 및 EpiGRAF는 여전히 Flat하거나 반복적인 기하학을 생성함. 반면 3DGP는 보다 디테일한 3D 구조를 생성함 (Fig. 1 참고).

**StyleNeRF (Gu et al., 2022), VolumeGAN (Xu et al., 2021)**도 ImageNet을 조건부 생성하는 방식으로 학습했으나, 좁은 카메라 분포로 인해 시각적 품질이 크게 저하됨.

• 이유: 두 모델은 MLP/Voxel 기반 NeRF 백본을 사용하며, 이는 Tri-plane보다 더 강한 3D Prior를 가짐.

• 그러나 연산 비용이 훨씬 높음 → 결국 Generator의 표현력을 희생해야 함.

2D 생성 모델을 3D로 변환하는 방식

3D 생성 모델을 처음부터 학습하는 것만이 3D-aware 합성을 하는 유일한 방법은 아님.

기존 2D 생성 모델을 3D로 변환(Lifting)하는 방법도 존재함.

이를 검증하기 위해,

• StyleGAN-XL (ImageNet에서 가장 강력한 2D 생성 모델)로 10K 이미지 생성 후,

• **3DPhoto (Shih et al., 2020)**를 적용함.

3DPhoto 기법:

• 사전 학습된 Depth Estimator를 사용하여 2D 사진을 3D로 변환

• 변환 과정에서 생성된 구멍(Holes)을 별도의 GAN으로 채움(Inpainting)

• 카메라 움직임이 10° 이내일 때는 잘 동작하지만, 그 이상 이동 시 왜곡이 심해짐.

Table 2에서,

• 3DPhoto 기반 FID/IS 점수를 보고함.

• 사용한 카메라 분포: Yaw , Pitch

• 세부 내용은 Appx I 참고.

5. CONCLUSION

본 연구에서는 ImageNet 같은 In-the-Wild 다중 카테고리 데이터셋을 위한 첫 3D 합성 프레임워크를 제안함.

• 불완전한 단안(depth) 추정과 잠재 특징(latent feature representation)을 활용하여 시각적 품질을 향상하고, 기하학을 보정하는 방법을 제시함.

• “Ball-in-Sphere” 카메라 모델과 새로운 정규화(regularization) 기법을 도입하여 의미 있는 카메라 분포 학습 가능하게 만듦.

한계점:

• Sticking Background 문제 → 배경이 모델에 고정되는 현상 발생

• 2D 생성 모델보다 낮은 시각적 품질

• 생성된 3D 구조를 평가할 수 있는 신뢰할 만한 정량적 지표 부족

추가 논의는 Appx A에서 다룸.

본 연구에는 총 ≈12년치 NVIDIA A100 GPU 연산량이 사용됨.

6. REPRODUCIBILITY STATEMENT

본 연구에서는 연구 재현성 확보를 위해 다음을 공개할 예정임:

1. Generator의 소스 코드 및 체크포인트 → 별도 GitHub 저장소에 공개

2. 본 연구에서 사용한 전처리된 데이터셋 및 추출된 Depth Maps

§3, §4, Appx B 및 논문 전반의 Figure에서

• 모델 아키텍처 및 최적화 세부 사항을 모두 제공하여 재현 가능하도록 함.

• 추가적인 연구 세부 사항도 공개/비공개 요청에 따라 제공 가능.

7. ETHICS STATEMENT

7 윤리 성명

딥러닝 기반 합성(Synthesis) 연구에서 윤리적 우려가 존재함.

• 가짜 콘텐츠(Fake Content) 생성 → 허위 정보(fake news), Deepfake 등 악용 가능성

최근 연구 커뮤니티에서도

• Stable Diffusion (Rombach et al., 2022), DALL-E (Ramesh et al., 2022) 같은 2D 이미지 생성 모델

• GitHub Copilot 같은 코드 생성 모델에서 윤리적 문제를 논의하고 있음.

현재 본 연구의 생성 품질은 세밀한 인간 관찰자를 속이기에는 부족하지만,

미래에 있을 악용 가능성을 고려하여 연구 커뮤니티 차원의 논의 및 방지 대책 마련을 권장함.

'논문 리뷰' 카테고리의 다른 글

[논문 리뷰] AdaMPI : Single-View View Synthesis in the Wild with Learned Adaptive Multiplane Images (1)	2025.03.07
[논문 리뷰] ESD : Erasing Concepts from Diffusion Models (2023 ICCV) (2)	2025.02.01
[논문 리뷰] DINOv2: Learning Robust Visual Features without Supervision (2)	2025.01.23
[떠먹여주는 논문 리뷰] TMPI : Tiled Multiplane Images for Practical 3D Photography(ICCV 23.10) (1)	2025.01.17
[논문 리뷰] Sapiens: Foundation for Human Vision Models 및 평가지표 설명 (0)	2025.01.17

현재글[논문 리뷰] 3D GENERATION ON IMAGENET (ICLR 2023)

프로그래밍선

Depth estimation, depth, OpenGL, streamlit, 프로그래머스, ffmpeg, tmpi, code, LLM, Python, HTML, depth pro, tiled multiplane images for practical 3d photography, 경사하강법, PIP, cv2, error, 챗봇만들기, AI, SGD,

Today :
Yesterday :

프로그래밍선