[떠먹여주는 논문 리뷰] REG, Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think (NeurIPS 2025)

AI/논문 리뷰

[떠먹여주는 논문 리뷰] REG, Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think (NeurIPS 2025)

도도걸만단 2025. 9. 25. 21:32

REPA 를 뛰어넘을 논문이 나왔다! REG !

Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think

[Submitted on 2 Jul 2025]

Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think

REPA and its variants effectively mitigate training challenges in diffusion models by incorporating external visual representations from pretrained models, through alignment between the noisy hidden projections of denoising networks and foundational clean

arxiv.org

https://github.com/Martinser/REG

GitHub - Martinser/REG

Contribute to Martinser/REG development by creating an account on GitHub.

github.com

0. Abstract

REPA 및 그 변형variants들은 pretrained model의 external visual representation을 도입incorporating하여, denoising network의 noisy hidden projection과 foundational clean image representation 사이의 alignment를 통해 diffusion model의 training challenge를 효과적으로 완화함.

그러나 이러한 external alignment는 denoising inference 과정 전체에서 부재absent하므로, discriminative representation의 잠재력을 완전히 활용harnessing하기에는 부족함.

본 연구에서는 Representation Entanglement for Generation (REG)라는 간단한 방법을 제안함.

REG는 pretrained foundation model에서 나온 single high-level class token을 low-level image latent와 얽어(entangle) denoising에 사용함. REG는 pure noise로부터 직접적으로 coheren일관성있는 image-class pair를 생성하는 능력을 획득하여, generation quality와 training efficiency를 크게substantially 향상시킴.

이 방법은 denoising 과정에서 only one single additional token 만 요구되며, (<0.5% increase in FLOPs and latency)FLOPs와 latency가 0.5% 미만으로 증가하므로 추가적인 inference overhead는 사실상 무시할 만한 수준임.

inference process은 image latent와 그에 대응하는 global semantic을 동시에 reconstructs하며, 획득된 semantic knowledge가 image generation을 적극적으로 guide하고 강화함.

ImageNet 256×256 실험에서, SiT-XL/2 + REG는 remarkable한 convergence acceleration을 보여주며, SiT-XL/2 대비 63배, SiT-XL/2 + REPA 대비 23배 빠른 training을 달성함. 더 인상적인 점은, 단지 400K iteration만 학습된 SiT-L/2 + REG가 4M iteration(10배 더 긴 학습)한 SiT-XL/2 + REPA보다 더 우수한 성능을 보였음.

코드는 다음 링크에서 제공됨: https://github.com/Martinser/REG.

1. Introduction

Generative model은 지난 수년간 눈에 띄는 진화를 겪으며 다양한 application에서 remarkable한 성공을 보여줌.

최근 high-fidelity image synthesis의 발전은 몇 가지 핵심 innovation에 의해 주도됨.

Latent Diffusion Model (LDM)은 안정적인 2단계 학습 프레임워크를 도입하였고,
Diffusion Transformer (DiT)는 transformer 기반 아키텍처를 통해 scalability를 향상시킴.
이러한 발전을 바탕으로, Scalable Interpolant Transformer (SiT)는 continuous-time stochastic interpolant를 활용하여 diffusion training을 통합적으로 설명하는 접근을 제시함.
LDM은 이미지를 latent space로 압축 → latent space에서 diffusion 학습 → 다시 이미지로 복원하는 구조임.
여기서 말하는 2단계 학습 프레임워크는:
1. VAE 학습 단계: 이미지 ↔ latent 간의 압축/복원 autoencoder 학습.
2. Diffusion 학습 단계: latent 공간에서 노이즈 제거 과정을 학습
  
  즉, 픽셀 공간에서 직접 diffusion을 돌리지 않고, latent 공간에서 더 효율적으로 학습할 수 있게 하는 두 단계 구조임.
- DiT는 diffusion 과정의 backbone을 CNN(U-Net) 대신 Transformer로 바꾼 모델임.
  Transformer는 self-attention을 통해 global context를 잘 처리하므로 모델 크기를 키워도 성능이 꾸준히 올라가는 scalability를 보장함.
  Diffusion model은 보통 대규모 데이터·대규모 파라미터 학습이 필요하므로, scalability가 곧 SOTA 성능 달성의 핵심이 됨.
  즉, DiT는 “모델 크기를 키울수록 성능이 좋아지는” 특성이 중요하게 작용함.
SiT는 DiT를 더 확장한 개념으로, continuous-time stochastic interpolant라는 수학적 프레임워크를 도입함.
- Diffusion training을 **확률적 보간 문제(interpolant problem)**로 통합적으로 설명할 수 있게 설계됨.
- 핵심 아이디어: forward process(노이즈 주입)와 reverse process(이미지 복원)를 stochastic interpolant로 해석하면, diffusion 학습을 더 일반화하고 안정적으로 최적화할 수 있다는 것임.
- 즉, SiT는 “Diffusion training을 더 수학적으로 일관된 방식으로 설명하고, 대규모 학습에서도 잘 확장되도록 만든 Transformer 기반 diffusion 모델”임.

그럼에도 불구하고, high-fidelity synthesis를 달성하기 위해서는 여전히 상당한 자원이 요구됨. 최근 masked training이나 multi-scale optimization과 같은 기법들이 계산 비용을 일부 줄이고 model convergence를 가속화하기는 하지만, 아키텍처 변화에만 의존할 경우 근본적인 optimization challenge는 여전히 존재함.

(a) Masked training paradigm

무엇을 함?
입력을 부분만 보이게(mask) 하고, 가려진 부분을 복원하도록 학습함.
Transformer/ViT 계열에서 patch 토큰의 일부만 처리하니 **per-step 연산량(FLOPs)↓**됨.
복원 과제가 안정화·정규화 역할도 함 → convergence 가속됨.
왜 ‘아키텍처 변경’이 필요함?
mask token(가려진 패치를 대체할 토큰)과 이를 처리할 전용 head/decoder가 필요해짐.
입력 토큰 수가 매 step 달라짐 → positional embedding/attention 마스킹 등 모델·코드 경로 수정 필요함.
학습 스케줄도 mask ratio 스케줄링 등으로 바뀌는 경우가 많음.
요지: 효과는 있지만, 그냥 기존 모델 그대로 쓰는 게 아니라 모델/훈련 파이프라인을 손봐야 함.

(b) Multi-scale optimization strategy

무엇을 함?
저해상도→고해상도로 점진 학습(progressive growing),
혹은 피라미드/멀티해상도 분기(coarse→fine)로 큰 구조를 먼저 학습하고 나중에 디테일을 얹음.
왜 ‘아키텍처 변경’이 필요함?
해상도별 별도 head/branch 또는 피라미드 feature 경로가 필요함.
샘플러/노이즈 스케줄도 스케일별로 관리해야 함.
VAE/patch 크기, up/down-sampling 경로 등 네트워크 구조 자체를 손대는 경우가 많음.
요지: 수렴은 빨라질 수 있지만, 멀티스케일 모듈을 얹는 구조적 변경이 수반됨.

최근 연구는 generative model이 더욱 discriminative representation을 학습할 수 있으며, representation learner로서의 잠재력을 가짐을 보여줌. 그러나 CKNNA metric으로 계량화했을 때, diffusion model의 feature는 여전히 pretrained vision model의 representation에 비해 성능이 부족함. 이러한 성능 격차는 pretrained visual encoder의 feature를 활용하여 generative model의 training convergence를 가속하려는 접근으로 이어짐.

예를 들어, REPA는 diffusion model과 foundation vision model 사이의 implicit feature-space alignment를 도입했으며(Fig. 2(a) 참조), REPA-E는 이를 확장하여 end-to-end VAE tuning을 가능하게 함. 그리고 alignment를 강화하면(즉, CKNNA score가 상승하면) generation fidelity가 직접적으로 향상됨을 정량적으로 보임.

그러나 REPA의 external alignment는 denoising inference 전 과정에서 부재하므로, discriminative information의 잠재력을 완전히 활용하는 데 한계가 있음(Fig. 2(b) 참조).

Discriminative representation ?
분류/인식에 유용한 **의미 있는 특징(semantic feature)**을 말함. 생성기(예: Diffusion)가 학습한 중간 feature에도 이런 정보가 꽤 들어 있음

Visual representation이란?

말 그대로 이미지/시각 정보로부터 얻은 표현임.
단순히 픽셀 값(저수준)이 아니라, 모델이 학습을 통해 뽑아낸 의미 있는 feature를 말함.
예시:
- CNN의 feature map (edge, texture, shape 등)
- Vision Transformer(ViT)의 class token (이미지 전체 의미를 요약한 토큰)
- DINOv2 같은 pretrained foundation model에서 뽑은 embedding

CKNNA metric ?
두 네트워크 표현의 지역적(topology) 유사성을 측정하는 정렬 지표임. 논문은 생성 모델의 dense feature와 DINOv2 등 foundation model의 feature를 비교할 때 이걸 씀. 수치가 높을수록 표현 정렬이 잘 됨을 의미함.

CKNNA (Centered Kernelized Nearest Neighbor Accuracy): representation 품질을 재는 metric 중 하나임.
아이디어:
1. feature space에서 데이터 포인트들의 위치를 보고,
2. 비슷한 class끼리 가까이 모여 있고 다른 class는 멀리 떨어져 있으면 → 좋은 discriminative representation이라고 평가함.
즉, CKNNA score가 높을수록 representation이 semantic을 잘 구분하는 것임.핵심 관찰
생성 모델의 표현도 좋아지지만, 여전히 DINOv2/CLIP 같은 pretrained vision encoder의 표현보다 약함. 이 격차가 있으니, pretrained encoder feature를 끌어와 생성 학습을 가속/안정화하려는 시도가 자연스럽게 나옴

핵심 관찰

생성 모델의 표현도 좋아지지만, 여전히 DINOv2/CLIP 같은 pretrained vision encoder의 표현보다 약함.

이 격차가 있으니, pretrained encoder feature를 끌어와 생성 학습을 가속/안정화하려는 시도가 자연스럽게 나옴

REPA가 하는 일
Denoising 중간층 feature(예: SiT의 특정 block 출력)를 pretrained 비전모델의 표현과 정렬(alignment) 시킴. 보통 cosine similarity 류의 목적을 써서, 생성 모델의 중간표현이 더 ‘분별력 있는 표현’ 쪽으로 끌리게 함

효과
이렇게 alignment을 강화하면 **CKNNA 점수↑ → FID 등 생성 품질↑**로 이어짐을 정량적으로 보임.
즉 표현 품질 개선이 생성 품질 개선으로 연결됨을 데이터로 확인함

REPA-E: end-to-end VAE tuning까지 확장

REPA 아이디어를 VAE까지 함께 finetuning하도록 넓힘. LDM/SiT 파이프라인에서 VAE는 latent ↔ pixel을 잇는 허리임.
여기를 엔드투엔드로 맞춰주면 latent 공간 자체가 분별력 있는 표현과 더 잘 맞물림
feature alignment을 더 강하게, 더 넓은 경로에 걸쳐 수행하니 생성 품질도 더 개선됨을 보였다는 맥락

하지만 REPA의 external alignment는 inference 때는 ‘없음’ → 한계

왜 ‘external’이 문제임?
REPA의 alignment 신호는 학습 중에만 들어옴. **실제 샘플링(inference) 때는 그 외부 기준(feature/loss)**이 작동하지 않음. 즉, 학습 때 밀어주던 discriminative guidance가 샘플링 단계에서는 사라짐
어떤 한계가 생김?
모델이 샘플링 동안 스스로 의미 정보를 재구성하고 그걸 이용해 이미지를 더 좋게 끌고 가는 능력이 약해질 수 있음. 결국 discriminative 지식의 잠재력을 전 과정에서 완전히 활용하지 못함.
논문 관점 요약
그래서 저자들은 “alignment를 학습 때만 걸지 말고, 샘플링 경로 속으로 직접 넣자”는 발상으로 REG를 제안함(entanglement: latent + class token 동시 노이즈 주입/복원). 이렇게 하면 학습–추론 내내 discriminative guidance가 연속적으로 유지됨

이러한 한계를 해결하기 위해, 본 연구는 Representation Entanglement for Generation (REG)라는 간단한 방법을 제안함.

REG는 discriminative information을 생성 과정으로 직접적으로 재흐름(reflow)시켜 그 잠재력을 극대화하는 효율적인 프레임워크임(Fig. 2(c) 참조).

REG는 pretrained foundation model의 단일 high-level class token을 low-level image latent와 entangle하여, 두 representation 모두에 동기화된 noise injection을 적용하고 spatial concatenation을 통해 학습함.
denoising inference 과정에서는 pure noise initialization으로부터 image latent와 그에 대응하는 global semantic을 동시에 복원하며, 획득된 semantic knowledge가 image generation을 적극적으로 guide하고 향상시킴(Fig. 2(d) 참조).
REG는 generation quality, training convergence 속도, 그리고 discriminative semantic learning에서 두드러진 향상을 달성하며, 단 하나의 token 추가만으로 computational cost는 0.5% 미만 증가함(Tab. 4 참조).
특히, ImageNet 256×256 class-conditional benchmark에서, SiT-XL/2 + REG는 SiT-XL/2 및 SiT-XL/2 + REPA 대비 각각 63배와 23배 더 빠른 training convergence를 보여줌(Fig. 2(e) 참조). 주목할 만한 점은, 단지 400K iteration만 학습된 SiT-L/2 + REG가 4M iteration 학습된 SiT-XL/2 + REPA보다 성능이 뛰어남(Tab. 1 참조).

요약하면, 본 논문의 주요 기여는 다음과 같음:

REG라는 효율적 프레임워크를 제안함. 이는 pretrained foundation model의 단일 high-level class token을 low-level image latent와 entangle하여 denoising에 사용함.
REG는 generation quality, training convergence 속도, discriminative semantic learning을 크게 향상시키며, negligible한 computational overhead만을 도입함.
ImageNet benchmark에서 REG는 SiT 및 REPA 대비 각각 63배, 23배 더 빠른 training convergence를 달성함.

1) pretrained foundation model의 단일 high-level class token

Foundation model: CLIP, DINOv2, ViT 같은 대규모 vision model을 말함. 엄청 큰 데이터로 미리 학습(pretrained)되어 있어서, 일반적인 시각적 표현을 잘 배움.
Class token: Transformer 계열 vision model (예: ViT)에서는 이미지 patch 토큰들을 self-attention에 넣을 때, 맨 앞에 special token(=CLS, class token)을 추가함. 이 토큰은 self-attention을 거치면서 이미지 전체 정보를 요약하는 역할을 함.
High-level이라는 말은: 이 class token이 local pixel-level 디테일이 아니라 global semantic(예: “고양이”, “비행기”) 같은 상위 의미를 담고 있다는 뜻임.
정리: “단일 high-level class token” = 이미지 전체를 대표하는 하나의 전역 의미 벡터

2) Noise injection

Diffusion은 점진적으로 노이즈를 제거하는 복원 과정임.
학습할 때는 **원본 표현(latent, class token)**에 노이즈를 추가(injection)해서 망가뜨린 후, 그걸 원래대로 복원하는 법을 학습함.
이때 α_t,σ_t 라는 시간 스케줄을 따라 같은 강도의 노이즈를 주입하면, latent와 class token이 같은 timeline에서 같이 더럽혀졌다가 같이 복원됨.
정리: Noise injection = latent와 class token을 같은 정도로 망가뜨려서 “공동 복원” 경로를 학습하는 것

3) Spatial concatenation

Transformer는 입력을 토큰 시퀀스로 받음.
Image latent는 patchify하면 N개의 spatial 토큰이 됨 (위치 정보 있는 토큰들).
Class token은 하나짜리 전역 토큰임.
이 둘을 그냥 연결(concat) 해서 시퀀스 [cls; z_1; z_2; …; z_N]을 만들면, self-attention 안에서 class token이 모든 spatial 토큰과 정보를 주고받음.
“Spatial concatenation” → Spatial 토큰들(N개) 앞에 class token을 붙여서, 같은 공간 시퀀스로 취급하게 하는 것을 의미함.
효과: class token이 global semantic을 spatial 토큰에 뿌려주고, spatial 토큰의 디테일도 class token으로 요약되어 semantic이 계속 보존됨.

Semantic representation = 단순히 색, 모양, 픽셀 값 같은 저수준(low-level feature)이 아니라, “의미(semantic)”와 관련된 정보를 담은 표현.

예: “이 벡터는 고양이, 저건 강아지”처럼 클래스/의미 단위로 구분되는 정보를 반영함.
Low-level feature: edge, texture, 색상 패턴 같은 로컬 정보.
High-level semantic representation: “이건 고양이”, “바닷가 풍경”, “비행기가 날아간다” 같은 의미 단위 요약.
Vision Transformer의 class token이나, CLIP의 text-image embedding 같은 게 대표적인 semantic representation임.

2. Related work

Generative models for image generation.
전통적 접근법인 DDPM과 DDIM은 pixel space에서 iterative noise removal을 수행함.

반면, LDM은 pretrained autoencoder를 통해 압축된 latent space에서 작동함.

아키텍처 측면에서, 초기 U-Net 기반 diffusion model은 iterative denoising에 의존했으나, 최근 transformer 기반 프레임워크인 DiT와 SiT는 self-attention 메커니즘을 활용하여 더 뛰어난 spatial pattern modeling을 달성함.

이러한 발전에도 불구하고 기존 방법들은 convergence에 도달하기 위해 여전히 광범위한 training iteration을 요구함. 현재 acceleration technique들은 보통 masked training paradigm이나 multi-scale optimization strategy와 같이 상당한 아키텍처 변경을 필요로 함.

반면, REG는 denoising에서 단 하나의 token만 추가하여 generation quality와 training efficiency를 동시에 향상시키며, inference overhead는 거의 발생하지 않음. 중요한 점은, REG는 원래의 model architecture를 유지하면서 superior한 training dynamics를 달성할 수 있음을 보여줌.

Generative models as representation learners.

(생성 모델이 단순히 이미지 만드는 기계가 아니라, 좋은 ‘표현(embedding)’도 배운다는 얘기)

본질적으로 rich semantic representation을 담고 있으며, semantic segmentation, depth estimation, controllable image editing과 같은 다양한 vision task에서 discriminative capability를 입증했음을 보여줌.

최근에는 RepFusion의 dynamic timestep optimization이나
DreamTeacher의 cross-model feature distillation처럼 diffusion model에서 효율적 network로의 knowledge transfer paradigm도 발전함.
특히 DDAE는 향상된 diffusion model이 더 높은 품질의 representation을 제공한다는 것을 확인
- >generation capability와 representation learning 성능 간의 직접적인 상관관계를 확립함.

이러한 통찰을 기반으로, 본 연구는 discriminative representation을 generative forward process에 체계적으로 통합하여 denoising inference 전 과정에서 persistent한 discriminative guidance를 가능하게 함.

이 논문(REG)의 관점

이런 통찰을 바탕으로, “생성기 안에 있는 분별적(discriminative) 표현을 그냥 버리지 말고, forward process(노이즈 넣고 복원하는 과정) 안에 체계적으로 통합하자”는 아이디어를 씀.
그 결과, denoising inference 전 과정에서 의미 정보가 끊기지 않고 지속적(persistent)으로 가이드 역할을 하게 함.

Generative models with external representations.

이건 “생성 모델을 보조하는 다른 표현(external representation)을 붙여서 강화한다”는 얘기임.

이전 연구는 diffusion model을 auxiliary component로 보강하는 방식을 탐구함.
- 기존 diffusion 모델에 다른 네트워크/모델을 덧붙여서 더 똑똑하게 만드는 방식임.
예를 들어, RCG는 unconditional generation에서 adaLN-condition을 위해 class token을 생성하는 secondary diffusion model을 활용함.
- RCG라는 방법은 unconditional generation(=조건 없이 이미지 생성)에서 adaLN-condition이라는 conditioning 기법을 씀.
  이때 필요한 class token을 직접 diffusion 모델 안에서 만드는 게 아니라, secondary diffusion model(보조 생성 모델)을 따로 둬서 만들어냄.
  즉, “원본 diffusion 모델 + class token을 공급하는 또 다른 diffusion 모델” 구조로 동작함.

반면, 우리의 접근은 단일 class token을 입력의 일부로 활용하여 discriminative guidance를 제공함으로써 추가 model이 필요하지 않음. 이로써 discriminative semantic learning과 conditional generation 성능을 동시에 향상시킴.

최근 발전에서는 foundation model의 visual representation을 diffusion training에 도입하여 학습을 가속함.
REPA는 diffusion model의 early layer와 pretrained vision feature 간의 feature alignment를 통해 semantic representation의 품질을 향상시켰으며,
REPA-E는 end-to-end VAE tuning을 가능하게 하여 이를 확장함.
그러나 이러한 방법들은 denoising inference 동안 활성화되지 않는 external alignment 메커니즘에 의존하기 때문에 discriminative representation을 충분히 활용하는 데 근본적인 한계가 존재함.
다만 기존 방식(REPA, REPA-E)은 학습할 때만 alignment를 쓰고, 추론할 때는 representation 신호가 사라짐 → 한계 발생.

본 논문에서 제안하는 REG는 spatial visual representation과 foundation model에서 파생된 semantic class embedding을 구조적으로 통합함.

이 아키텍처적 설계를 통해 denoising phase는 localized pattern restoration과 holistic conceptual representation을 동시에 정제할 수 있으며, generative process 전체에서 지속되는 context-aware semantic steering을 확립함.

1) Representation의 큰 두 축

Generative representation: “데이터를 복원하거나 새로 생성하는 데” 유용한 표현. 예: Diffusion latent, VAE latent.
Discriminative representation: “데이터를 구분하고 분류하는 데” 유용한 표현. 예: 분류기(classifier)가 쓰는 feature
- 데이터 속 의미적 차이(semantic difference)를 잘 잡아내는 표현을 말함.
  쉽게 말해, 고양이 vs 개 vs 자동차를 명확히 나눌 수 있는 feature.
  이런 표현은 classification, detection, segmentation 같은 인식(task)에 필요함.
- 예시로 비교
  픽셀 값(저수준 표현): 그냥 색과 밝기 숫자 → “고양이인지 개인지” 구별 못 함.
  Discriminative representation: 같은 class끼리는 가깝고, 다른 class는 멀리 떨어지는 embedding.
  - 예: CLIP의 image embedding, DINOv2 class token.
  - 이 표현은 linear classifier 하나만 얹어도 높은 정확도가 나옴.

논문 문맥 속 의미

Diffusion model도 중간 feature에 나름 semantic 정보가 들어 있지만,
CKNNA metric으로 보면 여전히 pretrained vision model(DINOv2, CLIP 등)의 discriminative representation보다는 약함.
그래서 연구자들이 pretrained discriminative representation(예: foundation model의 class token)을 가져와 diffusion latent랑 엮어서 학습을 가속시키는 접근을 씀.
요약
- Discriminative representation = 데이터를 잘 “구별(discriminate)”할 수 있게 해주는 feature
- 주로 classification/segmentation에 적합한 표현.
- pretrained vision model(예: DINOv2)이 가진 표현이 대표적이고, diffusion model은 이런 걸 흡수하면 학습/생성 품질이 개선됨.

1) Holistic conceptual representation

Holistic = 부분이 아니라 전체를 본다는 뜻.
Conceptual representation = 단순히 픽셀/로컬 패턴이 아니라, **‘이 이미지가 무엇을 의미하는지’**를 요약한 표현. (예: “이건 고양이가 앉아있는 사진”, “비행기가 날아가는 장면”)
따라서 holistic conceptual representation은:
- 이미지 전체 차원의 의미 요약 표현임.
- 로컬 패턴(edge, texture)만이 아니라, 전역적이고 상위 개념(class-level semantic)을 담음.
REG에서는 이 역할을 foundation model의 class token이 담당함 → 즉, global semantic vector를 통해 “전체 개념 수준에서” 이미지를 설명함.

2) Context-aware semantic steering

Steering = 조향, 방향을 잡아주는 것.
Semantic steering = 생성 과정에서 이미지가 의미적으로 일관되게 가도록 유도하는 것. (예: “개”를 그리기로 했으면 고양이 쪽으로 안 새고, 끝까지 개로 남게 하는 것)
Context-aware = 단순히 class label만 주는 게 아니라, **생성 중간의 맥락(context)**을 고려해 계속 조율한다는 뜻.
따라서 context-aware semantic steering은:
- denoising step마다 현재 이미지 상태 + global semantic vector를 함께 보면서,
- 매 순간 semantic이 유지되도록 방향을 계속 잡아주는 과정임.
REG에서는 class token이 spatial latent랑 같은 스케줄로 noise injection → concat → self-attention을 타기 때문에, 매 step에서 semantic이 살아 있고 context-aware하게 작동함.

3) 인용된 문장 해설

본 논문에서 제안하는 REG는 spatial visual representation과 foundation model에서 파생된 semantic class embedding을 구조적으로 통합함.
이 아키텍처적 설계를 통해 denoising phase는 localized pattern restoration과 holistic conceptual representation을 동시에 정제할 수 있으며, generative process 전체에서 지속되는 context-aware semantic steering을 확립함.

Spatial visual representation = VAE latent → 이미지의 로컬 패턴(edge, texture, 지역적 구조).
Semantic class embedding = pretrained foundation model의 class token → 이미지 전체 의미 요약.
REG는 둘을 하나의 Transformer 시퀀스로 묶어 학습함.
그래서 denoising 과정에서:
- 로컬 차원에서는 localized pattern restoration(작은 디테일 복원),
- 전역 차원에서는 holistic conceptual representation(전체 개념적 일관성 유지),
- 동시에 이루어짐.
그리고 이 class token이 매 step self-attention을 통해 참여하므로, 생성 내내 semantic steering이 context-aware하게 지속됨 → 즉, 매 순간 semantic이 계속 방향을 잡아줌.

결론

REG는 local detail + global meaning을 동시에 다루고, 그 의미 정보가 추론 전 과정에 살아있어 더 안정적이고 의미 일관적인 이미지 생성이 가능해짐.

3. Method

우리는 REG라는 효율적 프레임워크를 제안함. 이는 image latent와 foundation model의 class token을 entangle시켜 discriminative guidance를 제공함(Fig. 2(c, d) 참조).

Section 3.1에서는 preliminaries를 다루고, Section 3.2에서는 REG의 세부 내용을 설명함.

3.1 Preliminaries

본 연구는 Scalable Interpolant Transformer (SiT)에 기반하며, 이는 flow와 diffusion model을 이해하기 위한 통합적 관점을 제공함. 관련 preliminaries를 먼저 소개함.

Flow와 diffusion model 모두 stochastic process를 활용하여 Gaussian noise ϵ ~ N(0, I)를 점차 data sample x*로 변환함.

이 과정은 다음과 같이 통합될 수 있음:

xt=αtx∗+σtϵ,(1)

\(x_t = \alpha_t x^* + \sigma_t \epsilon, \quad (1)\)

여기서 α_t는 감소 함수(decreasing)이고 σ_t는 시간 t에 따른 증가 함수(increasing function)임.

Flow-based model은 유한 구간 finite interval에서 noise와 data를 interpolate하는 반면, diffusion model은 t→∞일 때 Gaussian 분포로 수렴하는 forward stochastic differential equation (SDE)을 정의함.

이러한 model에서 sampling은 reverse-time SDE 또는 probability flow ODE를 통해 가능하며, 둘 다 xt에 대해 동일한 marginal distribution을 제공함. Probability flow ODE는 다음과 같음:

x˙t=v(xt,t),(2)

\(\dot{x}_t = v(x_t, t), \quad (2)\)

여기서 velocity field v(x, t)는 conditional expectation으로 표현될 수 있음:

v(x,t)=E[x˙t∣xt=x]=α˙tE[x∗∣xt=x]+σ˙tE[ϵ∣xt=x].(3)

\(v(x,t) = \mathbb{E}[\dot{x}_t | x_t=x] = \dot{\alpha}_t \mathbb{E}[x^*|x_t=x] + \dot{\sigma}_t \mathbb{E}[\epsilon|x_t=x]. \quad (3)\)

데이터를 합성하려면 Eqn.(3)을 reverse time으로 적분하며, 초기값 X_T=ϵ (ϵ~N(0, I))에서 시작함.

이는 p0(x) 샘플을 생성하며, 실제 데이터 분포 p(x)에 대한 근사로 작동함.

이 velocity는 vθ(xt, t)로 근사되며, 다음 loss function을 최소화하도록 학습됨:

Lv(θ)=∫0T E[∥vθ(xt,t)−α˙tx∗−σ˙tϵ∥2]dt.(4)

\(L_v(\theta) = \int_0^T \mathbb{E}\big[\|v_\theta(x_t,t) - \dot{\alpha}_t x^* - \dot{\sigma}_t \epsilon\|^2\big] dt. \quad (4)\)

Reverse-time SDE는 시간 t에서 xt의 확률분포 pt(x)를 설명할 수 있으며:

dxt=v(xt,t)dt−12wts(xt,t)dt+wtdWt,(5)

\(dx_t = v(x_t,t)dt - \tfrac{1}{2} w_t s(x_t,t) dt + \sqrt{w_t} dW_t, \quad (5)\)

여기서 s(x,t)는 conditional expectation을 통해 계산됨:

s(xt,t)=−σt−1E[ϵ∣xt=x].(6)

\(s(x_t,t) = -\sigma_t^{-1} \mathbb{E}[\epsilon | x_t = x]. \quad (6)\)

score는 velocity v(x,t)로 재구성 가능함:

s(x,t)=σt−1⋅αtv(x,t)−α˙txαtσ˙t−α˙tσt.(7)

\(s(x,t) = \sigma_t^{-1}\cdot \alpha_t v(x,t) - \frac{\dot{\alpha}_t x}{\alpha_t \dot{\sigma}_t - \dot{\alpha}_t \sigma_t}. \quad (7)\)

따라서 velocity field v(x,t)를 학습하면, SDE sampling에서 score s(x,t)를 계산할 수 있음.

3.2 Representation Entanglement for Generation

REG training process.
입력 이미지 I가 주어지면, VAE encoder를 통해 latent \(z_0 = E_z(I) \in \mathbb{R}^{c_z \times c_z \times L}\)을 얻고, vision foundation encoder \(E_{VF}\) (예: DINOv2)를 통해 image feature \(f_0 = E_{VF}(I) \in \mathbb{R}^{N \times D_{vf}}\) 를 얻음.

여기서 \(c_z \times c_z\) : latent의 spatial size
L : channel depth
N : visual token의 개수
\(D_{vf}\) : \(E_{VF}\) 의 embedding dimension을 의미

REPA의 문제는 external alignment가 denoising inference 전 과정에서 부재하다는 점으로, discriminative information의 잠재력을 충분히 활용하지 못함.

이를 해결하기 위해, vision foundation model에서 나온 class token \(cls_0 = f_0[0] \in \mathbb{R}^{1 \times D_{vf}}\) 를 image latent와 entangle시켜 discriminative guidance를 제공함.

구체적으로는, class token과 image latent 모두에 noise를 주입하여 SiT forward process의 입력으로 사용함.

즉, 두 Gaussian noise 샘플 \(\epsilon_z \sim \mathcal{N}(0,I), \epsilon_{cls} \sim \mathcal{N}(0,I)\) 를 받아, continuous time t∈[0,1] 에서 interpolation을 수행함:

zt=αtz0+σtϵz,clst=αtcls0+σtϵcls.(8)

\(z_t = \alpha_t z_0 + \sigma_t \epsilon_z, \quad cls_t = \alpha_t cls_0 + \sigma_t \epsilon_{cls}. \quad (8)\)

이로써 intermediate state \(z_t\) (noised latent)와 \(cls_t \)(noised class token)이 정의됨.

여기서 \(\alpha_t, \sigma_t\)는 generation trajectory를 제어함. 이후 z_t는 patchify되어 \(z'_t \in \mathbb{R}^{N \times D_z}\)로 변환되고, class token cls_t는 linear layer를 통해 동일 embedding space로 사영되어 \(cls'_t \in \mathbb{R}^{1 \times D_z}\)를 얻음.

마지막으로 이를 concat하여 \(x_t = [cls'_t; z'_t] \in \mathbb{R}^{(N+1) \times D_z}\)를 만들고, 이는 이후 SiT block의 입력으로 사용됨.

Alignment는 특정 transformer layer n에서 수행되며, SiT-B/2 + REG에서는 n=4, 그 외 변형에서는 n=8로 REPA와 일관성을 유지함.

구체적으로, projected hidden state feature \(h_\phi(H_t^{[n]})\)를 reference representation \(F_0 = [f_0; cls_0] \in \mathbb{R}^{(N+1) \times D_z}\)와 align시킴.

여기서 \(H_t^{[n]} = E_\theta(x_t^{[n]})\)는 n번째 transformer block의 출력이고, \(h_\phi\)는 학습 가능한 MLP projection임. cosine similarity sim(⋅,⋅) 을 사용하여 alignment loss를 정의함:

LREPA(θ,ϕ):=−Ext,ϵ,t[sim(F0,hϕ(Ht[n]))].(9)

\(L_{REPA}(\theta,\phi) := -\mathbb{E}_{x_t,\epsilon,t}[ sim(F_0, h_\phi(H_t^{[n]})) ]. \quad (9)\)

또한 training objective에는 noised image latent \(z_t\)와 class token \(ccls_t\)의 velocity prediction도 포함됨.

Prediction loss는 다음과 같음:

Lpred=∫E[∥v(zt,t)−α˙tz0−σ˙tϵz∥2+β∥v(clst,t)−α˙tcls0−σ˙tϵcls∥2]dt,(10)

\(L_{pred} = \int \mathbb{E}\big[\|v(z_t,t) - \dot{\alpha}_t z_0 - \dot{\sigma}_t \epsilon_z\|^2 + \beta \|v(cls_t,t) - \dot{\alpha}_t cls_0 - \dot{\sigma}_t \epsilon_{cls}\|^2 \big] dt, \quad (10)\)

여기서 v(⋅,t) 는 velocity prediction function, β>0 는 image latent와 class token denoising objective 간의 상대적 가중치를 제어함.

최종 training loss는 prediction과 alignment objective를 통합하며, λ>0 가 alignment loss의 비중을 제어함:

Ltotal=Lpred+λLREPA.(11)

\(L_{total} = L_{pred} + \lambda L_{REPA}. \quad (11)\)

REG inference process.
REG는 class token 생성을 위해 auxiliary network를 필요로 하지 않음.

Model은 pure noise initialization으로부터 image latent와 그에 대응하는 global semantic을 동시에 복원함.

이때 획득된 semantic knowledge가 generation quality를 적극적으로 guide하고 강화함.

REG의 장점은 세 가지임:

Discriminative information의 완전한 활용.
REG는 discriminative information을 학습 입력 단계에서 직접 통합하므로, inference 시에도 지속적으로 semantic guidance를 제공할 수 있음. 이는 inference에서 external alignment가 사라지는 REPA의 한계를 해결함.
Minimal computational overhead.
단 하나의 global class token만 추가되므로 FLOPs와 latency는 256×256 해상도에서 0.5% 미만 증가함(Tab. 4 참조).
Enhanced performance across metrics.
REG는 generation fidelity, training convergence, discriminative semantic learning에서 superior한 성능을 달성함.
Fig. 2(e)에서 보듯이, REG는 REPA와 SiT 대비 최대 23배, 63배 빠른 FID convergence를 보이며 training 시간을 크게 단축함. 또한 Fig. 3에서 모든 training step, network layer, timestep에서 더 높은 CKNNA score를 유지함

4 Experiments

이 섹션에서는 REG의 효과성과 scalability를 종합적으로 검증하기 위해 세 가지 핵심 연구 질문을 탐구함:

Model performance. REG가 training convergence를 가속화하면서 동시에 generation quality를 향상시킬 수 있는가? (Sec. 4.2)
Ablation analysis. REG의 다양한 설계 및 hyperparameter의 효과는 어떠한가? (Sec. 4.3)
Discriminative semantics. REG가 generative model의 discriminative semantic을 향상시킬 수 있는가? (Sec. 4.4)

4.1 Setup

Implementation details.
우리는 SiT와 REPA의 standard training protocol을 엄격히 따름.

실험은 ImageNet dataset에서 수행되며, 모든 이미지는 ADM framework를 따라 center cropping과 resizing을 통해 256×256 해상도로 전처리됨.
각 이미지는 Stable Diffusion VAE를 사용하여 latent representation z∈R32×32×4로 인코딩됨.
Model architecture B/2, L/2, XL/2 (2×2 patch 처리 포함)는 SiT 스펙을 따름.
비교 가능성을 위해 batch size는 256으로 고정하고, learning rate 및 EMA 설정도 REPA와 동일하게 유지함.

추가 구현 세부 사항은 Appendix에 제공됨.

Evaluation protocol.
Image generation quality를 다각도로 평가하기 위해 정량적 metric을 사용함.

여기에는 realism을 평가하는 Fréchet Inception Distance (FID), spatial coherence를 평가하는 structural FID (sFID), class-conditional diversity를 측정하는 Inception Score (IS), sample fidelity를 측정하는 precision (Prec.), target distribution coverage를 평가하는 recall (Rec.)이 포함됨.

모든 metric은 50K generated sample을 기준으로 계산하여 통계적 신뢰성을 확보함.

추가로 feature-space characteristic 분석을 위해 CKNNA도 포함함.

Sampling은 REPA와 동일하게 SDE Euler–Maruyama solver (250 step)를 사용함.

전체 평가 protocol은 Appendix에 제공됨.

4.2 Improving the performance of generative models

Accelerating training convergence.
Tab. 1은 ImageNet 256×256에서 REG, SiT, REPA를 다양한 model scale에서 비교한 결과임 (CFG 없이).

REG framework는 모든 configuration에서 가장 낮은 FID를 달성하며, training을 현저히 가속화함.

For smaller models, SiT-B/2 + REG가 SiT-B/2 + REPA보다 9.2 FID point 더 낮고, 400K step 학습된 SiT-L/2보다도 3.6 point 더 우수함.
In the large-scale models, SiT-L/2 + REG가 400K step에서 FID 4.6을 기록하며, 4M step 학습된 SiT-XL/2 + REPA보다 1.3 point, 7M step 학습된 SiT-XL/2보다 3.7 point 더 뛰어남. 이때 학습 비용은 각각의 10.0%, 5.71%에 불과함.
또한 SiT-XL/2 + REG는 110K step과 170K step에서 각각 SiT-XL/2 (7M step), REPA-XL/2 (4M step)와 유사한 성능을 달성하며, 이는 63배 및 23배 빠른 convergence를 의미함(Fig. 2(e)).
1M step에서는 REG가 FID 2.7이라는 기록적인 결과를 달성하여, model size 전반에서 scalability와 efficiency를 입증함.

Comparison with SOTA methods.
Tab. 2는 classifier-free guidance를 사용하는 최신 SOTA method와의 비교를 보여줌.

REG는 REPA와 동일한 guidance interval을 사용하면서도 훨씬 적은 training cost로 competitive한 성능을 달성함.

REG는 단 80 epoch 만에 SiT-XL의 1400 epoch 성능을 달성하며 (17배 빠름),
480 epoch에서 REPA의 800 epoch 성능을 능가함.

이는 REG의 뛰어난 training efficiency와 convergence 특성을 보여줌. Appendix에는 더 많은 training step에 대한 추가 실험 결과가 제공되며, REG의 robustness, scalability, cross-task generalization을 검증함.

'Guidance interval' : Classifier-Free Guidance (CFG)를 디퓨전 모델의 전체 노이즈 제거 과정 중 어느 특정 '구간(interval)'에만 적용하는 기법**을 의미

1. Classifier-Free Guidance (CFG)란?
    *   디퓨전 모델이 이미지를 생성할 때, 우리가 원하는 조건(예: "고양이"라는 클래스 레이블)을 더 잘 따르도록 유도(guidance)하는 기술입니다.
    *   이를 통해 생성되는 이미지의 품질과 조건에 대한 부합도를 크게 향상시킬 수 있습니다. CFG의 강도는 'guidance scale (w)'이라는 값으로 조절하며, 값이 클수록 조건을 더 강하게 따릅니다.

2. Guidance Interval의 등장 배경
    *   기존에는 CFG를 노이즈 제거의 처음부터 끝까지, 즉 모든 타임스텝(timestep)에 걸쳐 적용했습니다.
    *   하지만 연구([54] 논문)를 통해, CFG를 전체 과정에 강하게 적용하면 오히려 이미지의 다양성이 떨어지거나 부자연스러운 결과물이 나올 수 있다는 점이 밝혀졌습니다.
    *   특히 노이즈가 거의 다 제거된 마지막 단계에서는 CFG가 오히려 미세한 디테일을 해칠 수 있습니다.

3. Guidance Interval의 작동 방식
    *   'Guidance Interval'은 이러한 문제를 해결하기 위해 제안되었습니다. 전체 노이즈 제거 과정(예: 0% ~ 100%) 중 **특정 구간, 예를 들어 처음 85%까지만 CFG를 적용**하고, 나머지 15% 구간에서는 CFG를 끄는 방식입니다.
    *   초기 단계에서는 CFG로 이미지의 전반적인 구조와 정체성(예: "이것은 고양이")을 확실히 잡도록 유도하고, 후기 단계에서는 모델이 자연스럽게 미세한 질감이나 디테일을 완성하도록 자유를 주는 것입니다.

**이 논문에서는 어떻게 사용되었나요?**

논문의 **15페이지에 있는 Table 9**를 보시면 'Interval'이라는 컬럼이 있습니다.

*   `SiT-XL/2 [2]` 모델은 Interval이 `[0, 1]`로 되어 있는데, 이는 전통적인 방식처럼 노이즈 제거의 전 과정(100%)에 걸쳐 CFG를 적용했다는 의미입니다.
*   반면 `+ REG (ours)` 모델들은 `[0, 0.8]`, `[0, 0.85]`, `[0, 0.9]` 와 같은 다양한 구간을 테스트합니다. 예를 들어 `[0, 0.85]`는 **전체 노이즈 제거 과정 중 처음 85%에 해당하는 구간에만 CFG를 적용**했다는 뜻입니다.

결과적으로 이 논문에서는 `[0, 0.85]` 구간을 사용했을 때 FID 점수 1.40으로 가장 좋은 성능을 보였습니다. 이는 CFG를 전체가 아닌 특정 구간에만 적용하는 것이 이미지 품질 향상에 더 효과적임을 보여주는 결과입니다.

4.3 Ablation Studies

Different discriminative guidance.
pretrained vision encoder와 그 encoder의 class token을 target representation으로 사용할 때의 영향을 Tab. 3에서 체계적으로 조사함.

모든 설정 중 DINOv2-B가 가장 낮은 FID(15.22)와 가장 높은 IS(94.64)를 달성함. 주목할 점은, 평가된 모든 target representation이 일관되게 REPA를 surpass상회하며, self-supervised model에서 유도된 class token이 generation fidelity를 향상시킨다는 실증적 근거를 제공함.

Alignment depth.
Tab. 3에서, 서로 다른 network depth에서 REPA loss를 적용했을 때의 효과를 비교함.

분석 결과, 더 이른 layer에서 loss를 적용하는 것이 우수한 성능을 보이며, 이는 REPA의 관찰과 일치함. 특히 우리의 방법은 모든 설정에서 REPA 대비 일관된 개선을 보였으며, FID를 4.19에서 7.16 point까지 낮춤.

이러한 이득은 class token을 직접 삽입하여 모든 layer에 discrete global guidance를 제공하는 데 기인한다고 봄. 이는 network 전반에서 discriminative semantics의 adaptive integration을 가능하게 함.

반대로 REPA의 간접적 supervision 메커니즘에서는 선택된 feature만 target representation과 align되므로, REG는 남은 layer들이 REPA보다 더 풍부한 high-frequency detail을 포착하게 하여 관측된 개선에 기여함.

REPA 같은 방법은 “diffusion 네트워크의 특정 layer feature”와 “pretrained vision model feature”를 align(정렬, 맞추기)하는 loss를 씀.
그런데 이 loss를 어느 깊이(layer depth)에서 적용하느냐에 따라 효과가 달라짐.
- Early layer: 네트워크 앞부분(입력 가까움 → edge, texture 등 저수준 feature).
- Middle/late layer: 네트워크 뒷부분(의미적, semantic 정보).
Alignment depth란 = “이 loss를 네트워크 몇 번째 layer에 두는지”를 의미함.

2) 실험 결과 (Tab. 3 요약)

더 이른 layer(early layer)에서 alignment loss 적용 → 성능 더 좋음.
이유:
- early feature부터 semantic representation을 잡아주면, 뒤로 갈수록 쌓이는 모든 과정에서 semantic 정보가 지속적으로 반영됨.
- late layer에서만 align하면 앞쪽 feature는 의미 정보가 약해서 전체 모델이 semantic을 충분히 활용 못함.
이건 기존 REPA 논문 관찰과도 일치함.

3) REG와 REPA 차이

REG
- class token을 아예 네트워크 입력 시퀀스에 삽입해서, 모든 layer에서 global semantic 토큰이 self-attention에 참여함.
- 즉, discrete(명시적이고 구체적인) global guidance가 전 layer에 걸쳐 제공됨.
- 결과: discriminative semantics가 네트워크 전반에 자연스럽게 녹아들고(adaptive integration), local detail과 global semantic을 동시에 잘 학습함.
REPA
- 특정 feature만 pretrained representation에 맞추는 간접적인 supervision 방식임.
- 즉, alignment가 걸린 layer feature만 semantic에 제약을 받고, 나머지 layer는 자유롭게 돌아감.
- 그러다 보니 global semantic 정보가 네트워크 전체에 고르게 퍼지지 않고, 일부 layer에만 반영됨.

Effect of β.
Tab. 3은 class token denoising objective의 기여도를 조절하는 loss weight β의 영향을 체계적으로 평가함. 실험된 값들 가운데 β=0.03이 모든 평가 metric에서 전반적으로 최적 성능을 달성함. 따라서 이후 모든 실험의 기본값으로 채택함.

REG에서는 loss가 두 부분으로 나눠짐:
1. latent denoising objective (이미지 latent를 원래대로 복원하는 손실)
2. class token denoising objective (foundation model에서 가져온 class token도 노이즈 제거하도록 학습하는 손실)
여기서 β는 class token 쪽 손실 비중을 얼마나 줄 것인가를 조절하는 하이퍼파라미터(weight)임.

Entanglement signal variants.

Tab. 5는 concatenation operation을 통해 서로 다른 entanglement signal이 generation quality에 미치는 영향을 체계적으로 평가함.

REG의 핵심 아이디어는 image latent + semantic token을 concat(붙여서) 같이 학습하는 것.
그런데 어떤 신호를 concat하느냐에 따라 성능이 달라짐 → 이걸 실험한 게 Tab. 5임.
noised latent feature에 learnable token을 concat하거나 latent feature의 평균을 concat하는 경우의 개선은 제한적이었으며, 이는 풍부한 discriminative semantics의 부재에 기인한다고 봄.
반면, discriminative signal을 도입하면 큰 이득이 발생함: 평균 DINOv2 feature를 결합하면 FID가 16.86으로 유의미하게 감소하고, DINOv2 class token은 최상의 성능을 보이며 FID를 9.18 낮추고 IS를 94.64로 끌어올림.

비교한 경우들

Learnable token concat
- 그냥 랜덤 초기화된 학습 가능한 토큰 하나 붙임.
- 성능 개선 거의 없음 → semantic 정보가 없어서.
Latent feature 평균 concat
- latent feature 전체 평균 벡터를 붙임.
- 약간 나아지지만 큰 효과는 없음 → global semantic 정보를 담지 못해서.
Pretrained vision feature (DINOv2) 사용
- 평균 feature: pretrained DINOv2의 spatial feature 평균 → FID를 16.86까지 개선.
- Class token: pretrained DINOv2가 내놓는 global class token → 가장 좋은 결과.
  - FID를 9.18 낮춤, IS를 94.64로 끌어올림.

이 결과는 두 가지 핵심 인사이트를 제시함:

(1) high-level discriminative information(class token)은 generation quality를 실질적으로 향상시킴,단순한 토큰이나 평균 벡터보다 훨씬 효과적.
(2) entanglement methodology(어떤 신호를 어떻게 붙이느냐)가 성능 개선을 좌우함.

class token concatenation의 효율이 증명되었으며, global discriminative information이 generative latent space를 효과적으로 regularize하여 semantic과 output quality를 동시에 끌어올리면서도 computational efficiency를 유지함을 보여줌.

Effectiveness of entanglement alone.

Tab. 6은 explicit representation alignment 없이 다양한 pretrained self-supervised encoder의 class token을 SiT-B/2에 도입했을 때의 효과를 평가함.

결과적으로, class token entanglement만으로도 일관된 성능 향상이 나타났으며, 모든 변형에서 FID가 0.95~6.33 point 개선됨.

특히 DINOv2-B는 최적의 성능을 보이며, baseline SiT-B/2 대비 FID를 19.18% 낮추고 IS를 35.86% 증가시킴.

이러한 결과는 명시적 alignment가 없더라도 model이 class token의 high-level semantic guidance를 효과적으로 활용할 수 있음을 시사하며, generative modeling을 위한 class token-based entanglement의 견고함과 일반적 유용성을 부각함.

1) 실험 세팅 (Tab. 6)

목표: “꼭 REPA처럼 explicit alignment loss를 줘야 class token이 효과가 있나?”를 확인하기 위함.
방법:
- SiT-B/2 (baseline diffusion transformer) 모델에,
- 여러 종류의 pretrained self-supervised encoder(예: DINOv2, MoCo, MAE 등)에서 얻은 class token을 그냥 붙여서(entanglement) 학습시킴.
주의: 여기서는 alignment loss를 따로 안 줌 → 즉, external encoder feature와 diffusion feature를 강제로 맞추지 않음.

2) 결과

공통된 성능 향상: class token entanglement만으로도 baseline보다 FID가 0.95~6.33 포인트 낮아짐.
특히 DINOv2-B class token이 가장 효과적:
- baseline 대비 FID 19.18% 감소
- baseline 대비 IS 35.86% 증가
즉, pretrained encoder에서 뽑은 global semantic signal이 정말 강력하게 작용함.

3) 해석

중요 포인트 1: explicit alignment 불필요성
- REPA는 diffusion feature와 pretrained feature를 align시키는 별도 loss를 둠.
- 그런데 실험 결과, 굳이 explicit alignment 안 해도 class token을 latent와 entangle시키기만 해도 충분히 성능이 좋아짐.
- 이는 class token 자체가 이미 잘 구조화된 semantic representation을 담고 있어서, diffusion transformer가 이를 자연스럽게 활용할 수 있음을 보여줌.
중요 포인트 2: robustness & generality
- 어떤 self-supervised encoder(class token 출처가 달라도)든 기본적으로 도움이 됨.
- 특히 DINOv2 같은 강력한 encoder일수록 더 큰 성능 향상을 줌.
- → “class token entanglement” 방식이 encoder에 의존하지 않고 보편적으로 쓸 수 있는 방법임을 강조함.

4) 결론

이 결과는 REG 접근의 핵심 강점을 입증함:
- Alignment loss 없이도, pretrained encoder의 class token만 entangle하면 성능이 꾸준히 개선됨.
- 특히 강력한 encoder일수록 효과가 극대화됨(DINOv2-B).
따라서 class token-based entanglement는 견고(robust)하고 일반적으로 유용한(general) 방법임이 드러남.

4.4 Enhancing the discriminative semantic learning of generative models

우리는 dense feature의 discriminative semantics를 평가하기 위해 REG, SiT, REPA의 CKNNA score를 training step, network layer, timestep 전반에서 체계적으로 측정함.

공정한 비교를 위해 REPA의 evaluation protocol을 따름:

spatially averaged generative model dense feature와 averaged DINOv2-g dense feature 간의 CKNNA score를 계산하며, class token은 계산에 포함되지 않음. 주요 결과는 다음과 같음:

Training steps analysis.
Fig. 3(a)는 layer 8 (t=0.5)에서 training step 전반의 CKNNA와 FID score 간의 양의 상관관계를 보여줌.

REPA와 REG 모두 semantic alignment(높은 CKNNA)와 더 나은 generation quality(낮은 FID)를 동시에 달성함을 알 수 있음. 특히 REG는 전 과정에서 REPA보다 항상 높은 semantic alignment와 낮은 FID를 보이며, discriminative semantic guidance를 통한 superior한 학습 능력을 입증함.

Layer-wise progression.
400K training step (t=0.5)에서 Fig. 3(b)를 보면, REG와 REPA 모두 유사한 CKNNA 패턴을 보임.

semantic score는 점차 상승하다가 alignment loss가 계산되는 n=8 layer에서 정점을 찍고, 이후 점차 감소함.

→ 8번째 transformer block의 출력을 의미함.

REPA/REG 실험에서 alignment loss는 네트워크의 특정 중간 layer 출력을 잡아서 pretrained feature와 비교함.
논문에서는 “n=8 layer에서 alignment loss를 적용했다”고 했으니,
- diffusion transformer의 여러 block 중 8번째 block에서 나온 hidden representation을 pretrained encoder의 feature와 align시킨 것.
그래서 그래프에서 semantic score가 layer 8에서 peak를 찍는 것임.

1. REPA의 방식

REPA는 핵심적으로 **“특정 레이어 출력 ↔ pretrained feature”**를 맞추는 external alignment loss에 의존함.
즉, alignment 위치(예: n=8 layer)를 정해서 그 층에서만 feature space를 맞춤.
그래서 REPA는 특정 레이어 선택이 방법론의 핵심임.

2. REG의 본질

REG는 class token entanglement가 핵심임.
- pretrained foundation model의 class token을 latent와 concat → transformer 모든 레이어에서 semantic 정보가 자연스럽게 전파됨.
- 따라서 REG는 원래 특정 출력 레이어를 딱 찍어서 align할 필요 없음.
즉, REG 자체는 alignment loss 없이도 discriminative guidance를 전 과정에 공급할 수 있음.

3. 그런데 왜 논문에서 “특정 레이어(n=8)”를 언급했는가?

이유는 REPA와 공정 비교 때문임.
실험 세팅을 동일하게 맞추기 위해, alignment loss를 쓰는 경우에는 REPA와 같은 위치(n=8)에서 계산한 것.
다시 말해:
- REG 본질: alignment loss 없어도 됨 (class token entanglement만으로 충분).
- 논문 실험: REPA랑 비교하기 위해 alignment loss도 똑같은 layer에서 추가해본 것.

중요한 점은, REG가 모든 network layer에서 REPA와 SiT보다 일관되게 높은 semantic score를 달성한다는 점임.

이러한 개선은 pretrained foundation model에서 나온 high-level class token을 low-level image latent와 entangle하는 REG의 설계에서 기인함.

Attention mechanism을 통해 REG는 이러한 discriminative semantics를 효과적으로 전파하여 초기 layer에서 low-level feature 이해를 guide하고, 이후 layer에서는 high-frequency detail 예측에 집중하게 함.

Timestep robustness.
Layer 8 (400K step)에서의 timestep별 CKNNA 평가 결과, Fig. 3(c)에 나타난 것처럼 REG는 모든 timestep에서 일관되게 우수한 성능을 보임. 이는 generation 전 과정에서 stable하고 high-level semantic guidance를 유지하는 능력을 보여주며, noise 강도와 상관없이 discriminative semantic performance를 안정적으로 제공함을 의미함.

5. Conclusion

본 논문은 Representation Entanglement for Generation (REG)을 제안함.

REG는 기존의 pure image denoising pipeline 대신 image-class denoising paradigm을 처음으로 도입하여, generation에서 discriminative gain의 잠재력을 완전히 발휘할 수 있도록 하는 간단하고 효율적인 framework임.

REG는 pretrained foundation model의 단일 high-level class token을 low-level image latent와 entangle하며, 이는 synchronized noise injection과 spatial concatenation을 통해 구현됨.

Denoising 과정은 image latent와 대응되는 global semantic을 동시에 복원하며, active semantic guidance를 가능하게 하여 generation quality를 강화함.

이때 computational cost 증가는 token 하나 추가에 불과하여 negligible함.

광범위한 실험 결과, REG는 generation fidelity, training convergence, discriminative semantic learning에서 우수한 성능을 보여주며, 그 효과성과 scalability를 검증함.

오마이갓

'AI > 논문 리뷰' 카테고리의 다른 글

[논문리뷰] Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models (CVPR 2025) (0)	2025.11.19
[떠먹여주는 논문리뷰] Diffusion Transformers with Representation Autoencoders (RAE) (ICLR 2026) (0)	2025.10.18
[논문 리뷰] Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space (ICCV 2025) (5)	2025.07.25
[논문 리뷰] FoundationStereo: Zero-Shot Stereo Matching (CVPR 2025) (1)	2025.04.27
[논문 리뷰] EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling (25.02) (1)	2025.04.25

현재글[떠먹여주는 논문 리뷰] REG, Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think (NeurIPS 2025)

프로그래밍선

귀여운 뽀뿌 🐶💗🤍

streamlit, depth, 챗봇만들기, LLM, nvs, diffusion, tiled multiplane images for practical 3d photography, error, 논문리뷰, tmpi, 프로그래머스, novel view synthesis, Depth estimation, PIP, Computer Vision, Python, SGD, depth pro, cv2, 경사하강법,

Today :
Yesterday :

프로그래밍선