RAE(Representation Autoencoder) 요약Encoder: frozen pretrained representation encoder (예: DINO / SigLIP / MAE)Decoder: 그 representation을 받아서 픽셀을 복원하도록 새로 학습한(lightweight) decoderfrozen representation encoder가 만든 feature/latent를 받아서 픽셀로 복원하는 reconstruction decoder.DiT-DH는 DiT 위에 붙는 추가 headshallow-but-wide diffusion transformer head를 기존 DiT 백본(backbone) 뒤에 덧붙이는 구조. 목적은 고차원 RAE latent에서 생기는 차원 병목을 완화..