http://arxiv.org/abs/2303.07345
Erasing Concepts from Diffusion Models
Motivated by recent advancements in text-to-image diffusion, we study erasure of specific concepts from the model's weights. While Stable Diffusion has shown promise in producing explicit or realistic artwork, it has raised concerns regarding its potential
arxiv.org
0. Abstract
- large-scale diffusion model이 sexual 콘텐츠나 copyrighted artistic styles과 같은 undesirable 결과를 낳을 수 있다는 우려를 해결하기 위해, diffusion model의 weights에서 특정 concepts을 삭제 시키는 방안에 대해서 연구
- (제거할)스타일 이름만 지정해주면, 이 negative guidance(지정한 스타일)를 teacher로 사용하여 pre-trained diffusion model에서 시각적 concept을 지울 수 있는 fine-tuning 방법 제안
- sexually explicit 콘텐츠를 제거하는 기존 접근 방식과의 benchmark를 비교 -> 효과 입증, Safe Latent Diffusion이나 censored training과 동등한 성능을 발휘
- 1. Safe Latent Diffusion (생성 과정에서 필터링하는 방식)
- 2. Censored Training (애초에 민감한 데이터를 빼고 학습시키는 방식)
- artistic styles 제거를 평가하기 위해 네트워크에서 5명의 현대 예술가를 시대별로 구분하는 실험 수행, 제거된 스타일에 대한 인간의 인식을 평가하기 위해 user study 진행
- user study : 실제 사용자의 반응을 통해 연구 결과가 얼마나 효과적인지 확인하는 과정
- 이전 방법과 달리, 논문의 접근 방식은 inference 시점에 output을 수정하는 대신, diffusion model에서 concepts을 영구적으로 제거할 수 있음 -> 사용자가 모델 weights에 액세스할 수 있는 경우에도 이를 우회할 수 없다.
- 우회?
1. 필터링 방식 • AI가 이미지를 생성한 후, 부적절한 이미지를 자동으로 감지해 삭제함. • 하지만 특정 설정을 변경하거나 필터링을 끄면 우회 가능.
2. 안전 모드 적용 (Safe Latent Diffusion 등) • 모델이 부적절한 내용을 생성하지 않도록 제한을 둠. • 하지만 전문가가 설정을 변경하면 다시 원래대로 복구 가능.
즉, 기존 방법들은 사용자가 특정 설정을 변경하거나 우회하는 방법을 찾아내면, 다시 원래대로 돌아갈 위험이 있음.
- 우회?
- 연구에 사용된 코드, 데이터, 결과 : https://erasing.baulab.info/
1. Introduction
최근 text-to-image generative models은 우수한 이미지 품질과 사실상 무한한 생성 능력으로 인해 주목받고 있음.
이러한 모델들은 방대한 인터넷 데이터셋을 학습하여 다양한 개념을 모방할 수 있게 됨.
그러나, 모델이 학습한 개념 중 일부는 바람직하지 않음.
예를 들어, copyrighted content나 pornography 같은 개념이 포함될 수 있으며, 이는 모델의 출력에서 피해야 하는 요소들임 [27, 16, 29].
이 논문에서는, 사전 학습(pretraining)된 text-conditional model의 weights(모델 가중치)에서 특정 개념을 선택적으로 제거하는 방법을 제안함.
기존 접근법들은 다음과 같음:
1. Dataset filtering(데이터셋 필터링) [30]
2. Post-generation filtering(출력 후 필터링) [29]
3. Inference guiding(추론 가이던스) [38]
그러나, 우리 방법은 기존 접근법들과 다름.
- Dataset filtering 방식과 달리, 우리 방법은 retraining이 필요하지 않음.
- 대규모 모델의 재훈련은 비용이 매우 높기 때문에 비현실적임.
- Inference-based methods는 출력을 검열(censor)하거나 특정 개념을 회피하도록 유도할 수 있음 [29, 38].
- 그러나 이러한 방식은 쉽게 우회(circumvent)될 수 있음.
- 우리 방법은 모델의 parameters(파라미터) 자체에서 특정 개념을 직접 제거함으로써, 모델 가중치를 안전하게 배포할 수 있도록 함.
Stable Diffusion과 NSFW 필터링 문제
Stable Diffusion이 오픈소스로 공개됨에 따라, 이미지 생성 기술이 폭넓은 사용자들에게 접근 가능해짐.
이를 통해, 바람직하지 않은 이미지 생성을 제한하는 방법이 필요하게 됨.
1. Stable Diffusion 1.0
- • 기본적으로 간단한 NSFW 필터를 포함하여,
- • 필터가 활성화되면 이미지 생성을 차단하도록 설계됨 [29].
- • 그러나, 모델의 코드와 가중치가 공개되어 있어 필터를 쉽게 비활성화할 수 있음 [43].
2. Stable Diffusion 2.0
- • 민감한 콘텐츠 생성을 방지하기 위해,
- • Explicit images(노출 이미지)가 제거된 데이터셋을 사용하여 학습됨.
- • 이 과정에서 LAION 데이터셋(총 50억 개 이미지) 중 필터링된 데이터로 150,000 GPU-hours를 사용하여 훈련됨 [32, 39].
- • 그러나 이 과정의 높은 비용 때문에, 특정 데이터 변경이 모델 성능에 미치는 영향을 정확히 분석하는 것이 어려움.
- • 일부 사용자들은 명시적인 이미지를 제거한 것이 출력 품질(output quality)에 부정적인 영향을 미쳤다고 보고함 [30].
3. I2P Benchmark 평가 결과
- • Inappropriate Image Prompts (I2P) benchmark [38]을 사용하여, NSFW 콘텐츠 생성 여부를 테스트함.
- • Stable Diffusion 1.4 모델은 총 4,703개의 프롬프트에서 796개의 노출된 신체 부위가 포함된 이미지를 생성함.
- • 새롭게 제한된 데이터셋을 사용한 SD 2.0 모델도 여전히 417개의 유사한 이미지를 생성함 (Figure 7 참고).
- • 즉, 데이터 필터링 방식만으로는 완전히 NSFW 콘텐츠 생성을 차단하기 어려움이 확인됨.
저작권 침해 우려
text-to-image 모델에 대한 또 다른 주요 우려는 저작권 보호된 콘텐츠(copyrighted content)를 모방할 가능성임.
• AI가 생성한 예술작품은 인간이 만든 작품과 동등한 수준의 품질을 보여줌 [34].
• 또한, 특정 예술가의 스타일을 충실히 모방할 수 있음.
• Stable Diffusion [31] 및 기타 대규모 text-to-image 시스템을 사용하는 사용자들은,
• “art in the style of [artist]” 같은 프롬프트를 사용하여 특정 예술가의 스타일을 그대로 재현할 수 있음을 발견함.
• 이는 원작의 가치를 떨어뜨릴 가능성이 있음.
이로 인해, 여러 예술가들이 Stable Diffusion 제작사에 대한 소송을 제기함 [1].
• 법적 문제가 제기되었으며,
• 현재까지 법원에서 이에 대한 판결을 내리지 않은 상태임 [41].
최근 연구 [42]에서는,
• 적대적 교란(adversarial perturbation)을 이미지에 추가하여, AI가 특정 예술 스타일을 학습하는 것을 방해하는 방법을 제안함.
• 그러나 이 방법은 이미 학습된 모델에서 특정 예술 스타일을 제거할 수는 없음.
우리 방법: Erased Stable Diffusion (ESD)
- • 안전성과 저작권 침해 문제에 대응하기 위해, 우리는 특정 개념을 text-to-image 모델에서 지우는 방법을 제안함.
- • 우리 방법(ESD)은, 특정 개념에 대한 설명만을 사용하여 모델 파라미터를 fine-tuning함.
- • 추가적인 학습 데이터가 필요하지 않음.
ESD vs 기존 방법 비교
✅ Dataset censorship(데이터셋 기반 검열) 방식과 비교하면
• 우리 방법은 빠르고, 전체 시스템을 처음부터 다시 훈련할 필요가 없음.
✅ Inference-based filtering(출력 후 필터링) 방식과 비교하면
• 우리 방법은 입력 이미지(input images)를 수정할 필요가 없음 [42].
✅ Post-filtering(출력 후 필터링) 또는 블랙리스트(blacklisting) 방식과 비교하면
• 우리 방법은 우회(circumvent)할 수 없음.
• 사용자가 모델의 파라미터에 직접 접근하더라도 특정 개념을 복구할 수 없음.
우리 방법의 평가 결과
• Offensive content(불쾌한 콘텐츠) 제거 실험을 진행함.
• Safe Latent Diffusion [38]과 비교했을 때 동등한 성능을 보임.
• 예술 스타일 제거 능력 테스트를 진행함.
• 특정 예술가의 스타일이 제거된 후, 사용자들이 이를 어떻게 인식하는지(user perception)를 평가함.
• 제거된 스타일이 다른 예술 스타일과 어떻게 상호작용하는지(interference)를 분석함.
• 이미지 품질(image quality)에 미치는 영향을 측정함.
• 객체 클래스(object classes) 전체를 제거하는 실험도 수행함.
결론
• text-to-image 모델이 생성하는 바람직하지 않은 콘텐츠(NSFW, 저작권 침해 스타일 등)를 효과적으로 제거하는 방법을 제안함.
• ESD는 모델의 특정 개념을 직접 수정하여 삭제하는 방법으로,
• 기존의 데이터 필터링, 출력 필터링, 또는 추론 기반 가이던스 방식보다 더 효과적이며 우회가 불가능함.
• 사용자 연구(user study)를 통해, 우리 방법이 특정 예술 스타일 제거에 효과적이며, 다른 예술 스타일에 미치는 간섭을 최소화함을 검증함.
• 추가적으로, 객체 클래스 전체를 제거하는 실험을 진행하여, 모델 수정의 범위를 확장함.
2. Related Works
Undesirable image removal(바람직하지 않은 이미지 제거)
기존 연구에서는 생성 모델에서 바람직하지 않은 이미지 출력을 방지하는 두 가지 주요 접근법을 사용해왔음.
1. 첫 번째 접근법: 훈련 데이터셋에서 이미지 자체를 검열censoring하는 방법
- 예를 들어, 모든 사람(people) 관련 이미지를 제거하거나 [25],
- 특정 바람직하지 않은 이미지 클래스를 제외하도록 데이터를 엄격히 curating하는 방식 [39, 27, 33].
- 그러나 dataset removal(데이터셋 제거) 방식은 단점이 존재함:
- 대규모 모델을 재훈련(retrain)하는 데 필요한 리소스가 매우 커서 비용이 비싸짐.
- 훈련 후에 발견된 문제를 수정하기 어려움.
- 범위한 censorship은 unintended effects을 초래할 수 있음 [26].
2. 두 번째 접근법: 사후(post-hoc) 수정 방법
- 훈련이 끝난 후, classifiers를 사용하여 출력 이미지를 수정하는 방식 [3, 21, 29].
- 추론 과정에서 guidance를 추가하여 특정 유형의 이미지 생성을 억제하는 방식 [38].
- 이러한 방법들은 테스트 및 배포가 용이하지만, 모델의 파라미터에 접근할 수 있는 사용자는 이를 쉽게 우회(circumvent)할 수 있음 [43].
🔹 기존 방법과의 비교
• 우리는 두 가지 기존 접근법을 비교함:
• Stable Diffusion 2.0 [30] → 검열된 데이터셋을 사용하여 모델을 완전히 재훈련한 사례.
• Safe Latent Diffusion [38] → 최신(state-of-the-art) 가이던스 기반 접근법.
• 우리 연구의 초점은 세 번째 접근법을 도입하는 것임:
• 가이던스 기반 모델 수정(guidance-based model-editing) 방식을 사용하여 모델의 파라미터를 직접 조정함.
• 이 방법은 빠르게 적용할 수 있으며, 기존 방법들보다 우회가 어려움.
Image cloaking(이미지 은폐 기법)
또 다른 이미지 보호 방법은 대규모 모델이 특정 이미지를 모방(imitation)하는 것을 막기 위해, 예술가가 자신의 이미지를 인터넷에 업로드하기 전에 적대적 교란(adversarial perturbations)을 추가하는 것임.
• Cloaking(은폐) 기법은 예술가가 자신의 작품을 기계 학습 모델이 학습하거나 추론하는 동안 숨길 수 있도록 도와줌.
• 이 기법은 모델이 해당 이미지를 무관한 이미지로 혼동하게 만들거나 [36],
• 다른 예술적 스타일로 인식하도록 교란을 추가하는 방식 [42].
• 이는 AI 훈련 데이터셋에서 자신의 콘텐츠를 스스로 검열(self-censor)하면서도, 인간이 볼 때는 여전히 정상적인 작품으로 보이게 만드는 유망한 방법임.
그러나, 우리 연구는 cloaking이 해결하려는 문제와는 다른 문제를 다룸.
• Cloaking은 개별 콘텐츠 제공자가 자신의 이미지를 보호하는 방식을 제공하는 반면,
• 우리 연구는 모델 제작자가 특정 시각적 개념을 완전히 삭제하는 방법을 연구함.
• 즉, 콘텐츠 제공자의 능동적인 개입(active self-censorship) 없이도, 특정 개념을 제거할 수 있는 방법을 연구함.
Model editing
• 훈련 비용(training cost)이 증가함에 따라, 최소한의 데이터 또는 새로운 데이터 없이도 대규모 생성 모델의 동작을 수정하는 경량 모델 수정(lightweight model-editing) 방법이 주목받고 있음.
• 텍스트 생성 모델(text generators)에서는,
• 특정 사실을 담은 단일 문장을 기반으로 모델의 지식을 수정할 수 있음.
• 이러한 방법은 특정 뉴런(neurons)이나 레이어(layers)를 조정하거나 [7, 23],
• 하이퍼네트워크(hypernetworks)를 활용하는 방식 [8, 24].
• 이미지 생성(image synthesis)에서는,
• GAN(Generative Adversarial Network)을 몇 개의 단어, 스케치, 변형 제스처, 또는 copy-and-paste 방식으로 수정할 수 있음 [14, 46, 47, 2].
• 최근 연구에서는, 텍스트-조건부(diffusion) 모델도 소수의 이미지만으로 새로운 주제를 학습할 수 있음이 입증됨 [13, 20, 35].
그러나, 기존 연구들이 모델에 새로운 개념을 추가하거나(modify) 기존 개념의 표현을 변경하는 것(add),
우리 연구의 목표는 특정 개념을 제거(erase)하는 것임.
즉, 단 하나의 텍스트 설명만으로 diffusion model에서 특정 개념, 객체, 또는 스타일을 완전히 삭제하는 방법을 제안함.
Memorization and unlearning
• 전통적인 머신러닝(machine learning)의 목표는 기억(memorization) 없이 일반화(generalization)하는 것이지만,
• 대규모 모델은 특정 훈련 방식에 따라 원본 데이터를 정확히 기억할 수도 있음 [48].
• 또한, 의도하지 않은(unintentional) 기억 현상도 대규모 모델에서 관찰됨 [6, 5],
• 이는 diffusion models에서도 발견됨 [45].
• 이러한 기억 현상은 프라이버시와 저작권(copyright) 문제를 야기하며, 이를 해결하기 위한 연구가 진행됨.
• Machine unlearning(모델 비학습)은 특정 훈련 데이터를 삭제한 것처럼 모델을 수정하는 방식 [40, 4, 15].
그러나, 우리 연구가 다루는 문제는 기존의 unlearning과는 근본적으로 다름.
• 기존의 unlearning 기법은 **“삭제할 지식이 특정한 훈련 데이터 포인트로 정의될 수 있다”**는 가정을 기반으로 함.
• 우리는 특정 훈련 데이터를 제거하는 것이 아니라, 모델이 학습한 고수준(high-level) 시각적 개념 자체를 삭제하려고 함.
• 예를 들어, nudity(노출) 개념 자체를 제거하거나, 특정 예술가의 스타일을 제거하는 것이 목표임.
Energy-based composition
• 우리 연구는 에너지 기반 모델(energy-based models)과 diffusion 모델에서 score 또는 noise 예측 값을 조작하여 개념을 합성할 수 있다는 기존 연구에 기반을 둠 [10, 11, 22].
• Score-based composition 기법은 classifier-free guidance의 기초가 되기도 함 [18].
• 기존 연구들은 **“A and not B”**라는 개념을 A와 B의 로그 확률 밀도 차이(log probability density difference)로 표현할 수 있음을 보였음.
• 이 방법은 언어 모델(language models)의 바람직하지 않은 출력을 줄이는 데 사용됨 [37].
• Vision generators에서도 동일한 방식으로 활용됨 [38].
• 그러나 기존 연구들은 이러한 조작을 inference 단계에서 수행한 반면,
• 우리 연구는 score composition을 활용하여 훈련 데이터 없이 특정 개념을 모델 가중치에서 직접 제거하는 fine-tuned 모델을 학습하는 데 사용함.
3. Background
3.1. Denoising Diffusion Models
Diffusion model은 점진적인 노이즈 제거 과정(gradual denoising)을 통해 distribution space을 학습하는 생성 모델의 한 종류이다.
'샘플링된 Gaussian noise'에서 시작하여, 모델은 최종 이미지가 형성될 때까지 번의 time step에 걸쳐 점진적으로 노이즈를 제거한다.
이를 자세히 설명하면, Diffusion model은 매 time step 마다 노이즈 (제거할 노이즈)를 예측하는데, 이는 중간단계 이미지(일부 noise가 제거된) 를 생성하는 데 사용된다.
여기서 는 초기 노이즈에 해당하고 은 최종 이미지에 해당한다.
이 노이즈 제거 과정은 마르코프 전이 확률(t가 t-1 상태에만 의존)로 모델링된다.
- x_t|x_t-1가 아니라 x_t-1|x_t로 표현된 것은 원본이미지로 복원하는 과정이기 때문(initial이 T고 최종 이미지가 0인 것과 같은 이유)
3.2. Latent Diffusion Models
Latent diffusion models(LDM)은 인코더 와 디코더 를 사용하여 'pre-trained VAE'의 저차원 latent space 에서 작동함으로써 효율성을 개선했다(DDPM에 VAE를 적용하여 효율 개선).
- (Encoder를 통해 저차원 공간상에 latent space를 구현하다보니)
- (i) 데이터의 중요하고 의미있는 bits에 집중할 수 있고(+유사한 이미지 생성에도 더 용이),
- (ii) 더 낮은 차원에서 학습할 수 있어 computionally 효율적.
훈련 중에 image 에 대해 인코딩된 latent, 에 노이즈가 추가되어 노이즈 레벨이 에 따라 증가하는 가 된다(개념적으로 DDPM의 와 유사).
LDM 프로세스는 동일한 파라미터 를 가지는 DDPM의 시퀀스로 해석할 수 있으며(와 가 유사한 개념), 이 모델은 condition에 외에 time step 와 text condition(class정보) 를 추가한 상황에서 노이즈 를 예측하는 방법을 학습한다.
- 수식적인 이해는 'Latent Diffusion Models'을 통해 자세하게 할 수 있으며, 여기서는 DDM보다 효율적인 LDM을 활용했다는 것에 중점
4. Method
The goal of our method : 추가 데이터 없이 자체 지식을 사용하여 text-to-image diffusion model에서 concepts을 지우는 것
- 따라서 우리는 처음부터 모델을 훈련하기보다는 pre-trained model을 fine-tuning하는 것을 고려
논문은 '텍스트 인코더 T', 'diffusion model(U-Net) ', '디코더 모델 D' 세 가지 하위 네트워크로 구성된 LDM과 Stable Diffusion(SD)에 초점을 맞췄다. - 우리의 접근 방식 : pre-trained diffusion U-Net 모델의 weights를 편집하여 특정 style이나 concept을 제거하는 것.
- 논문은 concept에 따라 설명되는 likelihood에 따라 이미지 가 생성될 확률을 의 배율로 환산하여 줄이는 것을 목표로 한다.
- 여기서 는 원래 모델에서 생성된 분포를 나타내고, 는 지울 개념을 나타낸다.
- 즉, 원래 모델의 latent 분포를, c가 포함된 결과가 나올 확률을 줄이는 방향으로 만드는 것
- 를 확장하면, 로그 확률 의 기울기는 위 공식과 같이 비례한다.
- 즉, 제거하고자 하는 class 가 포함된 이미지 - 원래 이미지()를 진행하면, 를 제거하는 임베딩 정보가 나올 것이고, 원래 이미지의 결과를 정보를 제외한 이미지로 대체(비례)되도록 학습을 진행하는 것
Tweedie의 공식과 reparametrization trick을 기반으로, 시간에 따라 변하는 노이즈 프로세스를 도입하고 각 점수(gradient of log probability)를 노이즈 제거 예측값 로 표현할 수 있다.
🔹 1. Tweedie 공식이란?
Tweedie 공식(Tweedie’s Formula)은 확률 분포의 로그-확률 밀도 함수(log-probability density function)의 그래디언트(gradient)를 데이터의 평균 추정(mean estimation)과 연결하는 공식임.
즉, 어떤 확률변수 의 분포가 주어졌을 때,
그 **로그-확률 밀도의 기울기(gradient of log probability density)**는
해당 확률변수의 기대값(conditional expectation)과 관련 있음.
이것을 **확산 모델(diffusion models)**에 적용하면,
• **노이즈가 추가된 상태 **에서,
• 원래 데이터 를 복원하는 방향의 기울기(gradient)가 곧 노이즈 제거 방향을 나타냄.
즉, 확산 모델에서 노이즈 제거 방향(denoising direction)을 직접 계산할 수 있도록 도와주는 공식임.
🔹 2. Reparametrization Trick이란?
**Reparametrization Trick(재매개변수화 트릭)**은 확률분포에서 샘플링을 미분 가능한 방식으로 표현하는 방법임.
예를 들어,
• 기존 방식: → 직접 샘플링하면 미분 불가능함.
• 재매개변수화 방식: → 을 따로 분리하여 미분 가능하게 만듦.
이를 확산 모델(diffusion models)에 적용하면:
• 는 노이즈가 추가된 데이터 상태임.
• 이 상태에서 노이즈를 제거하는 과정(denoising process)이 미분 가능하게 됨.
즉, Reparametrization Trick을 사용하면, 확산 모델에서 노이즈 제거를 신경망이 학습할 수 있도록 변형할 수 있음.
🔹 3. 시간에 따라 변하는 노이즈 프로세스를 도입한다는 의미
• 확산 모델에서는 시간 단계 마다 다른 정도의 노이즈가 추가됨.
• 즉, 초기 상태에서는 노이즈가 거의 없고, 시간이 지날수록 노이즈가 많아짐.
• 따라서 시간에 따라 노이즈가 달라지는 확률 과정(noise process)을 정의해야 함.
여기서 Tweedie 공식과 Reparametrization Trick을 활용하면,
각 시간 에서의 노이즈를 제거하는 방향(denoising direction)을 수학적으로 표현할 수 있음.
🔹 4. 최종적으로 무슨 의미인가?
결론적으로,
• 확산 모델에서 노이즈를 제거하는 과정은 log-probability의 그래디언트와 관련됨.
• Tweedie 공식을 사용하면, 이 그래디언트를 직접 계산할 수 있음.
• Reparametrization Trick을 사용하면, 이를 미분 가능한 방식으로 모델이 학습할 수 있게 변환할 수 있음.
• 이 과정에서, 각 시간 마다 달라지는 노이즈를 고려하여 확산 모델을 설계할 수 있음.
• 따라서 각 점수(gradient of log probability)는 노이즈 제거 예측값 로 표현 가능함.
fb
Fig. 2는 훈련 과정을 보여준다.
concept에 대한 모델의 지식을 활용하여 훈련 샘플을 합성하므로 데이터 수집이 필요하지 않다.
훈련 : diffusion model의 여러 예제를 사용하는데(랜덤 샘플링 노이즈 이미지), 한 파라미터 세트()는 고정하고(오른쪽), 다른 파라미터 세트()는 concept를 지우기 위해 훈련(왼쪽).
논문에서는 부분적으로 노이즈가 제거된 이미지 를 사용해 (가 추가된)를 샘플링한 다음, frozen model 에 대한 예측을 두 번 수행하여 한 번은 를 포함한 conditioned으로, 다른 한 번은 unconditioned으로 노이즈를 예측한다.
마지막으로, 두 prediction을 선형적으로 결합하여 concept과 관련된 예측 노이즈를 무효화하고 새 모델을 새로운 목표에 맞게 조정한다.
- 즉, (오른쪽에서 들어오는 정보)에서 를 뺀 값(의 정보)과 (왼쪽에서 들어오는 정보)에 대한 노이즈의 차이를 0으로 만드는 작업
- 차이(L2 Loss)가 0이라는 말은, 가 있으나마나 한 상태로 만드는 것으로(를 제거할 수 있는 노이즈를 만드는 것), 결국 가 로 변화되도록 학습하는 것
4.1. Importance of Parameter Choice
Erasure objective(삭제 목표, 식 (6))를 적용한 효과는 fine-tuned되는 parameter subset에 따라 달라짐.
주요 차이점 : cross-attention parameters와 non-cross-attention parameters 사이의 구분
- • Cross-attention parameters(Figure 3a)
- 프롬프트-모델을 연결하는 gateway 역할
프롬프트의 텍스트에 직접 의존
- 프롬프트-모델을 연결하는 gateway 역할
- Non-cross-attention parameters(Figure 3b)
- 프롬프트에서 개념이 명시적으로 언급되지 않더라도 visual concept을 유지하는 경향이 있음.
- 따라서, 삭제가 프롬프트에 의해 제어되고 특정 개념에 국한되어야 하는 경우,
- 예를 들어 특정 예술 스타일(named artistic style)을 삭제할 때,
cross-attention을 fine-tuning하는 방식(ESD-x)을 제안함.
- 예를 들어 특정 예술 스타일(named artistic style)을 삭제할 때,
- 반면, 프롬프트의 텍스트와 무관하게(global) 개념을 삭제해야 할 경우,
- 예를 들어 NSFW nudity(노출) 같은 개념을 전역적으로 삭제해야 할 때,
unconditional layers를 fine-tuning하는 방식(ESD-u)을 제안함.
- 예를 들어 NSFW nudity(노출) 같은 개념을 전역적으로 삭제해야 할 때,
🔹 Naming Convention(명명 규칙)
• Cross-attention만 fine-tuning하는 방법 → ESD-x-η
• 여기서 η(eta)는 negative guidance(부정적 가이던스)의 강도(strength)를 의미함.
• Non-cross-attention parameters만 fine-tuning하는 방법 → ESD-u-η
• 단순화를 위해 η = 1일 때는 ESD-x 및 ESD-u로 표기함.
🔹 예술 스타일 제거(Artist Style Removal) 실험 결과 (Figure 4)
• “Van Gogh” 스타일을 제거할 때
• ESD-u 및 다른 unconditioned parameter tuning 방식은 스타일의 여러 요소를 전역적으로 삭제함.
• 즉, Van Gogh 스타일뿐만 아니라 다른 예술 스타일에서도 Van Gogh의 요소가 사라지는 효과를 초래함.
• 반면, cross-attention parameters만 조정한 방식(ESD-x)은, 프롬프트에서 Van Gogh의 이름이 언급될 때만 해당 스타일을 삭제
• 다른 예술 스타일과의 간섭(interference)을 최소화할 수 있음.
🔹 NSFW 콘텐츠 제거(NSFW Content Removal) 실험 결과
• NSFW 콘텐츠를 제거할 때는 “nudity(노출)” 같은 시각적 개념이 전역적으로 삭제되어야 함.
• 특히 nudity가 프롬프트에서 명시적으로 언급되지 않은 경우에도 제거 효과가 유지되어야 함.
• 이 효과를 측정하기 위해, explicit NSFW terms(명시적 NSFW 용어)를 포함하지 않은 다양한 프롬프트를 포함한 데이터셋을 사용하여 평가를 진행함 (Section 5.2).
• 실험 결과, ESD-u 방식이 가장 효과적.
• 다양한 파라미터 설정에 대한 정량적 실험 결과(quantitative ablations)는 Appendix E.2에 포함됨.
5. Experiments
- ESD-x 방법은 cross-attention을 fine-tuning
- ESD-u과 Stable Diffusion U-Net module의 unconditional weights을 fine-tuning
- SD(pretrained Stable Diffusion)
- SLD(Safe Latent Diffusion)
- SD-Neg-Prompt (Stable Diffusion with Negative Prompts)
5.1. Artistic Style Removal
5.1.1. Experiment Setup
Contemporary practicing artists(현대 활동 중인 예술가들)의 예술 모방(imitation of art) 현상을 분석하기 위해,
우리는 5명의 modern artists(현대 예술가)와 artistic topics(예술적 주제)를 선정.
선정된 대상 : Stable Diffusion이 모방했다고 보고된 예술 스타일을 가진 사례들
1. Kelly McKernan
2. Thomas Kinkade
3. Tyler Edlin
4. Kilian Eng
5. Ajin: Demi-Human(애니메이션 시리즈 “아인: 데미 휴먼”)
우리는 Stable Diffusion이 특정 원작을 직접 복제하는 모습은 관찰하지 못했지만,
이들의 예술적 스타일이 모델에 의해 학습되었음은 부정할 수 없음.
이 현상을 연구하기 위해,
1. Fig 5에서 qualitative results(정성적 결과)를 제시.
2. user study(사용자 연구)를 수행하여, 인간이 예술 스타일 제거 효과를 어떻게 인식하는지 측정.
실험 결과,
• 특정 예술가의 개별적인 스타일(artist-specific style)이 모델에서 제거됨을 확인함.
• 하지만 프롬프트의 content(내용)와 structure(구조)는 유지됨(Fig 5 참고).
• 또한, 다른 예술 스타일에 대한 간섭(interference)은 최소화됨.
추가적인 이미지 예시는 Appendix E에서 확인 가능함.
5.1.2. Artistic Style Removal User Study
예술 스타일 제거 효과에 대한 인간의 인식을 측정하기 위해, 우리는 user study(사용자 연구)를 수행함.
🔹 연구 방법
각 예술가에 대해:
1. Google Image Search를 사용하여 해당 예술가의 대표적인 작품 40개를 수집함.
2. 각 예술가의 스타일을 유도하는 generic text prompts(일반 텍스트 프롬프트) 40개를 작성함.
- 예시 프롬프트:
- “Art by [artist]”
- “A design of [artist]”
- “An image in the style of [artist]”
- “A reproduction of the famous art of [artist]”
3. Stable Diffusion을 사용하여 각 예술가에 대한 AI 이미지를 생성함.
4. Section 5.1.1에서 설명한 방식으로, 기존 baseline models과 수정된 diffusion models의 이미지도 평가함.
5. 모든 프롬프트는 4개의 seed를 사용하여 생성되며, 전체 데이터셋은 1000개의 이미지로 구성됨.
6. 각 예술가와 유사한 다른 실제 예술가의 작품도 포함하여 비교 연구를 진행함.
- • 유사한 예술가 쌍은 다음과 같음:
- • (Kelly McKernan, Kirbi Fagan)
- • (Thomas Kinkade, Nicky Boehme)
- • (Ajin: Demi Human, Tokyo Ghoul)
- • (Tyler Edlin, Feng Zhu)
- • (Kilian Eng, Jean Giraud)
• 유사한 예술가들의 실제 작품 12~25개를 수집하여 연구에 활용함.
🔹 연구 진행 방식
• 참여자들에게 다섯 개의 실제 작품(real artworks)을 보여줌.
• 추가적으로 한 개의 이미지를 함께 제시하며, 이 이미지들은 다음 중 하나일 수 있음:
1. 동일한 예술가의 실제 작품
2. 유사한 예술가의 실제 작품
3. AI가 해당 예술가 스타일로 생성한 이미지 (ESDx 방법 적용)
4. 기존 예술 스타일 제거 방법(SLD 또는 SD-Neg-Prompt) 적용 후 생성한 이미지
5. 완전히 무작위로 선택된 다른 예술가의 작품
• 참여자들에게 추가된 이미지가 다섯 개의 실제 작품과 동일한 예술가의 작품이라고 생각하는지 묻고, Likert 5점 척도로 평가하도록 함.
• 총 13명의 참여자가 연구에 참여했으며, 평균적으로 한 명당 170개의 응답을 제공함.
🔹 연구 결과
• Figure 6에서 연구 결과를 제시함.
• 심지어 실제 작품조차도 진위(authenticity)에 대한 불확실성이 존재함.
• 원본 이미지의 평균 점수: 3.85
• 선택된 예술가와 유사한 예술가의 이미지 평균 점수: 3.16
• AI가 생성한 이미지 평균 점수: 3.21
→ 즉, AI가 생성한 이미지가 유사한 실제 예술가의 작품보다 더 높은 평가를 받음,
이는 AI 모델이 예술가의 스타일을 효과적으로 학습했음을 시사함.
• 세 가지 예술 스타일 제거 방법 모두 인식된 예술 스타일을 감소시키는 효과를 보임:
• ESD-x: 평균 점수 1.12
• SLD: 평균 점수 2.00
• SD-Neg-Prompt: 평균 점수 2.22
→ 즉, ESD-x 방법이 가장 효과적으로 예술 스타일을 제거함.
🔹 추가 연구: 스타일 제거 후 다른 예술 스타일에 미치는 영향 분석
• 특정 예술가 스타일이 제거된 모델에서, 제거되지 않은 다른 예술가 스타일이 영향을 받는지 평가함.
• 이를 위해, 제거되지 않은 예술가 스타일을 지칭하는 텍스트 프롬프트를 사용하여 이미지 생성함.
• ESD-x, SLD, SD-Neg-Prompt 방법을 비교하여 간섭(interference) 정도를 분석함.
• Figure 5에서 연구 결과를 제시하며,
• 우리 방법(ESD-x)으로 생성된 이미지가 가장 원본 예술작품과 유사하게 평가됨.
• 즉, 우리 방법은 다른 예술 스타일에 미치는 영향을 최소화함.
🔹 추가적인 주요 특징
• 우리 방법(ESD-x)은 기존 두 가지 baseline 방법과 다르게 모델을 영구적으로 수정함.
• SLD 및 SD-Neg-Prompt는 inference 단계에서 스타일을 제거하는 방식이지만, 우리 방법은 모델 자체를 수정하여 우회가 불가능함.
• 또한, 전체 예술 스타일이 아닌, 특정 개별 작품(single works of art)을 삭제하는 데에도 적용할 수 있음.
• 이러한 개별 작품 삭제 방법에 대한 분석은 Appendix C에서 다룸.
예술 스타일 제거 효과에 대한 인간의 인식을 측정하기 위해, 우리는 user study(사용자 연구)를 수행함.
5.2. Explicit Content Removal
최근 연구들은 NSFW content restriction(NSFW 콘텐츠 제한) 문제를 해결하기 위해 여러 접근법을 시도해옴.
이러한 방법들은 크게 세 가지로 분류됨 :
1. Inference modification(추론 수정) [38]
2. Post-production classification based restriction(사후 분류 기반 제한) [31]
3. NSFW restricted subset of LAION dataset(제한된 LAION 데이터셋)으로 모델을 retraining [30]
그러나, inference modification과 post-production classification 기반 방법 : 모델이 오픈소스로 공개될 경우 쉽게 우회 가능함 [43].
또한, 필터링된 데이터로 모델을 재훈련하는 방법은 비용이 매우 높으며,
이러한 방식으로 학습된 Stable Diffusion V2.0조차도 여전히 nudity 이미지 생성가능(Figure 7 참조).
nudity와 같은 unsafe content를 제거하려면, 효과가 global해야 하며, text embeddings에 의존하지 않아야 함.
이를 위해, ESD-u를 사용하여 “nudity” 개념을 삭제.
Figure 7 : Stable Diffusion v1.4와 비교하여 nudity가 포함된 샘플 비율 변화(percentage change)를 분석함.
우리 방법의 효과를 측정하기 위해,
• Inference method(SLD [38])
• Filtered re-training methods(SD V2.0 [30])
을 포함한 기존 방법들과 비교함.
모든 모델에 대해, I2P prompts [38]를 사용하여 총 4703개의 이미지를 생성함.
생성된 이미지들은 Nudenet [28] detector를 사용하여 다양한 nudity classes(노출 클래스)로 분류됨.
이번 분석에서는 weak erasure scale(약한 삭제 기준)인 η = 1을 적용한 결과를 보여줌.
모든 클래스에서 우리 방법이 nudity 삭제 효과가 더 크다는 점을 확인함.
보다 유사한 비교 연구는 Appendix E.2에서 확인 가능함.
삭제된 모델이 여전히 safe content(안전한 콘텐츠)를 효과적으로 생성할 수 있는지 확인하기 위해,
COCO 30K dataset prompts를 사용하여 모든 방법의 성능을 비교함.
• Table 1 : Image fidelity(이미지 품질)를 측정하여 생성된 이미지의 품질을 평가, CLIP score(모델의 조건부 이미지 생성 정확도)를 측정하여 모델의 specificity(특정성을) 분석함.
ESD-u는 η = 1인 soft erasure(약한 삭제)를 의미하며, ESD-u-3은 η = 3인 stronger erasure(강한 삭제)를 의미함.
COCO 데이터셋은 원래 nudity가 포함되지 않은 잘 정제된 데이터셋이므로, 이 점이 SD보다 더 나은 FID(Frechet Inception Distance) 결과를 보이는 이유일 수 있음.
그러나 모든 방법의 CLIP score는 SD와 유사하게 나타나, specificity(특정 개념을 생성하는 능력)에는 큰 영향이 없음을 확인함.
5.3. Object Removal
이 섹션에서는, 제안한 방법이 모델에서 전체 객체 클래스를 삭제하는 데 어느 정도까지 사용될 수 있는지를 조사
- 이를 위해, 각각 하나의 class name(클래스 이름)을 제거한 ESD-u 모델 10개를 준비함.
이 모델들은 ImageNet classes [9]의 일부 subset(부분 집합)에서 특정 클래스 이름을 제거하는 방식으로 학습됨. - 구체적으로는, Imagenette [19] subset을 선택하여 실험을 진행함. 이 subset은 식별하기 쉬운 10개의 클래스로 구성됨.
- targeted classes와 untargeted classes의 제거 효과를 측정하기 위해, 다음과 같은 실험을 진행 :
- 1. Stable Diffusion 기본 모델과 10개의 fine-tuned(파인튜닝된) 모델을 사용하여,
- 2. 각 클래스에 대해 “an image of a [class name]” 프롬프트를 입력하여 500개의 이미지를 생성함.
- 3. 생성된 이미지들을 pretrained ResNet-50 ImageNet classifier로 평가하여, top-1 예측 결과를 분석함.
- Table 2 :
- • Stable Diffusion 원본 모델에서의 삭제된 클래스의 분류 정확도와,
- • ESD-u 모델(클래스 제거 목적의 파인튜닝 모델)에서의 삭제된 클래스의 분류 정확도를 비교함.
- • 또한, 삭제 대상이 아닌 나머지 9개 클래스의 분류 정확도도 함께 표시됨.
- 결과적으로, 대부분의 경우에서 제안한 방법이 targeted classes(제거 대상 클래스)를 효과적으로 제거함이 확인됨.
- 그러나 일부 클래스(예: “church”)는 완전히 제거하는 것이 더 어려움이 관찰됨.
- 한편, untargeted classes(제거 대상이 아닌 클래스)의 분류 정확도는 대부분 유지됨.
- 하지만 일부 간섭(interference) 현상이 발생함.
- 예를 들어, “French horn”을 제거하면, 다른 클래스에도 눈에 띄는 왜곡(distortions)이 추가됨.
- 객체 삭제(object erasure)의 시각적 효과를 보여주는 이미지들은 Appendix E.3에 포함됨.
5.4. Effect of η on Interference
- η가 interference(간섭)에 미치는 영향을 측정하기 위해, 세 가지 다른 “nudity(노출)” 제거 ESD-u-η 모델을 10개의 Imagenette [19] 클래스 각각에서 1000개의 이미지에 대해 테스트
- η = 10으로 설정 : nudity 사례의 92%를 제거하지만, 객체 이미지에서 1000-way classification(1000개 클래스 분류) 정확도가 34% 감소
- η = 3으로 설정 : nudity 사례의 88%를 제거하며, 객체에 미치는 영향은 14%로 줄어듦
- η = 1로 설정 : nudity 사례의 83%를 제거하며, 객체에 미치는 영향은 7%로 최소화
- => η 값을 줄이면 간섭을 완화할 수 있음, but η를 줄이면 targeted concept의 삭제 효과도 감소
• η 값이 크면 → 목표 개념을 더 강하게 삭제하지만, 다른 무관한 객체에도 영향을 미쳐 간섭(interference)이 증가
• η 값이 작으면 → 목표 개념 삭제 효과는 약해지지만, 다른 무관한 객체에 미치는 영향이 줄어듦
- 또한, η를 낮추면 이미지 품질(image quality)도 개선되며, 이는 Table 1에서 확인할 수 있다.
따라서 적절한 η 값 선택은 적용하려는 목적(application)에 따라 달라짐 - 추가적으로, generic prompts(일반적인 프롬프트)를 사용하면 synonymous concepts(동의어 개념)도 제거할 수 있음을 Appendix D에서 보임
5.5. Limitations
- NSFW 콘텐츠 제거와 artistic style 제거 모두에서, 우리 방법이 targeted visual concept을 지우는 데 있어 기존 방법들보다 더 효과적임을 발견
- 그러나, 전체 객체 클래스 또는 특정 스타일과 같은 더 큰 개념을 지울 때, 우리 방법은 완전한 개념 삭제와 다른 시각적 개념과의trade-off이 발생하는 문제
- Figure 8에서 이러한 **한계점(limitations)**을 예시로 보여준다. Section 5.1.2에서 진행한 user study를 통해, 예술 스타일 제거 시 일반적인 interference 수준을 정량적으로 측정
- 전체 객체 클래스를 제거할 때, ESD에서 일부 클래스에서는 실패 가능 : 개념의 특정 특징적인 속성(distinctive attributes)**만 제거되며, 전체 개념 자체는 남아 있을 수 있음
예를 들어, 교회에서 십자가(crosses)나, 낙하산에서 리브(ribs) 같은 특정 요소들만 지워지고, 전체 객체는 유지될 가능성이 있음. -
또한, 전체 객체 클래스를 제거하면, 다른 클래스에도 일부 interference간섭이 발생 가능이 현상은 Section 5.3에서 정량적으로 분석됨
6. Conclusion
- ESD는 모델의 weight를 직접 업데이트하여 text-to-image generation model에서 specific concepts을 제거하는 접근 방식 제안
- dataset filtering과 retraining이 필요한 기존 방법과 달리, 데이터 세트를 조작하거나 비용이 많이 드는 재학습이 필요하지 않으며, 대신 제거하고자하는 concept 이름만 입력하고 fine-tuning하면 되는 빠르고 효율적인 방법
- 모델의 weights에서 직접 concept를 제거함으로써, post-inference filters가 필요 없고, parameters를 안전하게 배포 가능(inference guiding가 아니기에, 우회 불가능).
- 논문은 세 가지 적용에서 접근 방식의 효율성을 입증
- 1. Safe Latent Diffusion과 비슷한 결과로 노골적인(성적인) 콘텐츠를 성공적으로 제거할 수 있음을 보여줌
- 2. artisitc styles을 제거하는데 어떻게 사용될 수 있는지를 보임
- 3. 구체적인 객체 클래스를 제거하는 실험을 통해 이 방법의 다용도성을 설명