AI/Computer Vision

[CV] Watermark 논문 정리 모음

도도걸만단 2025. 9. 24. 14:38
반응형

1. Proactive Deepfake Defence via Identity Watermarking (Yuan Zhao et al., WACV 2023)

2. ROBIN: Robust and Invisible Watermarks for Diffusion Models with Adversarial Optimization


1. Proactive Deepfake Defence via Identity Watermarking (Yuan Zhao et al., WACV 2023)

keyword : Proactive Deepfake Defence, Identity Watermarking

논문 개요 및 동기

배경과 문제의식

  • Deepfake 기술이 빠르게 발전하면서, 얼굴 이미지나 영상이 실제처럼 보이지만 조작된 콘텐츠가 쉽게 만들어짐.
  • 기존 Deepfake 탐지 방법들은 대부분 **사후에 남는 합성 아티팩트(노이즈, 왜곡, 경계 불일치 등)**를 단서로 사용함.
    • 하지만 이런 아티팩트는 압축, 블러링, 리사이징 같은 일반 이미지 처리를 통해 쉽게 지워질 수 있음.
    • 또한 더 정교한 Deepfake 기법은 아티팩트 흔적을 거의 남기지 않도록 설계되기도 해서, 탐지 일반화(generalization)가 어렵다는 문제가 있음. (CVF Open Access)
  • 그래서 이 논문은 사후 탐지만 하는 방법이 아니라, 사전에 이미지에 “표식(label)”을 심어두고, Deepfake 조작이 그 표식을 훼손하는지를 보고 판별하자는 “적극적 방어(proactive defence)” 접근을 제안함. (CVF Open Access)

제안 아이디어 요약

  • 얼굴 이미지가 공개되기 전에, 신경망 기반 encoder–decoder 구조를 사용해 얼굴의 정체성(identity) 특징워터마크 비트열(label) 을 삽입(embed)함.
  • 이 워터마크는 정체성 특성(identity feature)과 얽히게(entangled) 삽입되어, 얼굴의 정체성 변경(swap, Deepfake 조작 등)이 들어가면 워터마크가 깨지거나 사라지는 특성을 가짐.
  • 반면, 일반적인 이미지 변형(리사이징, 압축 등)은 정체성 특징을 많이 바꾸지 않으므로 워터마크가 유지됨.
  • 따라서 검증할 때는 이미지에서 identity feature를 다시 추출해 워터마크의 존재 여부를 확인하고, 만약 워터마크가 사라져 있으면 Deepfake로 판단하는 방식임. (CVF Open Access)

방법론 상세

논문은 크게 두 단계로 구성됨: **워터마크 삽입(Injection)**과 워터마크 검증(Verification). (CVF Open Access)

(A) 워터마크 삽입 (Watermark Injection)

  1. 특징 분리(Feature disentanglement)
    • 입력 얼굴 이미지 XX를 두 개의 표현 공간으로 쪼갬:
      • Identity representation zid(X)z_{\text{id}}(X) — 사람 얼굴의 “누구인가” 정보를 담는 특징
      • Attribute (속성) 표현 zatt(X)z_{\text{att}}(X) — 표정, 배경, 조명, 포즈 등 얼굴 아이덴티티 외의 변화 가능한 부분
    • 속성 표현은 U-Net 스타일 네트워크의 중간 디코더 단계(feature maps)를 여러 레벨에서 취해 multi-level attribute representation을 구성함. (CVF Open Access)
  2. 워터마크 삽입 (Identity Watermarking)
    • 임의의 이진 시퀀스(비트열) zseqz_{\text{seq}} 을 identity 벡터에 더함:zw_id(X)=zid(X)+α zseqz_{w\_id}(X) = z_{\text{id}}(X) + \alpha \, z_{\text{seq}}여기서 α\alpha 는 워터마크가 identity 표현에 미치는 변화 정도를 조절하는 계수(논문에서는 보통 0.1)임. (CVF Open Access)
    • 이렇게 하면 identity 표현이 워터마크와 섞이면서도, 원래 이미지 인상은 크게 달라지지 않게 함.
  3. 이미지 재합성 (Image Reconstruction)
    • 워터마크가 포함된 identity 표현 zw_id(X)z_{w\_id}(X) 과 속성 표현 zatt(X)z_{\text{att}}(X) 을 통합해 워터마크된 얼굴 이미지 X^\hat{X} 를 생성함.
    • 속성과 identity를 결합할 때 단순 병합(concatenation)만 하면 시각적 왜곡이 생길 수 있으므로, 논문은 “Adaptively Attentional Denormalization (AAD)” 메커니즘을 사용해 두 정보를 부드럽게 융합함. (CVF Open Access)
  • 워터마크 삽입 시에는 손실 함수(loss)를 설계해 “이미지 품질 유지”와 “워터마크 복원 가능성” 간 균형을 맞춤.
  • 삽입된 워터마크는 이미지 변형(리사이징, 압축, 자르기 등) 에서도 유지되도록 강건성을 고려함. (CVF Open Access)

(B) 워터마크 검증 (Watermark Verification)

  • 검사 대상 이미지 X′X' (원본 또는 Deepfake로 조작된 것) 에 대해 동일한 인코더를 통해 identity 표현 zid(X′)z_{\text{id}}(X') 을 추출
  • 이 표현과 원래 워터마크 비트열 zseqz_{\text{seq}} 사이의 상관(correlation) 을 계산
  • 만약 상관 피크(correlation peak)가 기준(threshold) 이상이면 워터마크가 존재한다고 판단 → “조작되지 않음”
  • 반대로 상관 피크가 기준 이하이면 워터마크가 파괴된 것으로 보고 Deepfake 조작된 것으로 판단함. (CVF Open Access)

실험 및 성능

논문에서 제시한 주요 실험 결과와 평가 특성은 다음과 같아:

  • 데이터셋: CelebA-HQ 등 얼굴 이미지 데이터 사용 (CVF Open Access)
  • 워터마크 시퀀스 종류 비교: Gaussian, Gold, Laplace, MLS 등 다양한 비트열을 삽입해 보고, 상관 결과(correlation) 및 이미지 품질(SSIM, PSNR 등)을 비교.
    • 워터마크 삽입 후에도 이미지 시각적 품질은 거의 변화 없음 (SSIM/PSNR 좋은 값)
    • 상관 피크 분석(Peak, PAR 등 지표)을 보면 삽입된 이미지 vs 원본 이미지의 차이가 뚜렷하게 나타남 → 워터마크 검출 가능성 확인됨. (CVF Open Access)
  • Deepfake 조작에 대한 탐지 성능
    • 워터마크 삽입된 이미지를 Deepfake 모델(여러 방식)으로 조작한 뒤, 워터마크 유지 여부를 기준으로 판별
    • 평균 정확도(ACC) + F1 Score이 약 0.8 이상 나오는 경우가 많음 → 실험적으로 이 방법이 효과가 있다는 증명 제시됨. (CVF Open Access)
    • 다만, 특정 Deepfake 방식(예: StarGAN2)은 얼굴 정체성(identity) 변경보다는 속성 변화(attribute) 위주 조작을 해서, 워터마크 기반 방식에서는 성능이 다소 떨어지는 경우도 있음. (CVF Open Access)
  • 강건성 평가:
    • JPEG 압축, 블러링, 색 조정, 자르기(cropping), 리사이즈 등 일반 이미지 조작을 가한 뒤 워터마크 검출 성능이 얼마나 유지되는가 실험
  • 절충점:
    • 워터마크 강도를 너무 높이면 시각적 품질이 나빠질 수 있고, 반대로 너무 낮으면 Deepfake 조작에 의해 쉽게 제거됨 → 적절한 α 값과 삽입 전략을 찾는 것이 중요.

강점, 제한점, 그리고 확장 가능성

강점

  • 사전 심기(proactive) 방식이므로 Deepfake 탐지를 “사후 흔적 찾기”보다 더 견고하게 만들 수 있음
  • 정체성(identity) 피처에 워터마크를 얽히게 함으로써, 얼굴 변경 조작 시 워터마크가 타격받을 가능성이 높음 → 탐지 민감성 증가
  • 다양한 이미지 변형(리사이징, 압축 등)에도 어느 정도 견디는 강건성 설계
  • 삽입 후 이미지 품질이 거의 유지됨 (시각적으로 거의 동일하게 보임)

제한점 / 도전 과제

  • 워터마크 비트열 삽입 강도 조정을 잘못하면 얼굴 품질이 손상될 위험이 있음
  • Deepfake 방식 중 정체성 변경을 거의 안 건드리는 방식(예: 일부 속성 변화 중심 조작)에서는 워터마크이 훼손되지 않아 탐지가 어려울 수 있음 (논문에서 StarGAN2 경우 언급됨)
  • 워터마크 삽입 및 복원 구조(인코더/디코더)가 Deepfake 기술이나 공격 방식에 대해 얼마나 일반화(generalize)할지 보장이 어렵다
  • 실시간 또는 대규모 영상/동영상에 적용할 때 연산적 비용이 클 수 있음
  • 워터마크가 노출되거나 역공학(reverse engineering) 당할 위험 가능성 (비밀 시퀀스 누출 등)

확장 가능성 / 후속 연구 방향

  • 강화된 공격 대응: Deepfake 모델이 워터마크를 인지하고 일부러 제거하려는 역공격 모델에 대해 견고성을 설계
  • 동영상/프레임 연속성 워터마크: 이미지가 아니라 프레임 간 일관성 있는 워터마크 삽입
  • 다중 워터마크 삽입 / 다중 신호: 여러 비트열 혹은 계층적 워터마크 삽입
  • 워터마크 삽입 자동 조절 / 적응형 삽입: 이미지 품질/조작 가능성에 따라 삽입 강도 동적으로 조정
  • 다른 얼굴 표현 방식으로의 확장: 3D 얼굴 모델, 얼굴 영상, 실시간 스트리밍 등

2. ROBIN: Robust and Invisible Watermarks for Diffusion Models with Adversarial Optimization (NeurIPS 2024)

keyword : Diffusion Models, Image Watermarking

https://arxiv.org/pdf/2411.03862

 

개요

ROBIN은 Robust and Invisible watermarking의 약자로, 확산 모델이 생성하는 이미지에 대해 강건하면서도 눈에 보이지 않는 워터마크를 심는 방법을 제안한다. 기존 워터마킹은 은닉성을 확보하기 위해 워터마크 강도를 낮추는 경우가 많아 강건성이 떨어졌다. ROBIN은 워터마크 삽입과 동시에 은닉 과정을 명시적으로 설계하여 두 특성을 동시에 달성하는 것을 목표로 한다.


1. Introduction

  • 확산 모델이 사실적인 이미지를 생성하면서 저작권 및 진위성 보장이 중요한 문제로 떠오르고 있다.
  • 워터마킹은 강건성과 은닉성 사이의 균형을 맞추기 어렵다.
  • ROBIN은 확산 과정 중간 단계에 워터마크를 삽입하고, 추가적으로 프롬프트 기반 은닉(hiding prompt) 을 최적화하여 워터마크가 눈에 띄지 않게 유지한다.
  • 기여점은 다음과 같다:
    1. 강건성과 은닉성을 동시에 고려하는 워터마킹 프레임워크
    2. 삽입 시점 선택과 프롬프트 최적화 기법
    3. 다양한 확산 모델에서 강건성과 품질을 모두 확보한 실험 결과

2. Related Work

  • Diffusion Generation and Inversion: 확산 모델은 노이즈에서 이미지를 생성하며, 일부 방법은 역과정을 통해 이미지에서 노이즈 상태를 추정할 수 있다. 이는 워터마크 검출에 활용 가능하다.
  • Watermarking Generative Models:
    • 사후 삽입(post-processing): 생성된 이미지에 추가 워터마크를 삽입하는 방식
    • 내부 삽입(in-processing): 생성 과정 중 워터마크를 심는 방식
    • 기존 Tree-Ring 등의 방법은 은닉성 문제와 의미 왜곡 문제가 있었다. ROBIN은 이를 개선한다.

3. Methodology

3.1 Overview of ROBIN

  • Task Definition: 입력 텍스트 프롬프트를 통해 이미지를 생성하는 확산 모델에 워터마크를 삽입하고, 최종 이미지에서 워터마크를 복원 가능하게 한다.
  • Pipeline:
    1. 워터마크 패턴과 은닉 프롬프트를 최적화
    2. 중간 단계 t0t_0에서 워터마크를 주파수 도메인에 삽입
    3. 이후 은닉 프롬프트를 활용해 워터마크가 시각적으로 드러나지 않게 숨김
    4. 최종 이미지 검증 시 역확산을 통해 중간 상태를 복원하고 워터마크를 추출

3.2 Adversarial Optimization Algorithm

  • 워터마크와 은닉 프롬프트는 서로 상충하므로 교대 최적화 전략을 사용한다.
  • 손실 함수 구성:
    • 이미지 품질 유지 손실 (Image retaining loss)
    • 프롬프트 정규화 항 (Prompt regularization)
    • 워터마크 강건성 손실
  • 워터마크는 주파수 영역에 삽입되어 왜곡 및 편집 공격에도 강건하다.

3.3 Keypoints for Implantation

  • 워터마크 삽입 단계는 너무 이르거나 늦으면 성능이 떨어진다.
  • 실험적으로 중간 단계(예: 200~300 step 부근)가 적절한 삽입 지점으로 확인되었다.

3.4 Watermark Validation

  • 최종 이미지에서 역확산 과정을 일부 적용하여 중간 상태를 복원
  • 주파수 도메인에서 워터마크 패턴을 추출
  • 원래 패턴과 비교하여 유사도 기준을 넘으면 워터마크 존재로 판단

4. Experiments

4.1 Experimental Setting

  • 모델: Stable Diffusion 및 ImageNet 기반 확산 모델
  • 평가지표:
    • 워터마크 검출: AUC-ROC
    • 품질: PSNR, SSIM, FID
    • 텍스트-이미지 정합: CLIP score

4.2 Effectiveness and Robustness

  • JPEG 압축, 노이즈 추가, 블러, 회전, 크롭 등 공격 후에도 워터마크 복원 성능이 유지됨.
  • 기존 방법보다 높은 강건성과 은닉성을 동시에 달성.

4.3 Quality of Watermarked Image

  • 삽입 후에도 이미지 품질 저하는 미미하며, 기존 Tree-Ring 기법보다 의미 왜곡이 적다.

4.4 Ablation Study

  • 프롬프트 은닉 여부, 워터마크 강도, 삽입 단계 변화에 따른 성능 차이 분석
  • 워터마크 강도가 높을수록 복원률은 향상되지만 품질 저하가 발생할 수 있음

5. Conclusion & Discussion

  • ROBIN은 강건성과 은닉성을 동시에 만족하는 워터마킹 프레임워크다.
  • 한계: 역확산 기반 복원이 필요하므로 일부 모델/샘플링 방식에서는 제한이 있을 수 있다.
  • 사회적 영향: 생성 이미지의 출처 검증과 저작권 보호에 기여 가능하다.

6. Appendix

  • 워터마크 설계: 주파수 영역 패턴(예: 동심원 구조)
  • 프롬프트 설계: classifier-free guidance 활용
  • 최적화 알고리즘: 교대 최적화 방식 pseudocode 제공
  • 추가 실험: 다양한 공격 상황, 시간 비용 분석, 정성적 시각 결과

핵심 요약

ROBIN은 확산 모델 이미지 생성 과정에서 워터마크를 삽입하고 은닉하는 과정을 통합한 방식이다. 주파수 영역 삽입, 프롬프트 기반 은닉, 교대 최적화를 통해 강건성과 은닉성을 동시에 달성한다. 다양한 공격에 대한 복원 성능이 높고, 이미지 품질 손실도 최소화되어 실용성이 높은 워터마킹 프레임워크로 제안된다.


 

A Watermark for Large Language Models” (Kirchenbauer et al. 2023) 

논문 요약 및 핵심 아이디어

동기 및 문제 제기

  • 대형 언어 모델(LLM)이 만들어 내는 텍스트는 사람이 구분하기 어려워, 허위 정보 확산, 표절·학술부정 등의 위험을 낳음.
  • 기존 방식들은 생성된 텍스트를 사후 탐지하는 접근이 많지만, 텍스트가 일부 수정되면 탐지가 어려워지는 한계가 있음.
  • 이 논문은 생성 과정 중에 워터마크를 삽입해서, 인간에게 눈에 띄지 않지만 알고리즘으로 판별 가능한 패턴을 만드는 방식을 제안함. (arXiv)

제안 방식 (기법 구조)

논문에서는 다음과 같은 방식으로 워터마크를 삽입하고 검출함:

  1. 그린 토큰(green token) 집합 선택
    • 단어를 생성하기 전에 전체 어휘(vocabulary) 중 일부를 무작위로 “green” 토큰 집합으로 선택.
    • 이 집합은 매 생성 위치마다 새로 정해질 수 있음. (arXiv)
  2. 소프트 프로모션(soft promotion) 방식
    • 텍스트 생성 시 토큰 샘플링 단계에서, 그린 토큰들이 선택될 확률이 약간 더 높게 조정됨 (bias를 줌).
    • 이 수정은 너무 강하면 텍스트 품질이 나빠지므로 약하게 조정됨. (Proceedings of Machine Learning Research)
  3. 검출 방식 (statistical test)
    • 짧은 텍스트 구간(token span)만 봐도 워터마크 패턴이 존재하는지 판별할 수 있게, 통계적 검정 방법을 제안
    • p-value 등을 계산해, 텍스트가 워터마크를 포함하는지 여부를 해석 가능하게 함. (Proceedings of Machine Learning Research)
  4. 정보이론적 분석
    • 워터마크가 얼마나 민감하고 강건한지, 잘못 검출될 위험(false positive/negative) 등을 수리적 분석
    • 워터마크 강도 조절과 텍스트 엔트로피 간의 균형을 다룸. (arXiv)
  5. 실험 및 평가
    • 모델: OPT 계열 대형 언어 모델을 사용하여 워터마크 삽입 및 검출 실험
    • 텍스트 품질 영향은 거의 없음 (워터마크 삽입 전후 유사한 품질)
    • 다양한 텍스트 길이에서 검출 정확도, 강건성 등을 평가함 (Proceedings of Machine Learning Research)
    • 보안성 논의: 워터마크가 알려져도 어떻게 대응 가능한지, 공격 가능성 등을 탐색함 (arXiv)

강점 및 한계

강점

  • 텍스트 품질 저하 거의 없음
  • 외부에서 모델 파라미터나 API 접근이 없어도 검출 가능
  • 통계적 검정 방법으로 해석 가능성 제공
  • 정보이론적 분석을 통해 설계 인자 (예: 워터마크 강도) 선택 기준 제시

한계 / 위험 요소

  • 텍스트가 패러프레이징(paraphrase) 되거나 재작성되면 워터마크가 희석될 가능성
  • 워터마크 강도를 너무 높이면 텍스트 자연성이 손상될 위험
  • 워터마크 삽입 방식이 공개되면 공격자가 역설계하거나 제거 시도할 가능성
  • 짧은 텍스트나 아주 작은 span에서는 검출력이 낮을 수 있음

 

반응형