렌더링된 뷰(합성된 이미지)를 평가하는 데 사용된 네 가지 주요 평가 지표(PSNR, SSIM, LPIPS, MAE/L1)에 대해 수식과 개념
1. PSNR (Peak Signal-to-Noise Ratio, 피크 신호 대 잡음비)
• PSNR은 원본 이미지와 합성된 이미지 간의 오차를 역으로 나타내는 지표로, 두 이미지가 얼마나 유사한지를 측정한다.
• 신호(signal)는 원본 이미지의 정보, 잡음(noise)는 합성된 이미지의 오류로 간주된다.
• 높은 PSNR 값은 원본과 합성된 이미지가 매우 유사하다는 것을 의미한다.
• 단위: 데시벨(dB)
• PSNR 값이 30dB 이상이면 품질이 우수하다고 간주
수식
PSNR은 MSE (Mean Squared Error)를 기반으로 계산한다:
1. MSE (Mean Squared Error):
\(\text{MSE} = \frac{1}{MN} \sum_{i=1}^{M} \sum_{j=1}^{N} \left( I(i, j) - K(i, j) \right)^2\)
- I(i, j) : 원본 이미지의 픽셀 값
- K(i, j): 합성된 이미지의 픽셀 값
- M, N : 이미지의 가로, 세로 크기 (픽셀 수)
2. PSNR:
\(\text{PSNR} = 10 \cdot \log_{10}\left(\frac{\text{MAX}^2}{\text{MSE}}\right)\)
- MAX: 이미지 픽셀 값의 최대값 (예: 8비트 이미지는 255)
2. SSIM (Structural Similarity Index, 구조적 유사성)
• SSIM은 두 이미지의 구조적 유사성을 측정하며, 인간의 시각적 인식을 반영한다.
• 단순한 픽셀 차이뿐만 아니라, 명암, 대비, 구조적 패턴을 함께 고려한다.
• SSIM 값은 에서 사이의 값을 가지며, 에 가까울수록 유사성이 높다.
• SSIM은 구조적 품질을 평가하며, PSNR이 놓칠 수 있는 시각적 품질을 보완한다.
수식
SSIM은 세 가지 항목(밝기, 대비, 구조)을 결합하여 계산한다:
1. SSIM:
\(\text{SSIM}(I, K) = \frac{(2\mu_I\mu_K + C_1)(2\sigma_{IK} + C_2)}{(\mu_I^2 + \mu_K^2 + C_1)(\sigma_I^2 + \sigma_K^2 + C_2)}\)
- \(\mu_I, \mu_K\) : 각각 원본 이미지 I와 합성된 이미지 K의 평균값
- \(\sigma^2_I, \sigma^2_K\) : 각각 I와 K의 분산
- \(\sigma_{IK}\) : 와 간의 공분산
- \(C_1, C_2\) : 안정성을 위한 작은 상수
3. LPIPS (Learned Perceptual Image Patch Similarity, 학습된 지각 이미지 패치 유사성)
• LPIPS는 딥러닝 모델(예: VGG-16)로 학습된 지각적 차이를 측정한다.
• 픽셀 단위의 계산 대신, 이미지의 고수준 특징을 기반으로 두 이미지의 품질을 평가한다.
• 값이 낮을수록 두 이미지 간의 차이가 적음을 의미한다.
• LPIPS는 인간의 시각적 인식과 유사한 방식으로 이미지 품질을 평가한다.
• 고급 네트워크를 사용해 더 정교한 비교를 가능하게 한다.
계산 방식
1. 원본 이미지와 합성된 이미지를 딥러닝 모델의 중간 계층을 통과시켜 feature 추출.
2. 두 이미지의 특징 간 유클리드 거리를 계산 :
\(\text{LPIPS}(I, K) = \sum_l w_l \cdot \| \phi_l(I) - \phi_l(K) \|^2\)
- l : 딥러닝 모델 계층
- \(\Phi_l\) : 번째 계층의 특징 추출 함수
- \(w_l\) : 각 계층에 대한 가중치
4. MAE (Mean Absolute Error, 평균 절대 오차)
• MAE는 두 이미지의 픽셀 값 차이의 절대값 평균을 계산한다.
• 값이 낮을수록 두 이미지가 더 유사하다.
• 계산이 간단하고 직관적이다.
• 픽셀 단위의 차이를 평가하기 위해 주로 사용된다.
수식
\(\text{MAE} = \frac{1}{MN} \sum_{i=1}^{M} \sum_{j=1}^{N} |I(i, j) - K(i, j)|\)
- I(i, j) : 원본 이미지의 픽셀 값
- K(i, j): 합성된 이미지의 픽셀 값
- M, N : 이미지의 가로, 세로 크기 (픽셀 수)
5. 평가 방식
(1) 이미지 가장자리에서 15%를 잘라내는 이유
• 이미지 가장자리는 새로운 시점에서 보이지 않던 영역(비가시 영역)이 나타날 가능성이 높다.
• 이러한 영역은 정확히 예측하기 어려워, 평가에 영향을 줄 수 있다.
• 따라서, 가장자리 15%를 잘라내고 나머지 부분만 평가에 사용한다.
(2) 빈 픽셀이 15% 이상인 경우 결과 제외
• 합성된 이미지에서 빈 픽셀(정보가 없는 영역)이 많다면, 그 결과는 신뢰할 수 없다.
• 모든 기준 방법에서 공정성을 유지하기 위해 빈 픽셀이 15%를 초과하면 해당 결과는 평가에서 제외한다.
6. 추가적인 지표
위의 네 가지 이외에도 다음과 같은 지표들이 사용될 수 있다:
1. FID (Fréchet Inception Distance):
• 이미지의 품질과 다양성을 평가.
• 합성된 이미지와 실제 데이터셋 간 분포 차이를 측정.
2. RMSE (Root Mean Squared Error):
• MSE의 제곱근을 취해 계산.
• 오차를 더 민감하게 반영.
3. Perceptual Hashing:
• 이미지를 해싱하여, 시각적 유사성을 비교.
'AI > Computer Vision' 카테고리의 다른 글
[CV] 2D 3D 그래픽스 용어 총정리! (3) | 2025.03.04 |
---|---|
[CV] Xvfb 설정 nvidia-smi랑 연결, error, OpenGL 사용법 /pyglet.canvas.xlib.NoSuchDisplayException: Cannot connect to "None" (0) | 2025.01.30 |
[CV] DeepLabCut 설치 / 사용법 (2) | 2024.06.26 |
[CV] Few-shot learning 이란? (0) | 2024.06.18 |
[CV] 컴퓨터 화면 원점, 좌표 설정 (0) | 2024.06.07 |