반응형

AI/Computer Vision 16

[CV] BN, Batch Nomarlization 설명, CNN+BN 역할

CNN의 핵심 구조인 Batch Normalization (BN) 과 다양한 Normalization 기법CNN 학습 안정화와 수렴 가속을 위해 왜 normalization이 필요한지, 수식적으로 어떻게 작동하는지, 그리고 실제 학습/테스트 단계에서의 차이점Batch Normalization의 개념등장 배경딥러닝 학습이 깊어질수록 Internal Covariate Shift (내부 공변량 변화) 문제가 생김.즉, 각 레이어 입력 분포가 학습 도중 계속 변해서, 이전 레이어 학습 변화가 다음 레이어에 계속 영향을 줌.그 결과:학습 속도 ↓초기화에 민감학습 불안정해결 아이디어“각 레이어의 출력을 정규화(normalize) 하자!”즉, 한 배치(batch) 내의 activation을 평균 0, 분산 1로 맞추..

AI/Computer Vision 2025.10.23

[CV] FFT란 Fast Fourier Transform

영상에서 샘플링(sampling)이란, 연속적인(아날로그) 영상을 이산적인(디지털) 데이터로 변환할 때 공간적으로 일정 간격으로 신호를 추출하는 과정을 말한다.1. 기본 개념실제 세상에서 빛이 물체에 반사되어 들어오는 영상 신호는 연속적인 빛의 세기(아날로그 신호)이다.그러나 컴퓨터는 연속적인 값을 직접 다룰 수 없기 때문에, 일정한 간격으로만 값을 선택(샘플)하여 이산적인 데이터 형태로 저장해야 한다.이때 각 샘플은 하나의 픽셀(pixel)로 대응된다. 샘플링 : 연속된 빛 신호를 일정한 간격으로 끊어서 픽셀 단위로 표현하는 과정2. 공간적 샘플링(Spatial Sampling)영상의 경우, 시간에 따라 변화하는 신호가 아니라 공간 상의 밝기 분포를 다루므로,샘플링은 공간 좌표(x, y) 방향으로 이루..

AI/Computer Vision 2025.10.16

[CV] Image Processing 개념 총정리! / Image degradation 직접 구현 -②③ (Blur, Periodic Noise, Low Contrast)

저번에 gaussian blur에 대해 알아보았다. 다음 내용을 보고 오면 이해가 편하다.참조 :https://minsunstudio.tistory.com/103 [CV] Image degradation 직접 구현 -① (Blur, Periodic Noise, Low Contrast)① Blur, ② Periodic Noise, ③ Low Contrast의 세 가지 degradation를 library 없이!!! 직접 구현하는 정석적인 방법시작 전나는 Inria Aerial Image Labeling Dataset에서 gt를 골라서 사용하겠다.https://minsunstudio.tistory.comminsunstudio.tistory.comhttps://minsunstudio.tistory.com/10..

AI/Computer Vision 2025.10.16

[CV] Image degradation 직접 구현 -① (Blur, Periodic Noise, Low Contrast)

① Blur, ② Periodic Noise, ③ Low Contrast의 세 가지 degradation를 library 없이!!! 직접 구현하는 정석적인 방법시작 전나는 Inria Aerial Image Labeling Dataset에서 gt를 골라서 사용하겠다.https://minsunstudio.tistory.com/102 [Dataset] Inria Aerial Image Labeling Dataset 설명, download 다운로드 하는 법, .tif 파일Inria Aerial Image Labeling Dataset 이란Link: https://project.inria.fr/aerialimagelabeling/ Inria Aerial Image Labeling DatasetThe dataset..

AI/Computer Vision 2025.10.14

[CV] Diagonal Gaussian Distribution 설명

Diagonal Gaussian Distribution (대각 가우시안 분포) 는 VAE(Variational Autoencoder) 같은 모델에서 latent space를 정의할 때 아주 자주 등장함.1. Gaussian Distribution우리가 아는 정규분포 \(N(μ,σ2)N(\mu, \sigma^2)\) 는 평균(mean) μ 와 분산(variance) σ^2 로 정의1차원에서는 μ 값 중심으로 종 모양 곡선이 생기고, σ 크기에 따라 퍼짐 정도가 달라짐2. 다차원 가우시안 분포VAE의 latent space는 보통 벡터(예: 4채널, 8채널, 256차원 등)라서 다차원 정규분포가 필요.다차원 정규분포: \(p(z) = \frac{1}{(2\pi)^{d/2} |\Sigma|^{1/2}} \e..

AI/Computer Vision 2025.09.29

[CV] Watermark 논문 정리 모음

1. Proactive Deepfake Defence via Identity Watermarking (Yuan Zhao et al., WACV 2023)2. ROBIN: Robust and Invisible Watermarks for Diffusion Models with Adversarial Optimization1. Proactive Deepfake Defence via Identity Watermarking (Yuan Zhao et al., WACV 2023)keyword : Proactive Deepfake Defence, Identity Watermarking논문 개요 및 동기배경과 문제의식Deepfake 기술이 빠르게 발전하면서, 얼굴 이미지나 영상이 실제처럼 보이지만 조작된 콘텐츠가 쉽게 만..

AI/Computer Vision 2025.09.24

[CV] conditional, unconditional image generation / ImageNet class label diffusion 어떻게 이용

1) 두 가지 학습/샘플 방식Unconditional모델이 아무 조건 없이 이미지를 생성함. “그럴듯한 ImageNet 스타일” 이미지를 뽑아냄.→ 라벨(클래스) 을 전혀 쓰지 않음. 폴더 이름도 상관없고, 매핑도 불필요.category X, random하게 생성됨.예전 generative model 은 unconditional을 많이 사용했음.but 조건 없는 생성은 랜덤이고 제어 불가능 → conditional task가 요새는 더 많이 사용됨.모델은 훈련 데이터셋 분포를 학습하면서 이미지를 생성하는데, 조건이 없다면 훈련 중에 본 이미지와 통계적으로 유사한 새 이미지를 생성하게됨.Class-conditional 모델에 클래스 조건을 넣고 “이 클래스처럼 보여야 해”라고 가이드.→ 라벨이 필수. 학..

AI/Computer Vision 2025.09.08

[CV] 2D 3D 그래픽스 용어 총정리!

현대 그래픽스 시스템과 실시간 렌더링, 그리고 컴퓨터 비전/게임 개발 등 다양한 분야에서 핵심적으로 사용되는 용어들1. Graphics (그래픽스) Graphics란 컴퓨터를 이용해 시각적 정보를 생성, 조작, 표현하는 모든 기술과 과정을 말한다. • 컴퓨터 그래픽스는 2D 및 3D 이미지를 생성하는 데 사용되며, 게임, 영화, 디자인, CAD 등 다양한 분야에서 핵심 역할을 한다. • 그래픽스에는 모델링, 텍스처링, 렌더링, 애니메이션 등 여러 단계가 포함된다.2. Rendering 파이프라인 단계 Rendering 파이프라인은 3D 모델을 2D 이미지로 변환하는 일련의 과정을 말한다.주요 단계 : 모델 변환, 뷰 변환, 투영, 클리핑, 뷰포트 변환, 래스터화, 쉐이딩, 텍스처링, 후처리  1. 모델 ..

AI/Computer Vision 2025.03.04

[CV] Xvfb 설정 nvidia-smi랑 연결, error, OpenGL 사용법 /pyglet.canvas.xlib.NoSuchDisplayException: Cannot connect to "None"

pyglet.canvas.xlib.NoSuchDisplayException: Cannot connect to "None"에러 해결 작성 Xvfb :99 -screen 0 1024x768x24 &export DISPLAY=:99glxinfo | grep "OpenGL renderer" 에러나시는분들 openGL 잘 안되는 분들 끝까지 보세유이렇게떠야 잘 연결 된 . 것임 ㅠㅠ(tmpi) ㅇㅇㅇ$ glxinfo | grep OpenGLOpenGL vendor string: NVIDIA CorporationOpenGL renderer string: NVIDIA L4/PCIe/SSE2OpenGL core profile version string: 4.6.0 NVIDIA 550.90.07OpenGL core p..

AI/Computer Vision 2025.01.30

[CV] NVS evaluation metrics, 이미지 합성 평가지표

렌더링된 뷰(합성된 이미지)를 평가하는 데 사용된 네 가지 주요 평가 지표(PSNR, SSIM, LPIPS, MAE/L1)에 대해 수식과 개념 1. PSNR (Peak Signal-to-Noise Ratio, 피크 신호 대 잡음비) • PSNR은 원본 이미지와 합성된 이미지 간의 오차를 역으로 나타내는 지표로, 두 이미지가 얼마나 유사한지를 측정한다. • 신호(signal)는 원본 이미지의 정보, 잡음(noise)는 합성된 이미지의 오류로 간주된다. • 높은 PSNR 값은 원본과 합성된 이미지가 매우 유사하다는 것을 의미한다.• 단위: 데시벨(dB)• PSNR 값이 30dB 이상이면 품질이 우수하다고 간주PSNR은 영상 화질 손실양을 평가하기 위해 사용되는 지표, 이미지 저장, 전송, 압축, 영상 처리 ..

AI/Computer Vision 2025.01.24
반응형