반응형

AI/Computer Vision 19

[CV] Attention 메커니즘과 Transformer의 기초

어텐션(Attention) 메커니즘과 트랜스포머의 기초에 대한 내용을 상세하게 정리해 드립니다.크게 기존 Seq2Seq 모델의 한계와 이를 해결하기 위해 등장한 어텐션(Attention) 메커니즘의 작동 원리 및 시각화로 나뉩니다. * computer vision 강의노트 정리한것입니다어텐션(Attention)과 트랜스포머의 기초 (Part 1)1. 서론: 어텐션(Attention)의 등장 배경현대 인공지능, 특히 자연어 처리(NLP)와 컴퓨터 비전 분야에서 가장 중요하고 유명한 개념인 **어텐션(Attention)**과 **트랜스포머(Transformer)**에 대한 2부작 강의 중 첫 번째 시간입니다.목표:어텐션 모듈과 트랜스포머의 개념적 기초를 다집니다.기원:순환 신경망(RNN)이 가진 주요 문제를..

AI/Computer Vision 2026.02.12

[CV] FRR, Anomaly Detection 기본개념, Visually Ambiguous Features 이란

1) False-positive rate(FPR)False positive(거짓 양성) = 사실은 정상인데, 모델이 “이상(anomaly)이다!”라고 잘못 잡는 것.False-positive rate(FPR) = 정상 중에서 그런 오탐이 얼마나 자주 나는지 비율.정상 데이터 개수 = TN(정상이라 맞춘 것) + FP(정상인데 이상이라 틀린 것)FPR = FP / (FP + TN)예시:정상 이미지 1000장 중 30장을 “이상”이라고 잘못 탐지 → FP=30, TN=970FPR = 30 / 1000 = 3%직관: “알람이 얼마나 자주 헛발질하냐”FPR이 높으면 현장에서 쓸 때 경보가 너무 많이 울려서 시스템이 쓸모없어지기 쉬움.2) Anomaly Detection (이상 탐지)목표대부분이 정상인 상황에서,..

AI/Computer Vision 2026.01.13

[CV] 순환 신경망(RNN, Recurrent Neural Networks) 개념 총정리 ! 다양한 아키텍처 유형, 작동 원리, 학습 방법

🏛️ RNN(순환 신경망) 요약 정리1. RNN의 도입 배경: 메모리의 필요성먼저 기존 신경망과 구별되는 RNN의 핵심적인 필요성:가변 길이(Variable Sequence Length):입력 데이터의 길이가 고정되어 있지 않고 변하는 경우를 처리해야 합니다.시간적 의존성(Temporal Dependencies):데이터의 순서와 시간의 흐름에 따른 문맥을 모델링해야 합니다.메모리(Memory)의 도입:RNN은 바로 이 지점에서 '기억(Memory)'이라는 개념을 아키텍처에 도입하여, 이전 단계의 정보를 현재 단계로 전달합니다 2. 5가지 핵심 입력-출력 아키텍처 (Five Primal Architectures)입력과 출력의 형태에 따라 모델을 5가지 범주로 분류하여 설명하였습니다.One-to-One (..

AI/Computer Vision 2025.12.28

[CV] BN, Batch Nomarlization 설명, CNN+BN 역할

CNN의 핵심 구조인 Batch Normalization (BN) 과 다양한 Normalization 기법CNN 학습 안정화와 수렴 가속을 위해 왜 normalization이 필요한지, 수식적으로 어떻게 작동하는지, 그리고 실제 학습/테스트 단계에서의 차이점Batch Normalization의 개념등장 배경딥러닝 학습이 깊어질수록 Internal Covariate Shift (내부 공변량 변화) 문제가 생김.즉, 각 레이어 입력 분포가 학습 도중 계속 변해서, 이전 레이어 학습 변화가 다음 레이어에 계속 영향을 줌.그 결과:학습 속도 ↓초기화에 민감학습 불안정해결 아이디어“각 레이어의 출력을 정규화(normalize) 하자!”즉, 한 배치(batch) 내의 activation을 평균 0, 분산 1로 맞추..

AI/Computer Vision 2025.10.23

[CV] FFT란 Fast Fourier Transform

영상에서 샘플링(sampling)이란, 연속적인(아날로그) 영상을 이산적인(디지털) 데이터로 변환할 때 공간적으로 일정 간격으로 신호를 추출하는 과정을 말한다.1. 기본 개념실제 세상에서 빛이 물체에 반사되어 들어오는 영상 신호는 연속적인 빛의 세기(아날로그 신호)이다.그러나 컴퓨터는 연속적인 값을 직접 다룰 수 없기 때문에, 일정한 간격으로만 값을 선택(샘플)하여 이산적인 데이터 형태로 저장해야 한다.이때 각 샘플은 하나의 픽셀(pixel)로 대응된다. 샘플링 : 연속된 빛 신호를 일정한 간격으로 끊어서 픽셀 단위로 표현하는 과정2. 공간적 샘플링(Spatial Sampling)영상의 경우, 시간에 따라 변화하는 신호가 아니라 공간 상의 밝기 분포를 다루므로,샘플링은 공간 좌표(x, y) 방향으로 이루..

AI/Computer Vision 2025.10.16

[CV] Image Processing 개념 총정리! / Image degradation 직접 구현 -②③ (Blur, Periodic Noise, Low Contrast)

저번에 gaussian blur에 대해 알아보았다. 다음 내용을 보고 오면 이해가 편하다.참조 :https://minsunstudio.tistory.com/103 [CV] Image degradation 직접 구현 -① (Blur, Periodic Noise, Low Contrast)① Blur, ② Periodic Noise, ③ Low Contrast의 세 가지 degradation를 library 없이!!! 직접 구현하는 정석적인 방법시작 전나는 Inria Aerial Image Labeling Dataset에서 gt를 골라서 사용하겠다.https://minsunstudio.tistory.comminsunstudio.tistory.comhttps://minsunstudio.tistory.com/10..

AI/Computer Vision 2025.10.16

[CV] Image degradation 직접 구현 -① (Blur, Periodic Noise, Low Contrast)

① Blur, ② Periodic Noise, ③ Low Contrast의 세 가지 degradation를 library 없이!!! 직접 구현하는 정석적인 방법시작 전나는 Inria Aerial Image Labeling Dataset에서 gt를 골라서 사용하겠다.https://minsunstudio.tistory.com/102 [Dataset] Inria Aerial Image Labeling Dataset 설명, download 다운로드 하는 법, .tif 파일Inria Aerial Image Labeling Dataset 이란Link: https://project.inria.fr/aerialimagelabeling/ Inria Aerial Image Labeling DatasetThe dataset..

AI/Computer Vision 2025.10.14

[CV] Diagonal Gaussian Distribution 설명

Diagonal Gaussian Distribution (대각 가우시안 분포) 는 VAE(Variational Autoencoder) 같은 모델에서 latent space를 정의할 때 아주 자주 등장함.1. Gaussian Distribution우리가 아는 정규분포 \(N(μ,σ2)N(\mu, \sigma^2)\) 는 평균(mean) μ 와 분산(variance) σ^2 로 정의1차원에서는 μ 값 중심으로 종 모양 곡선이 생기고, σ 크기에 따라 퍼짐 정도가 달라짐2. 다차원 가우시안 분포VAE의 latent space는 보통 벡터(예: 4채널, 8채널, 256차원 등)라서 다차원 정규분포가 필요.다차원 정규분포: \(p(z) = \frac{1}{(2\pi)^{d/2} |\Sigma|^{1/2}} \e..

AI/Computer Vision 2025.09.29

[CV] Watermark 논문 정리 모음

1. Proactive Deepfake Defence via Identity Watermarking (Yuan Zhao et al., WACV 2023)2. ROBIN: Robust and Invisible Watermarks for Diffusion Models with Adversarial Optimization1. Proactive Deepfake Defence via Identity Watermarking (Yuan Zhao et al., WACV 2023)keyword : Proactive Deepfake Defence, Identity Watermarking논문 개요 및 동기배경과 문제의식Deepfake 기술이 빠르게 발전하면서, 얼굴 이미지나 영상이 실제처럼 보이지만 조작된 콘텐츠가 쉽게 만..

AI/Computer Vision 2025.09.24

[CV] conditional, unconditional image generation / ImageNet class label diffusion 어떻게 이용

1) 두 가지 학습/샘플 방식Unconditional모델이 아무 조건 없이 이미지를 생성함. “그럴듯한 ImageNet 스타일” 이미지를 뽑아냄.→ 라벨(클래스) 을 전혀 쓰지 않음. 폴더 이름도 상관없고, 매핑도 불필요.category X, random하게 생성됨.예전 generative model 은 unconditional을 많이 사용했음.but 조건 없는 생성은 랜덤이고 제어 불가능 → conditional task가 요새는 더 많이 사용됨.모델은 훈련 데이터셋 분포를 학습하면서 이미지를 생성하는데, 조건이 없다면 훈련 중에 본 이미지와 통계적으로 유사한 새 이미지를 생성하게됨.Class-conditional 모델에 클래스 조건을 넣고 “이 클래스처럼 보여야 해”라고 가이드.→ 라벨이 필수. 학..

AI/Computer Vision 2025.09.08
반응형