반응형

분류 전체보기 107

[논문리뷰] LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics

얀 르쿤의 레 제파!여기서 le: lean - 군더더기없는 이란 뜻이다 논문: https://arxiv.org/pdf/2511.08544깃허브: https://github.com/galilai-group/lejepa GitHub - galilai-group/lejepaContribute to galilai-group/lejepa development by creating an account on GitHub.github.com 목차더보기1. Introduction (서론)2. Background on Joint-Embedding Predictive Architectures (JEPA 배경지식)2.1 What is a JEPA? (JEPA란 무엇인가?)2.2 The Need for Reliable Pre..

AI/논문 리뷰 2026.01.26

[CV] FRR, Anomaly Detection 기본개념, Visually Ambiguous Features 이란

1) False-positive rate(FPR)False positive(거짓 양성) = 사실은 정상인데, 모델이 “이상(anomaly)이다!”라고 잘못 잡는 것.False-positive rate(FPR) = 정상 중에서 그런 오탐이 얼마나 자주 나는지 비율.정상 데이터 개수 = TN(정상이라 맞춘 것) + FP(정상인데 이상이라 틀린 것)FPR = FP / (FP + TN)예시:정상 이미지 1000장 중 30장을 “이상”이라고 잘못 탐지 → FP=30, TN=970FPR = 30 / 1000 = 3%직관: “알람이 얼마나 자주 헛발질하냐”FPR이 높으면 현장에서 쓸 때 경보가 너무 많이 울려서 시스템이 쓸모없어지기 쉬움.2) Anomaly Detection (이상 탐지)목표대부분이 정상인 상황에서,..

AI/Computer Vision 2026.01.13

[CV] 순환 신경망(RNN, Recurrent Neural Networks) 개념 총정리 ! 다양한 아키텍처 유형, 작동 원리, 학습 방법

🏛️ RNN(순환 신경망) 요약 정리1. RNN의 도입 배경: 메모리의 필요성먼저 기존 신경망과 구별되는 RNN의 핵심적인 필요성:가변 길이(Variable Sequence Length):입력 데이터의 길이가 고정되어 있지 않고 변하는 경우를 처리해야 합니다.시간적 의존성(Temporal Dependencies):데이터의 순서와 시간의 흐름에 따른 문맥을 모델링해야 합니다.메모리(Memory)의 도입:RNN은 바로 이 지점에서 '기억(Memory)'이라는 개념을 아키텍처에 도입하여, 이전 단계의 정보를 현재 단계로 전달합니다 2. 5가지 핵심 입력-출력 아키텍처 (Five Primal Architectures)입력과 출력의 형태에 따라 모델을 5가지 범주로 분류하여 설명하였습니다.One-to-One (..

AI/Computer Vision 2025.12.28

[논문리뷰] Improving 2D Feature Representations by 3D-Aware Fine-Tuning(ECCV 2024)

ECCV 2024 Keywords: Representation learning · Foundation models · Gaussian splatting · Scene understandinghttps://arxiv.org/abs/2407.20229 Improving 2D Feature Representations by 3D-Aware Fine-TuningCurrent visual foundation models are trained purely on unstructured 2D data, limiting their understanding of 3D structure of objects and scenes. In this work, we show that fine-tuning on 3D-aware dat..

AI/논문 리뷰 2025.12.12

Positional Encoding 종류 / 2D Sinusoidal Encoding, Rotary Positional Embedding (RoPE) 개념, inductive bias란 - ViT

Transformer 구조(원래 NLP 분야에서 제안됨)는 현재 Computer Vision 영역에서도 SOTA 성능을 보이고 있다. 그러나 Vision Transformer(ViT)는 CNN과 달리 local processing이나 translation invariance와 같은 spatial inductive bias가 내장되어 있지 않다. 비전 영역에서 ViT는 이미지를 patch 단위로 분해하여 sequence로 처리하는데, 이 과정에서 원래의 2D 구조 정보가 사라진다. 따라서 Positional Encoding(PE)은 ViT가 이미지의 공간 정보를 학습하도록 만드는 핵심 요소이다.Positional Encoding의 중요성Self-attention은 순서를 고려하지 않는(permutation..

카테고리 없음 2025.12.10

[Python] FP16 과 FP32 차이, 학습 수렴 특성이 왜 달라지냐

fp16, fp32는 숫자를 컴퓨터 안에서 어떻게 표현하느냐(부동소수점 형식)를 말하는 데이터 타입 이름쉽게 말해 소수점을 몇 비트로 저장하느냐의 차이​기본 개념FP = floating point (부동소수점). 실수(소수점 있는 숫자)를 표현하는 표준 형식.뒤 숫자는 총 비트 수를 의미함.FP32: 32비트 = 4바이트, 흔히 쓰는 float / single precision.FP16: 16비트 = 2바이트, half precision이라고 부름​왜 중요한가 (딥러닝 관점)비트 수가 많을수록표현 가능한 숫자 범위·정밀도가 커짐 → 연산이 더 정확하고 학습이 안정적.대신 메모리 2배, 연산량도 증가.비트 수가 적을수록메모리·연산은 절약되고 속도는 빨라지지만표현 범위/정밀도가 줄어서 작은 gradient가..

Python 2025.12.04

[논문리뷰] Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models (CVPR 2025)

keyword Diffusion Models, Image, Adversarial Attack 0. Abstract최근 diffusion models의 발전은 image generation에 혁명을 일으켰지만, 예술 작품 복제나 deepfakes 생성과 같은 오용의 위험을 제기함. 기존의 image protection methods는 효과적이지만, protection efficacy, invisibility, latency 사이의 균형을 맞추는 데 어려움을 겪어 실용적인 사용을 제한함. 우리는 latency를 줄이기 위해 perturbation pre-training을 도입하고, performance degradation을 최소화하기 위해 input images에 동적으로 적응하는 mixture-of-pe..

AI/논문 리뷰 2025.11.19

[이론] Wiener filter 설명, wiener filter 수식 유도 자세히

CV 공부먼저 흐름을 파악하려면 이 글들을 참고하는 것이 좋다.https://minsunstudio.tistory.com/103 [CV] Image degradation 직접 구현 -① (Blur, Periodic Noise, Low Contrast)① Blur, ② Periodic Noise, ③ Low Contrast의 세 가지 degradation를 library 없이!!! 직접 구현하는 정석적인 방법시작 전나는 Inria Aerial Image Labeling Dataset에서 gt를 골라서 사용하겠다.https://minsunstudio.tistory.comminsunstudio.tistory.comhttps://minsunstudio.tistory.com/104 [CV] Image Proces..

[이론] Lloyd-Max Quantizer 자세한 수식 유도 설명

먼저 흐름을 파악하려면 이 글들을 참고하는 것이 좋다.https://minsunstudio.tistory.com/103 [CV] Image degradation 직접 구현 -① (Blur, Periodic Noise, Low Contrast)① Blur, ② Periodic Noise, ③ Low Contrast의 세 가지 degradation를 library 없이!!! 직접 구현하는 정석적인 방법시작 전나는 Inria Aerial Image Labeling Dataset에서 gt를 골라서 사용하겠다.https://minsunstudio.tistory.comminsunstudio.tistory.com https://minsunstudio.tistory.com/104 [CV] Image Processing..

[CV] BN, Batch Nomarlization 설명, CNN+BN 역할

CNN의 핵심 구조인 Batch Normalization (BN) 과 다양한 Normalization 기법CNN 학습 안정화와 수렴 가속을 위해 왜 normalization이 필요한지, 수식적으로 어떻게 작동하는지, 그리고 실제 학습/테스트 단계에서의 차이점Batch Normalization의 개념등장 배경딥러닝 학습이 깊어질수록 Internal Covariate Shift (내부 공변량 변화) 문제가 생김.즉, 각 레이어 입력 분포가 학습 도중 계속 변해서, 이전 레이어 학습 변화가 다음 레이어에 계속 영향을 줌.그 결과:학습 속도 ↓초기화에 민감학습 불안정해결 아이디어“각 레이어의 출력을 정규화(normalize) 하자!”즉, 한 배치(batch) 내의 activation을 평균 0, 분산 1로 맞추..

AI/Computer Vision 2025.10.23
반응형