반응형

2026/02/12 3

[CV] Attention 메커니즘과 Transformer의 기초

어텐션(Attention) 메커니즘과 트랜스포머의 기초에 대한 내용을 상세하게 정리해 드립니다.크게 기존 Seq2Seq 모델의 한계와 이를 해결하기 위해 등장한 어텐션(Attention) 메커니즘의 작동 원리 및 시각화로 나뉩니다. * computer vision 강의노트 정리한것입니다어텐션(Attention)과 트랜스포머의 기초 (Part 1)1. 서론: 어텐션(Attention)의 등장 배경현대 인공지능, 특히 자연어 처리(NLP)와 컴퓨터 비전 분야에서 가장 중요하고 유명한 개념인 **어텐션(Attention)**과 **트랜스포머(Transformer)**에 대한 2부작 강의 중 첫 번째 시간입니다.목표:어텐션 모듈과 트랜스포머의 개념적 기초를 다집니다.기원:순환 신경망(RNN)이 가진 주요 문제를..

AI/Computer Vision 2026.02.12

[Dataset] ADE20K, NYU Depth V2 download

ADE20K (ADEChallengeData2016)ADE20K는 장면 이해(Scene Parsing)와 의미 분할(Semantic Segmentation)을 목적으로 구축된 대규모 이미지 데이터셋이다. 실내와 실외를 모두 포함하는 다양한 장면으로 구성되어 있으며, 일반적인 객체(object)뿐 아니라 벽, 바닥, 하늘, 도로와 같은 배경(stuff) 클래스가 풍부하게 포함되어 있다는 점이 특징이다.이 데이터셋은 총 약 25,000장의 이미지로 구성되어 있으며, 학습용 약 20,000장과 검증용 약 2,000장, 테스트용 이미지로 나뉜다. 각 이미지에는 픽셀 단위의 semantic segmentation annotation이 제공되며, 총 150개의 클래스가 정의되어 있다. 클래스 수가 많고 장면 구성이..

AI/Dataset 2026.02.12

discriminative의 Invariance, generative의 invertibility 의 상충

1) discriminative에서 invariance(불변성)가 유리하다discriminative 목표 = 분류/검색/유사도 학습처럼“이 이미지가 무엇인가(semantic)”를 잘 구분하는 표현을 만드는 것.이때 좋은 representation이 원하는 성질:같은 객체/같은 장면이면크롭 위치, 배경, 조명, 색감, 약간의 텍스처 변화가 달라도 임베딩이 거의 같아야 함즉, 모델이 중요하지 않은 변화를 무시(=뭉개기)해야 성능이 좋음.예:고양이 사진이 조금 밝아졌다고 “다른 임베딩”이 되면 검색/분류가 흔들림그래서 SSL(DINO/JEPA/SimCLR류)은 augmentation을 걸고도 representation이 유지되게 학습함 → 불변성(invariance)‘뭉개도 되는 정보’ = 분류에 덜 중요한 ..

카테고리 없음 2026.02.12
반응형