반응형

AI 60

[Dataset] ObjectNet download / ImageNet-V2 dataset download / 무엇인가

ObjectNet / ImageNet-V2 정리1. 왜 보는가ImageNet validation 성능만으로는 모델의 실제 일반화 성능을 충분히 보기 어려움.그래서 보통 ImageNet 계열 OOD 평가셋으로 함께 확인함.그중 대표적으로 많이 쓰는 것이 ImageNet-V2와 ObjectNet임.ImageNet-V2는 원래 ImageNet과 같은 1,000개 클래스를 유지하면서 새로 수집한 테스트셋이고,ObjectNet은 배경, 회전, 촬영 시점 편향을 줄여서 모델의 강건성을 더 엄격하게 보는 테스트셋임. (GitHub)2. ImageNet-V2가 무엇인가ImageNet-V2는 ImageNet benchmark를 다시 점검하기 위해 새로 만든 테스트셋임.원래 ImageNet과 같은 클래스 체계를 따르되, ..

AI/Dataset 2026.04.17

[Dataset] ImageNet-A, ImageNet-R, ImageNet-C download 다운받는법 / DINO eval 방법, 구성

ImageNet-A “natural adversarial examples”용 벤치마크임. 합성 노이즈를 넣은 데이터가 아니라, 현실에서 자연스럽게 찍힌 원본 이미지인데도 기존 ImageNet 분류기가 자주 틀리도록 adversarial filtration으로 선별한 데이터임. 논문 기준으로 7,500장, 그리고 ImageNet-1k 중 200개 클래스 subset으로 구성됨. 그래서 이 벤치마크는 “모델이 진짜 object semantics를 봤는지, 아니면 ImageNet식 편한 cue에 너무 의존했는지”를 보기 좋음. 인간에게는 비교적 쉬운데 모델은 크게 무너질 수 있다는 점이 핵심임.ImageNet-R R은 rendition임. 즉 사진이 아니라 cartoon, painting, sketch, em..

AI/Dataset 2026.04.10

[Dataset] PASCAL VOC Segmentation dataset download 하는법

Pascal VOC 2012는 이미지 분할(Semantic Segmentation) 연구에서 가장 오래되고 널리 사용되는 벤치마크 중 하나이다.특히 모델의 기본적인 성능을 빠르게 확인하거나, 새로운 방법을 검증하는 초기 실험에 적합하다.1. 데이터셋 개요Pascal VOC 2012는 자연 이미지로 구성된 데이터셋이며,각 이미지에 대해 객체의 위치와 클래스 정보가 픽셀 단위로 주어진다.총 클래스 수: 21개 (배경 포함)객체 클래스: 20개배경 클래스: 1개2. 클래스 구성주요 클래스는 다음과 같다.사람: person동물: dog, cat, horse, cow, sheep탈것: car, bus, bicycle, motorbike, train, aeroplane실내/사물: chair, sofa, table,..

AI/Dataset 2026.04.10

[논문리뷰] Visual-RFT: Visual Reinforcement Fine-Tuning (ICCV 2025)

Visual-RFT: Visual Reinforcement Fine-Tuningarxiv: https://openaccess.thecvf.com/content/ICCV2025/papers/Liu_Visual-RFT_Visual_Reinforcement_Fine-Tuning_ICCV_2025_paper.pdf Abstract OpenAI o1 같은 Large Reasoning Models에서의 Reinforcement Fine-Tuning (RFT)은 자신의 답변에 대한 feedback으로부터 학습하는 방식이며, 특히 fine-tuning data가 부족한 응용에서 매우 유용함.DeepSeek-R1 같은 최근의 open-source 연구는, verifiable reward를 사용하는 reinforceme..

AI/논문 리뷰 2026.03.23

[떠먹여주는 논문리뷰] Causal-JEPA: Learning World Models through Object-Level Latent Interventions

preprint, icml 2026 예상 https://arxiv.org/abs/2602.11389 Causal-JEPA: Learning World Models through Object-Level Latent InterventionsWorld models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose Carxiv.org ..

AI/논문 리뷰 2026.03.06

[논문리뷰] Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck

Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck논문의 핵심 요약이 논문은 딥러닝 모델이 학습 데이터에만 존재하는 shortcut에 과도하게 의존하여, 실제 환경에서 예측이 불안정해지는 문제를 해결하고자 합니다. 예를 들어, 소 사진을 학습할 때 푸른 초원 배경과 함께 학습하면, 모델은 '소' 자체보다 '푸른 초원'을 보고 소라고 판단하는 실수를 저지를 수 있습니다. 이 문제를 해결하기 위해 저자들은 '정보 병목(Information Bottleneck, IB)' 원칙을 확장하여 '불필요 정보(Nuisance Information)' 라는 개념을 도입합니다. 모델이 이미지를 분류하는 데 꼭 필요한 핵심 ..

AI/논문 리뷰 2026.03.03

[논문리뷰] Robust Representation Consistency Model via Contrastive Denoising

Robust Representation Consistency Model via Contrastive Denoising핵심 요약 이 논문은 딥러닝 모델을 적대적 공격(adversarial perturbations)으로부터 보호하기 위한 새로운 방법을 제안합니다. 기존의 확산 모델(diffusion model) 기반 방어 기법들은 높은 정확도를 보였지만, 추론 시간이 매우 길다는 큰 단점이 있었습니다. 이 논문은 확산 모델의 노이즈 제거 과정을 생성(generative) 작업이 아닌 판별(discriminative) 작업으로 재해석하여, 성능은 뛰어나면서도 추론 속도를 획기적으로 개선한 모델(rRCM)을 개발했습니다. 그 결과, 기존 확산 모델 기반 방법보다 평균 85배 빠른 속도로 더 높은 인증 정확도(c..

AI/논문 리뷰 2026.02.23

[CV] Attention 메커니즘과 Transformer의 기초

어텐션(Attention) 메커니즘과 트랜스포머의 기초에 대한 내용을 상세하게 정리해 드립니다.크게 기존 Seq2Seq 모델의 한계와 이를 해결하기 위해 등장한 어텐션(Attention) 메커니즘의 작동 원리 및 시각화로 나뉩니다. * computer vision 강의노트 정리한것입니다어텐션(Attention)과 트랜스포머의 기초 (Part 1)1. 서론: 어텐션(Attention)의 등장 배경현대 인공지능, 특히 자연어 처리(NLP)와 컴퓨터 비전 분야에서 가장 중요하고 유명한 개념인 **어텐션(Attention)**과 **트랜스포머(Transformer)**에 대한 2부작 강의 중 첫 번째 시간입니다.목표:어텐션 모듈과 트랜스포머의 개념적 기초를 다집니다.기원:순환 신경망(RNN)이 가진 주요 문제를..

AI/Computer Vision 2026.02.12

[Dataset] ADE20K, NYU Depth V2 download

ADE20K (ADEChallengeData2016)ADE20K는 장면 이해(Scene Parsing)와 의미 분할(Semantic Segmentation)을 목적으로 구축된 대규모 이미지 데이터셋이다. 실내와 실외를 모두 포함하는 다양한 장면으로 구성되어 있으며, 일반적인 객체(object)뿐 아니라 벽, 바닥, 하늘, 도로와 같은 배경(stuff) 클래스가 풍부하게 포함되어 있다는 점이 특징이다.이 데이터셋은 총 약 25,000장의 이미지로 구성되어 있으며, 학습용 약 20,000장과 검증용 약 2,000장, 테스트용 이미지로 나뉜다. 각 이미지에는 픽셀 단위의 semantic segmentation annotation이 제공되며, 총 150개의 클래스가 정의되어 있다. 클래스 수가 많고 장면 구성이..

AI/Dataset 2026.02.12

[논문리뷰] LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics

얀 르쿤의 레 제파!여기서 le: lean - 군더더기없는 이란 뜻이다 논문: https://arxiv.org/pdf/2511.08544깃허브: https://github.com/galilai-group/lejepa GitHub - galilai-group/lejepaContribute to galilai-group/lejepa development by creating an account on GitHub.github.com 목차더보기1. Introduction (서론)2. Background on Joint-Embedding Predictive Architectures (JEPA 배경지식)2.1 What is a JEPA? (JEPA란 무엇인가?)2.2 The Need for Reliable Pre..

AI/논문 리뷰 2026.01.26
반응형