반응형

분류 전체보기 121

[논문리뷰] When Does LeJEPA Learn a World Model?

https://arxiv.org/pdf/2605.26379 들어가기 앞서 이 논문은..JEPA/LeJEPA류 self-supervised representation이 latent world structure를 linearly recover할 수 있는 조건을 증명한 이론 논문 1. 한 줄 요약 세계의 실제 latent variable이 독립 Gaussian이고, positive pair가 stationary additive-noise transition으로 생성된다면, LeJEPA의 alignment loss + Gaussian regularization은 관측 이미지 뒤에 숨어 있는 진짜 latent variable을 rotation까지만 애매하게 남기고 선형적으로 복원한다. 하지만 이 보장은 Gau..

AI/논문 리뷰 2026.06.12

[Dataset] ObjectNet download / ImageNet-V2 dataset download / 무엇인가

ObjectNet / ImageNet-V2 정리1. 왜 보는가ImageNet validation 성능만으로는 모델의 실제 일반화 성능을 충분히 보기 어려움.그래서 보통 ImageNet 계열 OOD 평가셋으로 함께 확인함.그중 대표적으로 많이 쓰는 것이 ImageNet-V2와 ObjectNet임.ImageNet-V2는 원래 ImageNet과 같은 1,000개 클래스를 유지하면서 새로 수집한 테스트셋이고,ObjectNet은 배경, 회전, 촬영 시점 편향을 줄여서 모델의 강건성을 더 엄격하게 보는 테스트셋임. (GitHub)2. ImageNet-V2가 무엇인가ImageNet-V2는 ImageNet benchmark를 다시 점검하기 위해 새로 만든 테스트셋임.원래 ImageNet과 같은 클래스 체계를 따르되, ..

AI/Dataset 2026.04.17

[Dataset] ImageNet-A, ImageNet-R, ImageNet-C download 다운받는법 / DINO eval 방법, 구성

ImageNet-A “natural adversarial examples”용 벤치마크임. 합성 노이즈를 넣은 데이터가 아니라, 현실에서 자연스럽게 찍힌 원본 이미지인데도 기존 ImageNet 분류기가 자주 틀리도록 adversarial filtration으로 선별한 데이터임. 논문 기준으로 7,500장, 그리고 ImageNet-1k 중 200개 클래스 subset으로 구성됨. 그래서 이 벤치마크는 “모델이 진짜 object semantics를 봤는지, 아니면 ImageNet식 편한 cue에 너무 의존했는지”를 보기 좋음. 인간에게는 비교적 쉬운데 모델은 크게 무너질 수 있다는 점이 핵심임.ImageNet-R R은 rendition임. 즉 사진이 아니라 cartoon, painting, sketch, em..

AI/Dataset 2026.04.10

[Dataset] PASCAL VOC Segmentation dataset download 하는법

Pascal VOC 2012는 이미지 분할(Semantic Segmentation) 연구에서 가장 오래되고 널리 사용되는 벤치마크 중 하나이다.특히 모델의 기본적인 성능을 빠르게 확인하거나, 새로운 방법을 검증하는 초기 실험에 적합하다.1. 데이터셋 개요Pascal VOC 2012는 자연 이미지로 구성된 데이터셋이며,각 이미지에 대해 객체의 위치와 클래스 정보가 픽셀 단위로 주어진다.총 클래스 수: 21개 (배경 포함)객체 클래스: 20개배경 클래스: 1개2. 클래스 구성주요 클래스는 다음과 같다.사람: person동물: dog, cat, horse, cow, sheep탈것: car, bus, bicycle, motorbike, train, aeroplane실내/사물: chair, sofa, table,..

AI/Dataset 2026.04.10

[논문리뷰] From Culture to Clothing: Discovering the World Events Behind A Century of Fashion Images (ICCV 2021)

https://arxiv.org/abs/2102.01690 From Culture to Clothing: Discovering the World Events Behind A Century of Fashion ImagesFashion is intertwined with external cultural factors, but identifying these links remains a manual process limited to only the most salient phenomena. We propose a data-driven approach to identify specific cultural factors affecting the clothes people weaarxiv.org# fashion, ..

카테고리 없음 2026.04.07

[논문리뷰] Visual-RFT: Visual Reinforcement Fine-Tuning (ICCV 2025)

Visual-RFT: Visual Reinforcement Fine-Tuningarxiv: https://openaccess.thecvf.com/content/ICCV2025/papers/Liu_Visual-RFT_Visual_Reinforcement_Fine-Tuning_ICCV_2025_paper.pdf Abstract OpenAI o1 같은 Large Reasoning Models에서의 Reinforcement Fine-Tuning (RFT)은 자신의 답변에 대한 feedback으로부터 학습하는 방식이며, 특히 fine-tuning data가 부족한 응용에서 매우 유용함.DeepSeek-R1 같은 최근의 open-source 연구는, verifiable reward를 사용하는 reinforceme..

AI/논문 리뷰 2026.03.23

[떠먹여주는 논문리뷰] Causal-JEPA: Learning World Models through Object-Level Latent Interventions

preprint, icml 2026 예상 https://arxiv.org/abs/2602.11389 Causal-JEPA: Learning World Models through Object-Level Latent InterventionsWorld models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose Carxiv.org ..

AI/논문 리뷰 2026.03.06

[논문리뷰] Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck

Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck논문의 핵심 요약이 논문은 딥러닝 모델이 학습 데이터에만 존재하는 shortcut에 과도하게 의존하여, 실제 환경에서 예측이 불안정해지는 문제를 해결하고자 합니다. 예를 들어, 소 사진을 학습할 때 푸른 초원 배경과 함께 학습하면, 모델은 '소' 자체보다 '푸른 초원'을 보고 소라고 판단하는 실수를 저지를 수 있습니다. 이 문제를 해결하기 위해 저자들은 '정보 병목(Information Bottleneck, IB)' 원칙을 확장하여 '불필요 정보(Nuisance Information)' 라는 개념을 도입합니다. 모델이 이미지를 분류하는 데 꼭 필요한 핵심 ..

AI/논문 리뷰 2026.03.03

[Error] RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemmStridedBatched(handle, opa, opb, m, n, k, &alpha, a, lda, stridea, b, ldb, strideb, &beta, c, ldc, stridec, num_batches)`

PyTorch CUBLAS_STATUS_INVALID_VALUE 오류 해결 (Blackwell GPU) 1. 발생한 오류에러 메시지RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemmStridedBatched(handle, opa, opb, m, n, k, &alpha, a, lda, stridea, b, ldb, strideb, &beta, c, ldc, stridec, num_batches)` 발생 위치- 파일: `decoder.py` (ViT 디코더 self-attention)- 대략 368줄: `attention_scores = torch.matmul(query_layer, key_layer.transpose..

Python/Python Error 2026.02.26

[논문리뷰] Robust Representation Consistency Model via Contrastive Denoising

Robust Representation Consistency Model via Contrastive Denoising핵심 요약 이 논문은 딥러닝 모델을 적대적 공격(adversarial perturbations)으로부터 보호하기 위한 새로운 방법을 제안합니다. 기존의 확산 모델(diffusion model) 기반 방어 기법들은 높은 정확도를 보였지만, 추론 시간이 매우 길다는 큰 단점이 있었습니다. 이 논문은 확산 모델의 노이즈 제거 과정을 생성(generative) 작업이 아닌 판별(discriminative) 작업으로 재해석하여, 성능은 뛰어나면서도 추론 속도를 획기적으로 개선한 모델(rRCM)을 개발했습니다. 그 결과, 기존 확산 모델 기반 방법보다 평균 85배 빠른 속도로 더 높은 인증 정확도(c..

AI/논문 리뷰 2026.02.23
반응형