반응형

논문 리뷰 11

[논문 리뷰] AdaMPI : Single-View View Synthesis in the Wild with Learned Adaptive Multiplane Images

TMPI의 baseline model, adaptive depth plane placement   ACM SIGGRAPH 2022 [Submitted on 24 May 2022]https://arxiv.org/abs/2205.11733 Single-View View Synthesis in the Wild with Learned Adaptive Multiplane ImagesThis paper deals with the challenging task of synthesizing novel views for in-the-wild photographs. Existing methods have shown promising results leveraging monocular depth estimation and ..

논문 리뷰 2025.03.07

[논문 리뷰] 3D GENERATION ON IMAGENET (ICLR 2023)

계속 업데이트 수정중https://snap-research.github.io/3dgp/ 3D generation on ImageNet3D generation on ImageNetsnap-research.github.iohttps://openreview.net/forum?id=U2WjB9xxZ9q 3D generation on ImageNet3D generation on ImageNetopenreview.net0. Abstract 기존의 3D-from-2D 생성 모델들은 단일 카테고리 데이터셋에 맞춰 설계됨. 이 데이터셋은 모든 객체가 동일한 크기, 3D 위치, 방향을 가지며, 카메라는 항상 장면의 중심을 가리킴. 따라서 이런 모델들은 다양한 환경에서, 정렬되지 않은 장면을 임의의 카메라 각도에서 렌더링한..

논문 리뷰 2025.03.03

[논문 리뷰] ESD : Erasing Concepts from Diffusion Models (2023 ICCV)

http://arxiv.org/abs/2303.07345 Erasing Concepts from Diffusion ModelsMotivated by recent advancements in text-to-image diffusion, we study erasure of specific concepts from the model's weights. While Stable Diffusion has shown promise in producing explicit or realistic artwork, it has raised concerns regarding its potentialarxiv.org0. Abstractlarge-scale diffusion model이 sexual 콘텐츠나 copyrighted..

논문 리뷰 2025.02.01

[논문 리뷰] DINOv2: Learning Robust Visual Features without Supervision

Metahttps://arxiv.org/abs/2304.07193 DINOv2: Learning Robust Visual Features without SupervisionThe recent breakthroughs in natural language processing for model pretraining on large quantities of data have opened the way for similar foundation models in computer vision. These models could greatly simplify the use of images in any system by producingarxiv.orghttps://github.com/facebookresearch/d..

논문 리뷰 2025.01.23

[떠먹여주는 논문 리뷰] TMPI : Tiled Multiplane Images for Practical 3D Photography(ICCV 23.10)

ICCV 2023Metahttps://arxiv.org/abs/2309.14291 Tiled Multiplane Images for Practical 3D PhotographyThe task of synthesizing novel views from a single image has useful applications in virtual reality and mobile computing, and a number of approaches to the problem have been proposed in recent years. A Multiplane Image (MPI) estimates the scene as a stackarxiv.org https://github.com/facebookresearch..

논문 리뷰 2025.01.17

[논문 리뷰] Sapiens: Foundation for Human Vision Models 및 평가지표 설명

0. AbstractSapiens는 2D 포즈 추정, 신체 부위 세분화, 깊이 추정, 표면 법선 예측이라는 네 가지 인간 중심 비전 태스크를 위한 모델 계열이다. 이 모델은 네이티브로 1K 고해상도 추론을 지원하며, 3억 개 이상의 자연 환경에서 수집된 인간 이미지로 사전 학습된 모델을 간단히 미세 조정하여 각 태스크에 쉽게 적응할 수 있다. 동일한 계산 자원을 사용했을 때, 정제된 인간 이미지 데이터셋에 기반한 자기 지도 사전 학습은 다양한 인간 중심 태스크에서 성능을 크게 향상시킨다는 것을 관찰했다. 결과적으로, 이러한 모델은 라벨이 부족하거나 전적으로 합성된 경우에도 자연 환경 데이터에 대해 놀라운 일반화 성능을 보여준다. 간단한 모델 설계는 확장성도 제공한다. 모델의 파라미터 수를 0.3억에서 2..

논문 리뷰 2025.01.17

[논문 리뷰] DPT : Vision Transformers for Dense Prediction (ICCV 2021)

(이 게시글은 나 참고용으로 대충 )[Submitted on 24 Mar 2021]https://arxiv.org/abs/2103.13413 Vision Transformers for Dense PredictionWe introduce dense vision transformers, an architecture that leverages vision transformers in place of convolutional networks as a backbone for dense prediction tasks. We assemble tokens from various stages of the vision transformer into image-like represearxiv.org https://githu..

논문 리뷰 2025.01.16

[논문 리뷰] 코드 파헤치기 Depth Pro : Sharp Monocular Metric Depth in Less Than a Second (24.09)

오늘 리뷰할 논문은 다음과 같다.1. 논문리뷰(이전 게시물 참고), 2. 코드리뷰필요한 구간으로 넘어가세요! ApplearXiv:2410.02073v1 [cs.CV] 2 Oct 2024 링크 : Depth Pro : Sharp Monocular Metric Depth in Less Than a Second Depth Pro: Sharp Monocular Metric Depth in Less Than a SecondWe present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unparalleled sharpne..

논문 리뷰 2025.01.12

[떠먹여주는 논문 리뷰] Depth Pro : Sharp Monocular Metric Depth in Less Than a Second (24.09)

(계속 수정 업데이트중입니다) 오늘 리뷰할 논문은 다음과 같다.1. 논문리뷰, 2. 코드리뷰(다음 게시물 참고)필요한 구간으로 넘어가세요! ApplearXiv:2410.02073v1 [cs.CV] 2 Oct 2024 링크 : Depth Pro : Sharp Monocular Metric Depth in Less Than a Second Depth Pro: Sharp Monocular Metric Depth in Less Than a SecondWe present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unp..

논문 리뷰 2025.01.05

[논문 리뷰] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

2020 ECCV 수정중1. Introduction이 연구에서는 captured image set의 렌더링 에러를 최소화하기 위한, continuous 5D scene representation의 파라미터들을 최적화하는 novel view synthesis 방법을 다룬다.continuous 5D 함수로 표현 : static scene을 공간의 각 방향 $(\theta, \phi)$, 각 지점 $(x, y ,z)$으로 방출되는 radiance를 출력하는 5D함수각 포인트에서의 density : ray가 $(x, y ,z)$를 통과하면서 얼마나 많은 radiance가 축적되는지 컨트롤링하는 differential opacity(불투명함)같은 역할이 방법은 convolutional layers 없는 deep ..

논문 리뷰 2024.11.09
반응형