반응형

depth 3

[논문 리뷰] Sapiens: Foundation for Human Vision Models 및 평가지표 설명

0. AbstractSapiens는 2D 포즈 추정, 신체 부위 세분화, 깊이 추정, 표면 법선 예측이라는 네 가지 인간 중심 비전 태스크를 위한 모델 계열이다. 이 모델은 네이티브로 1K 고해상도 추론을 지원하며, 3억 개 이상의 자연 환경에서 수집된 인간 이미지로 사전 학습된 모델을 간단히 미세 조정하여 각 태스크에 쉽게 적응할 수 있다. 동일한 계산 자원을 사용했을 때, 정제된 인간 이미지 데이터셋에 기반한 자기 지도 사전 학습은 다양한 인간 중심 태스크에서 성능을 크게 향상시킨다는 것을 관찰했다. 결과적으로, 이러한 모델은 라벨이 부족하거나 전적으로 합성된 경우에도 자연 환경 데이터에 대해 놀라운 일반화 성능을 보여준다. 간단한 모델 설계는 확장성도 제공한다. 모델의 파라미터 수를 0.3억에서 2..

AI/논문 리뷰 2025.01.17

[CV] Depth Estimation (Mono, Stereo), Depth란?

Depth Estimation이란?- 사진/영상에서 깊이를 그대로 추정하는 것을 의미- 가까운 부분은 밝은색, 어두운 부분은 보라색으로 나타난다. - Depth Estimation은 Stereo와 Mono가 존재한다.Mono Depth Estimation : 하나의 image만으로 Depth를 추정하는 방식이다.Stereo Depth Estimation :Stereo Camera로 찍은 left image와 right image가 필요하다.left image와 right image로부터 차이가 얼마나는지로부터 Disparity를 파악할 수 있다. → Depth를 추정Mono depth estimation 이란?Mono depth estimation은 CV에서 depth가 포함된 Stereo camera를..

AI/Computer Vision 2024.11.08

합성곱 신경망(Convolutional Neural Network, CNN) 크기 계산

합성곱 계층 (Convolutional Layers): 입력 이미지의 국소적 feature 학습, 필터를 사용하여 이미지의 부분 부분을 스캔하며 특징 맵을 생성풀링 계층 (Pooling Layers): feature map의 차원을 줄여 계산량을 줄이고, 중요한 feature 추출Fully Connected layer: 마지막 풀링 계층 또는 합성곱 계층에서 생성된 2차원  feature map을 1차원 벡터로 펼치고, 이를 사용하여 각 클래스에 대한 점수를 계산 입력 크기 : H x W필터 크기 : FH x FW출력크기 :  OH x OW패딩 크기 : Pstride 크기 : S라고 하면 - 출력 크기 formula :- Depth = channel의 개수입력 데이터의 channel 개수가 5개라면, (..

AI 2024.06.03
반응형