0. AbstractSapiens는 2D 포즈 추정, 신체 부위 세분화, 깊이 추정, 표면 법선 예측이라는 네 가지 인간 중심 비전 태스크를 위한 모델 계열이다. 이 모델은 네이티브로 1K 고해상도 추론을 지원하며, 3억 개 이상의 자연 환경에서 수집된 인간 이미지로 사전 학습된 모델을 간단히 미세 조정하여 각 태스크에 쉽게 적응할 수 있다. 동일한 계산 자원을 사용했을 때, 정제된 인간 이미지 데이터셋에 기반한 자기 지도 사전 학습은 다양한 인간 중심 태스크에서 성능을 크게 향상시킨다는 것을 관찰했다. 결과적으로, 이러한 모델은 라벨이 부족하거나 전적으로 합성된 경우에도 자연 환경 데이터에 대해 놀라운 일반화 성능을 보여준다. 간단한 모델 설계는 확장성도 제공한다. 모델의 파라미터 수를 0.3억에서 2..