preprint, icml 2026 예상

https://arxiv.org/abs/2602.11389
Causal-JEPA: Learning World Models through Object-Level Latent Interventions
World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C
arxiv.org
Causal-JEPA (C-JEPA) 정리
Causal-JEPA (C-JEPA) 정리: Object-level Latent Intervention으로 상호작용 추론을 강제하는 World Model
0. 한 줄 요약
C-JEPA는 world model에서 JEPA 스타일의 masked prediction을 “이미지 patch”가 아니라 object slot(객체 토큰) 단위로 수행한다. 학습 중 특정 객체를 시간축으로 연속 마스킹해서, 그 객체의 상태를 다른 객체들과의 상호작용으로부터 반드시 추론하게 만들고(= latent intervention), 그 결과 counterfactual 질문 성능이 크게 오르고, planning(MPC)이 훨씬 빨라진다고 주장한다.
1. 배경: 왜 “객체 중심”만으로는 부족한가?
1.1 World model에서 중요한 건 “상호작용”
World model은 비디오/환경 관측을 보고 미래를 예측해 **추론(reasoning)**이나 **제어(control)**에 쓰는 모델이다. 여기서 핵심은 객체들이 서로 영향을 주는 interaction-dependent dynamics(충돌, 밀기, 가리기 등)이다.
1.2 기존 object-centric도 shortcut을 찾기 쉬움
객체 단위 표현을 쓰더라도, 모델이 손실을 줄이는 쉬운 길(예: 객체별 자기-동역학만 맞추기)을 찾아 상호작용을 “필수로” 배우지 않을 수 있다는 문제의식을 제기한다.
1.3 Patch 기반 masked prediction의 한계
Patch 토큰은 수가 많고(Transformer 비용 증가), 마스킹 복원이 **국소 상관(local correlation)**에 의존해도 손실이 줄어드는 경우가 있어, 상호작용 추론을 구조적으로 강제하기 어렵다는 맥락이다.
2. 핵심 개념 정리: Slot / JEPA / Planning
2.1 Slot(슬롯) = “객체 토큰(object token)”
- 일반 ViT 토큰: 이미지 patch(조각) 단위 토큰
- Slot 토큰: 장면을 구성하는 객체 단위의 토큰
- 보통 token 수가 크게 줄어듦 (예: patch 수백 개 vs slot 수 8~16개 같은 형태)
논문은 각 프레임 XtX_t를 object-centric encoder gg로 변환해 slot 집합 StS_t를 만든다고 둔다.
2.2 JEPA( Joint Embedding Predictive Architecture )
- 픽셀을 직접 복원하기보다, latent/embedding space에서 목표 표현을 예측하는 방식
- “context에서 target representation을 맞추자”가 기본 골격
C-JEPA는 이 JEPA 스타일을 object slot representation으로 확장한다.
2.3 Planning(플래닝) / MPC
- planning = “미래를 여러 후보 행동에 대해 예측해, 어떤 행동이 좋은지 고르는 과정”
- MPC(Model Predictive Control) = 매 스텝마다 여러 행동 시퀀스를 rollout으로 평가하고, 첫 행동을 실행한 뒤 다시 계획하는 전형적인 planning 방식
Transformer world model은 token 수가 늘면 계산량이 커지므로, slot 기반의 “적은 토큰”은 planning을 빠르게 만들 수 있다(논문 실험의 중요한 포인트).
3. 방법: Object-level Latent Intervention (핵심 아이디어)
3.1 무엇을 “개입(intervention)”하나?
데이터 생성 과정(환경 자체)을 바꾸는 게 아니라, predictor가 관측할 수 있는 정보(visibility/observability)를 latent에서 일부러 제거한다. 즉, “관측 조건”을 바꾸는 개입이다. 논문은 이를 latent intervention으로 해석한다.
3.2 어떻게 마스킹하나?
- 시간 tt마다 slot들이 있고, 특정 객체 slot들을 골라
- **여러 프레임에 걸쳐 연속적으로 마스킹(temporal masking)**한다
- 단, 그 객체가 “누구인지” 정도만 알 수 있는 minimal identity anchor는 남겨 둔다고 설명한다(정체성 힌트만 남기기)
결과적으로 predictor는 “그 객체의 과거/미래 상태”를 **다른 객체들과의 상호작용 + 보조 변수(action 등)**로부터 추론해야 한다.
3.3 왜 counterfactual-like인가?
실제로 환경에서 객체를 제거하거나 다른 세계를 생성하지는 않지만,
- “특정 객체에 대한 정보가 관측에서 사라진 세계”라는 조건을 만들어
- 상호작용 기반 추론을 요구하는 가상의(반사실적에 가까운) 예측 문제를 구성한다는 의미로 “counterfactual-like”라고 부른다.
4. 학습 목표: “가려진 과거 복원 + 미래 예측”의 Joint Objective
C-JEPA predictor는
- **masked된 object slot(과거 일부)**을 복원하고
- 동시에 future object slots를 예측한다
이 둘을 함께 최적화하는 joint objective로 interaction reasoning이 “기능적으로 필요”해진다고 주장한다.
5. 실험 결과 요약: 무엇이 좋아졌나?
5.1 Visual Reasoning (CLEVRER)에서 counterfactual 큰 향상
- CLEVRER(다중 객체 상호작용 비디오 QA)에서
- 동일 아키텍처 대비 object-level masking을 넣으면
- counterfactual reasoning이 약 20%p 절대 향상됐다고 보고한다.
5.2 Control / Planning (Push-T, MPC)에서 매우 효율적
- Push-T 조작 과제의 MPC setting에서
- patch 기반 world model(DINO-WM 등) 대비
- 입력 latent feature/token을 약 1.02%만 사용하면서 성능은 comparable,
- 결과적으로 MPC planning이 훨씬 빨라짐(논문은 8× 이상 빠르다고 서술).
6. 이 논문의 주장(메시지) 3줄 요약
- Object-centric representation 자체는 유용하지만, 상호작용 학습을 보장하지는 않는다.
- 그래서 object-level temporal masking을 latent intervention으로 설계해, 상호작용 추론이 없으면 loss를 줄이기 어렵게 만든다.
- 그 결과 counterfactual QA가 크게 개선되고, 적은 토큰으로도 빠른 planning이 가능하다고 보고한다.
Abstract
World models는 prediction, reasoning, control을 지원하기 위해 robust한 relational understanding이 필요함.
object-centric representation은 유용한 abstraction을 제공하지만, interaction-dependent dynamics를 포착하기에는 충분하지 않음.
이에 따라 우리는 image patches에서 object-centric representations으로 masked joint embedding prediction을 확장한, 단순하면서도 유연한 object-centric world model인 C-JEPA를 제안함.
객체의 state를 다른 객체들로부터 추론하도록 요구하는 object-level masking을 적용함으로써, C-JEPA는 counterfactual-like effect를 갖는 latent intervention을 유도하고 shortcut solution을 방지하며, 그 결과 interaction reasoning이 필수적이 되게 만듦.
실험적으로 C-JEPA는 visual question answering에서 일관된 성능 향상을 보이며, object-level masking이 없는 동일한 architecture와 비교했을 때 counterfactual reasoning에서 절대 향상폭 기준 약 20%의 improvement를 달성함.
agent control task에서는 C-JEPA가 patch-based world model에 필요한 전체 latent input feature의 1%만 사용하면서도 comparable한 performance를 달성해, 훨씬 더 효율적인 planning을 가능하게 함.
마지막으로 우리는 object-level masking이 latent intervention을 통해 causal inductive bias를 유도함을 보여주는 formal analysis를 제시함.
코드는 github.com/galilai-group/cjepa 에서 확인할 수 있음.
Counterfactual(반사실적)은 '이미 일어난 사실(fact)과 반대(counter)되는 상황을 가정하는 것'을 뜻합니다. "만약 ~했더라면, ~했을 텐데"와 같이 과거의 일이나 상황을 다르게 가정하여 인과관계를 따지거나 대안을 상상하는 생각 방식(반사실적 사고)을 의미
마스킹이 counterfactual-like 효과를 만든다? slot?
마스킹이 counterfactual-like 효과를 만든다? slot?
1. “counterfactual-like 효과”가 무슨 말인가
(1) counterfactual의 의미
AI / causal inference에서 counterfactual은
“실제로 관측된 상황이 아니라, 다른 상황이었으면 어떻게 되었을까?”
를 의미함.
예시:
실제 상황
공 A가 공 B와 충돌 → B가 움직임
counterfactual 질문
만약 A가 없었다면?
→ B는 움직이지 않았을 것
즉 원인-결과 관계를 묻는 질문임.
(2) 그런데 이 논문은 실제 counterfactual 데이터를 만들지 않음
실제 counterfactual을 만들려면
- 객체를 제거한 새로운 영상을 생성해야 함
- 또는 시뮬레이션 환경이 필요함
하지만 논문은 그렇게 하지 않고
latent space에서 관측을 가려버림(masking).
(3) 논문이 하는 것
예를 들어 영상이
t1 t2 t3 t4 t5
객체 3개
A B C
이라고 하면
원래 입력
A(t1,t2,t3)
B(t1,t2,t3)
C(t1,t2,t3)
논문에서 일부러 이렇게 바꿈
A(t1,t2,t3)
B(??,??,??) ← 시간축으로 가림
C(t1,t2,t3)
즉
B 객체의 과거 상태를 숨김
(4) 모델이 해야 하는 것
모델은 이제
A 움직임
C 움직임
을 보고
B는 어떻게 움직였을까?
를 추론해야 함.
예를 들면
A가 오른쪽으로 날아감
→ B와 충돌했을 가능성
→ B는 왼쪽으로 움직였을 것
이렇게 상호작용을 이용해 추론하게 됨.
(5) 그래서 counterfactual-like
실제로 B를 제거하지는 않았지만
모델 입장에서는
B의 상태를 관측할 수 없는 세계
가 된 것.
그래서
"만약 B를 직접 보지 못한다면?"
이라는 가상의 관측 조건이 만들어짐.
이게 논문에서 말하는
counterfactual-like training signal
임.
핵심:
객체 정보를 일부러 가려서
다른 객체들과의 인과적 상호작용을 통해 추론하도록 강제함
2. slot이 뭐냐 (이게 더 중요함)
이 논문은 object-centric representation을 사용함.
즉
패치 토큰
이 아니라
객체 토큰
을 사용함.
여기서 객체 토큰을 slot이라고 부름.
(1) 일반적인 ViT
이미지
256×256
patch
16×16
토큰 수
(256/16)^2 = 256 tokens
각 토큰
patch feature
즉
토큰 = 이미지 조각
(2) slot representation
slot은
토큰 = 객체
임.
예
영상에
공
벽
로봇팔
이 있으면
slot1 → 공
slot2 → 벽
slot3 → 로봇팔
slot4 → background
이렇게 표현함.
그래서
N slots << patch tokens
보통
8 ~ 16 slots
정도.
(3) slot은 어떻게 얻냐
대표적인 방법이
Slot Attention
논문:
Locatello et al. 2020
Object-Centric Learning with Slot Attention
과정
CNN / ViT feature map
↓
slot attention
↓
K개의 object slots
각 slot은
d-dimensional vector
임.
(4) 직관
patch 방식
[patch1][patch2][patch3][patch4] ...
slot 방식
[object1][object2][object3]
그래서 장점
token 수 감소
object reasoning 가능
planning 효율 ↑
3. 논문에서 slot이 중요한 이유
이 논문의 masking은
patch masking이 아니라
object masking
임.
즉
기존
mask patch
논문
mask object slot
예
slot1 → 공
slot2 → 로봇
slot3 → 벽
mask
slot2 (로봇)
그러면 모델은
공 + 벽 움직임
으로
로봇 상태
를 추론해야 함.
4. 왜 patch masking보다 좋다고 주장하냐
patch masking 문제
local correlation shortcut
예
patch A ≈ patch B
이런 것만 이용해도 복원이 가능함.
그래서
interaction reasoning
을 학습하지 않아도 됨.
하지만
object slot masking
은
전체 객체 상태
가 사라지기 때문에
다른 객체와의 관계를 이해하지 않으면 복원 불가능
5. 핵심 요약
counterfactual-like masking
객체의 관측을 일부러 숨김
→ 다른 객체로부터 상태 추론
→ 인과적 상호작용 학습
slot
slot = object token
예
slot1 = ball
slot2 = robot
slot3 = wall
즉
patch token → pixel region
slot token → object
Planning?
Planning?
AI에서 매우 중요한 개념인데, 특히 world model / reinforcement learning / robotics에서 자주 나옴.
1. Planning(플래닝)이란 무엇인가
간단히 말하면
미래를 예측해서 어떤 행동을 할지 결정하는 것
예시 1 — 로봇 팔
로봇 팔이 공을 밀어 목표 위치로 보내야 한다고 하자.
현재 상태
공 위치: (x1,y1)
목표 위치: (x2,y2)
로봇이 할 수 있는 행동
push left
push right
push forward
push backward
여기서 로봇은
어떤 행동을 하면
미래 상태가 어떻게 될까?
를 여러 번 시뮬레이션해서
가장 목표에 가까워지는 행동
을 선택한다.
이 과정이 바로
planning이다.
2. world model + planning 구조
요즘 많은 연구가 이 구조를 사용함.
구조는 이렇게 생긴다.
현재 상태
↓
world model
↓
미래 상태 예측
↓
어떤 행동이 좋은지 평가
↓
최적 행동 선택
즉
행동 → 미래 예측 → 행동 선택
을 반복하는 것.
3. MPC (Model Predictive Control)
논문에서 나온 MPC도 설명할게.
MPC는 planning 방법 중 하나다.
작동 방식
1. 여러 행동 시퀀스를 만든다
ex)
A1 A2 A3
B1 B2 B3
C1 C2 C3
2. world model로 미래를 예측
3. 가장 좋은 시퀀스를 고른다
4. 첫 행동만 실행한다
5. 다시 planning 한다
그래서 이름이
Model Predictive Control
이다.
4. 그런데 왜 "token 수"가 중요할까
world model은 보통
Transformer
를 사용한다.
Transformer의 계산량은
O(N²)
이다.
여기서
N = token 수
이다.
예
patch 기반 모델
patch tokens = 256
attention cost ≈ 256²
object-slot 모델
slot tokens = 8
attention cost ≈ 8²
계산 차이
256² = 65536
8² = 64
즉
1000배 이상 차이
가 날 수 있다.
5. 그래서 논문이 주장하는 것
기존 world model
patch tokens 많음
→ planning 느림
이 논문
object slots 몇 개만 사용
→ token 수 극소
→ planning 매우 빠름
그래서 논문에서
1.02% tokens
이라고 말하는 것.
즉
patch tokens 대비
1% 수준만 사용
한다는 뜻이다.
6. Push-T 환경
논문에 나오는 Push-T는 로봇 환경이다.
문제
로봇이 T 모양 블록을 밀어서
목표 위치로 이동시키기
과정
카메라 영상 입력
↓
world model이 미래 예측
↓
어떤 방향으로 밀지 planning
↓
로봇 행동 실행
7. 왜 slot representation이 유리한가
patch 기반 world model
256 tokens
→ 계산량 큼
→ planning 느림
object-slot world model
공
벽
로봇
바닥
처럼
4~8 tokens
만 있으면 된다.
그래서
planning speed ↑
이 된다.
8. 핵심 정리
논문 문장의 의미는 이것이다.
기존 방식
patch tokens 많음
→ planning 계산량 큼
이 논문
object slots 사용
→ token 수 극소
→ planning 빠름
그래서
patch token 대비 1.02%만 써도 성능 유지
라고 말하는 것이다.
9. 사실 이 논문에서 더 중요한 포인트
planning보다 더 중요한 것은
object interaction reasoning
이다.
즉
A가 B를 밀면
B가 움직인다
같은 객체 상호작용을 world model이 이해하게 만드는 것.
Jepa가 뭔지, 이 논문에서 joint objective를 어떻게 쓰는지 / slot encoder는 뭘 쓰는지 / predictor 입력·출력 텐서가 어떻게 생기는지
- JEPA가 정확히 무엇인지
- 이 논문에서 joint objective가 무엇인지
- slot encoder는 어떤 역할인지
- predictor의 입력/출력 텐서가 어떻게 생겼는지
1. JEPA가 무엇인가 (이 논문을 이해하려면 가장 중요)
JEPA는 Joint Embedding Predictive Architecture다.
Meta(Yann LeCun 그룹)가 제안한 self-supervised world model 구조다.
핵심 철학:
픽셀을 복원하지 말고
representation을 예측하자
즉
기존 SSL
input image
↓
encoder
↓
representation
↓
decoder
↓
pixel reconstruction loss
JEPA
context image
↓
encoder
↓
context representation
↓
predictor
↓
target representation
loss는
prediction representation ≈ target representation
이다.
즉 representation space prediction이다.
JEPA 기본 수식
보통 이렇게 표현된다.
z_c = E(x_c)
z_t = E(x_t)
ŷ_t = P(z_c)
Loss = ||ŷ_t − z_t||²
의미
E : encoder
P : predictor
x_c : context
x_t : target
즉
context representation
→ predictor
→ target representation 예측
2. 이 논문에서 JEPA가 어떻게 변형됐나
이 논문은 C-JEPA (Causal JEPA)다.
일반 JEPA
image patches
C-JEPA
object slots
으로 representation을 만든다.
즉
patch tokens → object tokens
3. Slot Encoder (논문 구조)
이 논문은 object-centric representation을 사용한다.
그래서 입력 이미지 → 객체 token으로 바꾼다.
구조
image
↓
visual encoder (CNN / ViT)
↓
feature map
↓
slot attention
↓
K object slots
slot 수
K ≈ 8~16
각 slot
slot_i ∈ R^d
예
d = 256
그러면
slots = (K, d)
중요한 점
slot encoder = frozen
즉
slot representation을 학습하지 않는다
왜냐하면 object discovery 문제를 피하려고 한다.
즉
representation learning
vs
dynamics learning
을 분리한다.
4. 입력 시퀀스 구조
world model이므로
입력은 video sequence다.
예
T = 6 frames
K = 8 slots
d = 256
slot encoder를 통과하면
S ∈ R^(T × K × d)
즉
time × objects × feature
예시
t1 → [slot1 slot2 slot3 ... slot8]
t2 → [slot1 slot2 slot3 ... slot8]
t3 → [slot1 slot2 slot3 ... slot8]
5. Object-level masking (논문 핵심)
논문에서 일부 slot을 가린다.
예
object 3
을 가리면
t1: slot3 = mask
t2: slot3 = mask
t3: slot3 = mask
즉
temporal masking
이다.
그래서 모델은
다른 객체들을 보고
mask된 객체 상태를 추론
6. Predictor 구조
predictor는 보통 Transformer다.
입력
context slots
형태
X ∈ R^(T × K × d)
flatten 하면
tokens = T*K
그래서 transformer 입력
(T*K , d)
predictor 역할
predictor는 두 가지를 한다.
1️⃣ masked past reconstruction
가려진 과거 슬롯 복원
slot(t,k)
예측
2️⃣ future prediction
미래 슬롯 예측
예
t+1
t+2
7. Joint Objective
그래서 loss가 두 개다.
(1) masked slot reconstruction
L_mask = ||ŝ_t,k − s_t,k||²
의미
mask된 object slot 복원
(2) future prediction
L_future = ||ŝ_(t+Δ,k) − s_(t+Δ,k)||²
의미
future object state prediction
전체 loss
L_total = L_mask + λ L_future
8. Predictor 입력 / 출력 텐서
정리하면
입력
context slots
shape:
(T × K , d)
예
T = 6
K = 8
d = 256
input tokens = 48
출력
predictor는
masked slots + future slots
를 예측한다.
shape
(T' × K , d)
예
T' = masked + future
9. 전체 파이프라인
video frames
↓
slot encoder (frozen)
↓
object slots (T,K,d)
↓
temporal masking
↓
predictor transformer
↓
masked slots + future slots prediction
↓
JEPA loss
10. 왜 이렇게 설계했나 (논문의 핵심 철학)
논문의 핵심 아이디어
object interaction learning
patch 기반 world model
local correlation shortcut
이 생김.
하지만
object slot masking
은
다른 객체와의 interaction
을 이용하지 않으면 복원이 불가능하다.
그래서
causal reasoning
을 학습한다고 주장한다.
11. 이 논문이 사실 무엇과 연결되냐
이 논문은 사실 다음 연구 흐름과 연결된다.
JEPA
↓
object-centric learning
↓
world models
↓
causal representation learning
즉
slot attention + JEPA + world model
을 합친 구조다.
원하면 내가 다음도 설명해줄게.
이 논문에서 진짜 중요한 부분이다.
1️⃣ 왜 slot encoder를 freeze했는지 (이게 꽤 깊은 이유 있음)
2️⃣ 이 논문이 실제로 causal representation을 배우는지 (많이 논쟁되는 부분)
3️⃣ C-JEPA가 DINO world model보다 planning이 빠른 이유
4️⃣ 이 논문이 사실 JEPA 계열에서 어떤 위치인지 (LeJEPA / I-JEPA 흐름)
특히 2번은 연구적으로 매우 중요한 포인트다.
1. Introduction
World models (Ha & Schmidhuber, 2018)는 복잡한 환경의 dynamics에 대해 학습, prediction, reasoning을 수행하기 위한 통합된 abstraction을 제공함. 또한 high-dimensional observation으로부터 latent space 상에서 직접 scalable한 planning과 control을 가능하게 함 (Hafner et al., 2019; 2025).
효과적인 world modeling의 핵심은 entity와 그들 간의 interaction을 드러내는 representation을 사용하는 데 있음.
이를 통해 spurious pixel-level correlation에 의존하는 것을 피할 수 있음 (Zholus et al., 2022; Nishimoto & Matsubara, 2025; Ferraro et al., 2023; Feng et al., 2025; Lei et al., 2025).
이러한 관점에서 영감을 받아 object-centric model들이 visual dynamics 학습을 위해 폭넓게 연구되어 왔으며 (Kipf et al., 2022; Zadaianchuk et al., 2023; Wu et al., 2023; Mosbach et al., 2025; Villar-Corrales et al., 2023), 최근에는 world model 학습의 기반으로도 활용되고 있음 (Ferraro et al., 2023; Nishimoto & Matsubara, 2025).
그러나 object-centric representation 위에서 학습하는 것만으로는 충분하지 않음.
기존 연구들은 interaction 학습을 유도하는 명시적인 mechanism이 없을 경우, 모델이 object self-dynamics에 의존하거나 우연한 correlation을 활용하는 방향으로 쉽게 fallback될 수 있음을 보여줌 (Villar-Corrales et al., 2023; Lei et al., 2025).
이러한 인식은 interaction을 명시적으로 학습하는 object-centric world model (Kipf et al., 2020; Feng et al., 2025; Mosbach et al., 2025) 또는 causal structure를 학습하는 접근 (Zholus et al., 2022; Nishimoto & Matsubara, 2025; Lei et al., 2025)에 대한 관심을 증가시킴.
이러한 접근들은 종종 temporal dynamics와 object interaction을 분리하거나 (Mosbach et al., 2025; Villar-Corrales et al., 2023; Feng et al., 2025),
attention sparsity를 regularization 하거나 (Lei et al., 2025),
graph structure를 활용하거나 (Kipf et al., 2020),
혹은 downstream-specific method에 의존하는 방식으로 interaction을 강제함 (Ferraro et al., 2023; Nishimoto & Matsubara, 2025).
이들 연구는 world modeling에서 interaction의 중요성을 강조함. 그러나 interaction structure를 learning objective 자체를 통해 기능적으로 필수적인 요소로 만들 수 있는 방법에 대해서는 여전히 열린 문제로 남아 있음.
이에 따라 우리는 object-level intervention으로부터 causal inductive bias를 유도하는 object-centric world modeling 접근인 Causal-JEPA (C-JEPA)를 제안함. 이 방법은 단순하면서도 효과적인 구조를 가짐.
이 설계는 기존의 patch-based masked prediction 접근들이 (He et al., 2022; Fan et al., 2023; Thoker et al., 2025; Tessler et al., 2024; Tong et al., 2022) local patch correlation을 최적화하는 데 집중할 뿐, object-level interaction reasoning을 강제하지 않는다는 사실에서 출발함.
우리는 object-level masking을 제안하며, 이는 모델이 다른 객체들의 변화하는 state로부터 특정 객체의 latent trajectory를 추론하도록 학습시킴. 이 과정에서 학습 중 counterfactual-like intervention이 유도됨.
우리의 masking strategy는 trivial temporal interpolation과 같은 shortcut solution을 방지하며, prediction objective를 최소화하기 위해 interaction reasoning이 필수적으로 요구되도록 만듦.
동시에 C-JEPA는 architecture 측면에서 유연성을 유지하며, action이나 proprioception과 같은 auxiliary variable도 쉽게 통합할 수 있음.
Proprioception(고유수용감각, 固有受容感覺)은 자신의 신체 위치, 자세, 평형 및 움직임(운동의 방향과 정도)을 무의식적으로 감지하는 감각
특히 object-centric representation의 compactness는 Joint Embedding Predictive Architecture (JEPA) (LeCun, 2022)와 결합될 때 더욱 중요한 역할을 함. 이 구조는 모델이 low-dimensional latent space에서 object dynamics를 지배하는 핵심 factor에 집중하도록 유도함. 그 결과 computation 및 memory overhead가 모두 감소됨.
patch-based predictor의 경우 많은 patch token 때문에 attention computation이 quadratic하게 증가함. 반면 entity-level representation에서는 동일한 quadratic attention mechanism이 훨씬 적은 token 집합에 적용됨.
따라서 training 및 inference 비용이 크게 감소함.
Sec. 5에서는 visual reasoning과 predictive control 두 가지 관점에서 C-JEPA를 평가함.
먼저 multi-object interaction을 포함하는 video QA benchmark인 CLEVRER (Yi et al., 2020)에서 방법을 평가하고, object-level masking이 일관된 성능 향상을 유도함을 보임.
특히 C-JEPA는 visual question answering 성능을 향상시키며, object-level masking이 없는 동일한 architecture와 비교할 때 counterfactual reasoning에서 약 20%의 absolute gain을 달성함.
또한 Push-T manipulation task에서 model predictive control (MPC) 환경을 사용해 C-JEPA를 평가함.
patch-based world model인 DINO-WM (Zhou et al., 2025)과 비교했을 때, C-JEPA는 전체 input feature 크기의 1.02%만 사용하면서도 comparable한 task performance를 달성함. 이는 model predictive control 속도가 8배 이상 빨라지는 결과로 이어짐.
마지막으로 Sec. 6에서는 object-level masked prediction을 causal inductive bias 관점에서 형식적으로 분석함.
특히 latent intervention이 training objective를 최소화하기 위해 interaction reasoning을 필수적으로 만들게 됨을 보임.
이를 종합하면 본 논문의 주요 기여는 다음 네 가지로 정리됨.
- C-JEPA를 제안함. 이는 object-level masking을 latent intervention으로 사용하는 object-centric world model이며, interaction-dependent prediction을 강제함.
- C-JEPA는 multi-object interaction 상황에서 visual reasoning 성능을 일관되게 향상시키며, 특히 counterfactual question에서 큰 성능 향상을 보임.
- C-JEPA는 매우 효율적인 predictive control을 가능하게 하며, patch-based world model과 comparable한 성능을 유지하면서도 훨씬 적은 token을 사용하고 MPC planning 속도를 크게 향상시킴.
- object-level masked prediction이 causal inductive bias를 유도하는 과정을 분석함. 이를 통해 interaction reasoning이 기능적으로 필수적인 요소가 됨을 보임.
용어정리
C-JEPA 논문에서 등장하는 핵심 개념 정리
1. Interaction Reasoning (상호작용 추론)
정의
여러 객체(object)가 서로 영향을 주는 관계를 이해하여 상태를 추론하는 능력.
즉 단순히
객체 A의 움직임
만 보는 것이 아니라
객체 A ↔ 객체 B ↔ 객체 C
사이의 **상호작용(interaction)**을 이용해 결과를 예측하는 것이다.
예시
공 두 개가 있는 장면
t1
A → B
t2
A 충돌 B
t3
B 이동
여기서
왜 B가 움직였는가?
라는 질문에 대한 답은
A가 B를 밀었기 때문
이다.
이런 reasoning이 바로
interaction reasoning이다.
왜 중요한가
World model에서 중요한 것은
개별 객체의 움직임
이 아니라
객체들 사이의 인과적 관계
이기 때문이다.
예
충돌
밀기
가리기
붙잡기
2. Agent Control Task
정의
어떤 agent(로봇이나 AI)가 환경에서 목표를 달성하도록 행동을 선택하는 문제.
즉
관측 → 행동 선택 → 환경 변화
과정이다.
예시
로봇 팔이 블록을 목표 위치로 옮기는 문제.
현재 상태
↓
어떤 방향으로 밀까?
↓
행동 실행
↓
새로운 상태
이런 문제를
control task
라고 부른다.
논문에서 사용된 예
Push-T task
로봇이 T 모양 블록을 밀어
목표 위치로 이동
이때 world model이
행동 → 미래 상태
를 예측하고
agent는 그 예측을 이용해
planning
을 한다.
3. Object-level Masking → Latent Intervention → Causal Inductive Bias
이 문장은 논문의 핵심 주장이다.
하나씩 나눠 설명한다.
(1) Object-level Masking
의미
이미지를
patch 단위
가 아니라
객체 단위(object slot)
로 가린다.
예
객체
공
로봇
벽
slot
slot1 = 공
slot2 = 로봇
slot3 = 벽
mask
slot2 (로봇)
(2) Latent Intervention
intervention 의미
causal inference에서
어떤 변수를 강제로 바꾸는 것
예
do(X=0)
이 논문에서는
실제 환경을 바꾸지 않고
latent representation에서
객체 정보를 가려버린다
즉
관측 가능한 정보
를 바꾸는 것이다.
그래서
latent intervention
이라고 부른다.
예
원래
공
로봇
벽
모두 보인다.
하지만 모델 입력에서는
공
?
벽
이 된다.
즉
로봇 상태가 관측 불가능
한 세계가 된다.
(3) Causal Inductive Bias
Inductive Bias
모델이 학습할 때
어떤 종류의 해답을 선호하도록
설계된 구조적 편향
이다.
예
CNN
translation invariance bias
Transformer
pairwise interaction bias
Causal Inductive Bias
모델이
인과 관계
를 학습하도록 유도하는 구조.
이 논문에서 의미
객체를 가려버리면
모델은
다른 객체들과의 상호작용
을 이용하지 않으면
mask된 객체 상태
를 예측할 수 없다.
그래서
interaction reasoning
을 학습하게 된다는 주장이다.
한 문장 요약
object-level masking
→ 일부 객체 정보 제거
→ 다른 객체와의 관계로 추론
→ causal reasoning 학습 유도
4. Object Discovery 문제
의미
이미지에서
어디가 객체인가?
를 자동으로 찾아내는 문제.
예
이미지
공
컵
테이블
하지만 모델은
pixel
만 본다.
그래서
어떤 pixel들이 하나의 객체인지
를 알아내야 한다.
Slot Attention 같은 모델이 하는 일
image features
↓
object grouping
↓
object slots
왜 문제인가
object discovery는
어려운 문제
다.
만약
representation learning
+
dynamics learning
을 동시에 하면
학습이 불안정해질 수 있다.
그래서 논문은
slot encoder freeze
를 사용한다.
즉
객체 representation
은 이미 학습된 모델에서 가져온다.
5. Representation Learning vs Dynamics Learning
이건 world model에서 매우 중요한 구분이다.
Representation Learning
목표
raw observation → 좋은 feature
예
image
↓
encoder
↓
object slots
즉
환경을 잘 표현하는 latent space
를 만드는 것이다.
Dynamics Learning
목표
현재 상태 → 미래 상태
예
object slots(t)
↓
predictor
↓
object slots(t+1)
즉
환경이 어떻게 변하는지
를 배우는 것이다.
두 개를 동시에 하면 생기는 문제
representation이 계속 바뀜
→ dynamics 학습이 어려워짐
그래서 논문에서는
representation (slot encoder)
freeze
하고
dynamics model
만 학습한다.
핵심 정리
Interaction reasoning
객체들 사이 상호작용을 이용한 추론
Agent control task
행동을 선택해 목표를 달성하는 문제
Object-level masking → latent intervention → causal inductive bias
객체 정보를 일부러 가림
→ 다른 객체로부터 상태 추론
→ 인과적 상호작용 학습 유도
Object discovery
이미지에서 객체를 찾는 문제
Representation learning vs dynamics learning
representation learning
= 환경 표현 학습
dynamics learning
= 환경 변화 예측
2. Related Works
2.1. Structured World Models for Dynamics Learning
dynamical scene에서 world modeling을 수행하기 위해서는 entity와 그들 간 interaction을 포착하는 structured representation이 필요함.
데이터 안에 있는 “구조(entities + relations)”가 표현 안에 그대로 드러나도록 만든 representation
(2) Structured representation
representation 자체가 구조를 포함함.
예
을 이렇게 표현
object2: position, velocity
object3: position, velocity
즉, S = {s1, s2, s3}
이게 바로 object-centric structured representation임.
entity = 개체
node = 그래프에서 개체
edge = 개체 사이 관계
일부 접근들은 entity 정보에 대한 weak supervision에 의존함 (Zholus et al., 2022; Ferraro et al., 2023; Lei et al., 2025). 다른 접근들은 reinforcement learning에 특화된 architecture를 사용함 (Ferraro et al., 2023; Nishimoto & Matsubara, 2025).
또 다른 연구들은 object-centric representation을 사용하여 self-supervised 방식으로 일반적으로 적용 가능한 world model을 구축함.
예를 들어, 몇몇 방법들은 architectural factorization을 통해 self-dynamics와 interaction을 명시적으로 분해함 (Feng et al., 2025; Villar-Corrales et al., 2023; Mosbach et al., 2025).
이후 연구들은 reconstruction을 넘어 학습된 representation에서 redundancy를 줄이는 방향으로 발전함.
reconstruction-free 접근이지만 SlotFormer (Wu et al., 2023)는 interaction structure를 명시적으로 강제하지 않음. 또한 C-SWM (Kipf et al., 2020)은 고정된 relational graph에 의존하기 때문에 adaptability가 제한됨.
SPARTAN (Lei et al., 2025)은 latent space에서 직접 world model을 학습하며 sparse attention을 통해 interaction selectivity를 유도함.
그러나 이러한 기존 연구들 중 어느 것도 learning objective 자체를 통해 interaction-aware structure를 유도하지는 못함.
slot attention이란
먼저 object-centric representation이 무엇인가
일반 CNN은 이미지를 이렇게 표현함
image → feature map → vector
예
[0.21, -0.3, 1.8, ...]
문제
이 벡터에는
object
object boundary
object identity
같은 정보가 명시적으로 분리되어 있지 않음.
object-centric representation은 이렇게 표현함
scene = {object1, object2, object3}
즉
S = {s1, s2, s3, ..., sN}
여기서
s_i = object i의 latent representation
예
s1 = ball
s2 = wall
s3 = table
이게 object-centric representation임.
2️⃣ 그런데 문제
이미지에는 object label이 없음.
예
image
만 있음.
그래서 모델이 자동으로 object를 분리해야 함.
이걸 하는 알고리즘이
Slot Attention
임.
3️⃣ Slot Attention 핵심 아이디어
Slot Attention은
feature map → object slots
으로 변환함.
즉
image
↓
CNN / ViT feature
↓
Slot Attention
↓
object slots
4️⃣ Slot이 무엇인가
slot = object representation을 담는 공간
예
slot1
slot2
slot3
slot4
각 slot이
object 하나
를 담당하게 됨.
예
scene
공
벽
테이블
slot 결과
slot1 = 공
slot2 = 벽
slot3 = 테이블
slot4 = background
5️⃣ Slot Attention 알고리즘 (직관)
핵심 아이디어
pixel feature들이
어떤 object slot에 속하는지
경쟁하면서 결정됨
이를
competitive attention
이라고 함.
과정
① feature 추출
이미지
image
→ encoder
feature map
예
64 × 64 × 256
② slot 초기화
slot을 랜덤으로 만듦
slot1
slot2
slot3
slot4
③ attention 계산
각 pixel feature가
어떤 slot에 속할지
확률 계산
예
pixel p → slot1 (0.7)
pixel p → slot2 (0.2)
pixel p → slot3 (0.1)
④ slot 업데이트
slot이 담당하는 pixel feature들을 모아서
slot representation 업데이트
예
slot1 = 공 특징
slot2 = 벽 특징
⑤ 반복
이 과정을 여러 번 반복
attention
→ slot update
→ attention
→ slot update
결과
slot1 = object1
slot2 = object2
slot3 = object3
6️⃣ 결과
Slot Attention 출력
S = {s1, s2, ..., sN}
이게 바로
object-centric representation
임.
각 slot
s_i ∈ R^d
object state vector임.
7️⃣ 논문에서 사용하는 방식
이 논문 pipeline
image
↓
DINOv2 feature
↓
VideoSAUR (Slot Attention)
↓
object slots
↓
C-JEPA predictor
즉
S_t = {s_t^1, s_t^2, ..., s_t^N}
이걸 C-JEPA가 입력으로 사용함.
8️⃣ 왜 Slot Attention이 중요한가
world model에서 중요한 것
object
object interaction
예
공 → 벽
공 → 공
pixel representation에서는
interaction 찾기 어려움
하지만 slot representation에서는
object1 ↔ object2
를 직접 모델링 가능.
9️⃣ 한 줄 핵심
Slot Attention은
image feature → object slots
로 바꾸는 unsupervised object discovery 알고리즘임.
✔️ 정리
Slot Attention
= image에서 object를 자동으로 분리해서
object representation(slot)을 만드는 방법
2.2. Masking-Based Representation Learning
masked image modeling은 representation quality를 향상시키기 위한 scalable self-supervised learning paradigm으로 처음 제안됨 (He et al., 2022; Tong et al., 2022).
이후 연구들은 motion이나 dynamics 정보를 활용하여 특정 영역을 선택적으로 masking하는 guided masking strategy를 탐구하며 representation을 향상시키고자 함 (Fan et al., 2023; Thoker et al., 2025; Tessler et al., 2024).
Nakano et al. (2024)은 masking과 object-centric representation을 결합함. 그러나 computational efficiency를 위해 masking은 image patch token에만 적용하며, object representation은 conditioning signal로만 사용됨.
masking은 causal discovery에서도 latent structure를 식별하기 위한 방법으로 사용됨
(Ng et al.; Yang et al., 2021; Nam, 2023).
하지만 이러한 방법들은 일반적으로 고정된 graph 또는 식별 가능한 graph 구조를 가정하며, disentanglement나 structure recovery에 초점을 맞춤. flexible한 world modeling을 목표로 하지는 않음.
또한 (Xiao et al., 2023)은 masking을 counterfactual variation을 유도하는 방식으로 해석함. 이는 우리의 masking 해석과 일치하는 측면이 있음.
그러나 해당 연구는 structural causal model을 가정하며 robust fine-tuning에 초점을 둠.
이에 반해 우리의 방법은 masking을 object-level latent intervention으로 사용하여 world model에서 predictive dependency를 형성함. 이는 dynamics 학습을 위한 principled inductive bias로 작동함.
이논문새로운점?
6️⃣ 그래서 이 논문의 새로운 점
논문이 말하는 핵심 차이
그리고 masking 대상이 다름.
기존: patch masking
C-JEPA: object masking
3. Preliminaries
Joint Embedding Predictive Architecture
JEPA (LeCun, 2022)는 pixel reconstruction 없이 representation space에서 prediction을 수행하도록 학습하는 self-supervised learning paradigm을 정의함.
이 접근은 데이터의 semantic structure를 포착하는 latent embedding 간 predictive relationship을 모델링하는 데 집중함.
이 formulation은 점진적으로 확장되어 왔음.
image-level masked joint embedding prediction을 수행하는 I-JEPA (Assran et al., 2023)로 확장됨.
이후 video에서 spatiotemporal tube 기반 prediction을 수행하는 V-JEPA (Bardes et al., 2024)로 발전함.
또한 understanding, prediction, planning을 통합하는 V-JEPA2 (Assran et al., 2025)로 추가 확장됨.
reconstruction 기반 objective를 사용하지 않기 때문에 JEPA 스타일 모델은 prediction과 control에 직접적으로 정렬된 representation을 학습함.
따라서 world modeling 및 autonomous decision making에 특히 적합함 (LeCun, 2022; Assran et al., 2023; Bardes et al., 2024; Assran et al., 2025).
prior work (Zhou et al., 2025; Li et al., 2025)를 따라 우리는 frozen target encoder를 사용하며 joint embedding prediction objective를 통해 predictor를 최적화함.
이 과정에서 predicted latent를 target latent와 정렬(alignment)하도록 학습함.
JEPA 계열 모델이 왜 world model에 잘 맞는지 ?
reconstruction 기반 self-supervised learning(예: Autoencoder, VAE, MAE 등)은 입력 이미지를 복원하는 것을 목표로 하기 때문에 texture, 색상, 조명, 배경 패턴과 같은 pixel-level 정보까지 보존하는 representation을 학습하게 됨.
그러나 world modeling이나 control 문제에서는 이러한 세부적인 시각 정보보다 object의 위치, 속도, 상호작용과 같은 dynamics 관련 정보가 더 중요함.
JEPA(Joint Embedding Predictive Architecture)는 pixel reconstruction을 수행하지 않고 representation space에서 미래 latent를 직접 예측하는 방식으로 학습됨.
즉 \(z_t \rightarrow z_{t+1}\)과 같은 predictive relationship을 학습하기 때문에, 모델은 자연스럽게 미래 상태 예측에 필요한 object dynamics나 interaction과 같은 정보 중심의 representation을 학습하게 됨.
그 결과 JEPA 스타일 모델은 reconstruction 중심 모델과 달리 prediction과 control에 직접적으로 유용한 representation을 학습하게 되며, 이러한 특성 때문에 world modeling이나 planning, model-based control과 같은 문제에 특히 적합한 구조로 간주됨.
1️⃣ 먼저 reconstruction 기반 objective가 무엇인가
많은 self-supervised 모델은 reconstruction을 목표로 학습함.
예
입력 이미지 → encoder → latent → decoder → 이미지 복원
loss
원본 이미지 ≈ 복원 이미지
대표 예
- Autoencoder
- VAE
- MAE
- diffusion pretraining
즉 모델 목표
이미지를 최대한 정확히 복원
문제
이미지를 복원하려면 이런 정보도 보존해야 함
texture
pixel detail
noise
lighting
background pattern
하지만 world model에서 중요한 것은 보통
object
motion
interaction
physics
임.
즉 reconstruction objective는
prediction과 직접 관련 없는 정보
도 많이 배우게 만듦.
2️⃣ JEPA는 reconstruction을 하지 않음
JEPA 구조
input → encoder → latent
↓
predictor
↓
future latent prediction
즉
pixel reconstruction ❌
latent prediction ⭕
예
z_t → z_{t+1}
3️⃣ 그래서 representation이 달라짐
reconstruction 모델이 배우는 representation
pixel information
예
texture
edges
fine details
JEPA가 배우는 representation
predictive information
예
object state
motion
interaction
4️⃣ 왜 prediction에 alignment된다고 하는가
JEPA 학습 목표
z_t → z_{t+1}
즉
모델이 잘하려면 latent가
future를 예측하기 쉬운 representation
이어야 함.
그래서 latent는 자연스럽게
dynamics-relevant features
만 남게 됨.
예
남는 정보
object velocity
object position
interaction
버려지는 정보
texture
lighting
background detail
5️⃣ control과 왜 관련 있나
control 문제
예
robot pushing
planning
navigation
이런 문제는
현재 state → 미래 state
를 예측해야 함.
즉 필요한 representation
dynamics state
임.
JEPA는 이미 학습이
future prediction
에 맞춰져 있음.
그래서 논문에서 말하는 것
prediction과 control에 직접적으로 정렬된 representation
6️⃣ 직관적 예시
reconstruction model
representation
object color
texture
background detail
lighting
→ prediction에는 별로 필요 없음
JEPA representation
representation
object position
velocity
interaction
→ future prediction에 바로 사용 가능
7️⃣ 그래서 논문 문장 의미
논문 문장
reconstruction 기반 objective를 사용하지 않기 때문에 JEPA 스타일 모델은 prediction과 control에 직접적으로 정렬된 representation을 학습함.
의 의미
👉 이미지를 복원하는 학습이 아니라
👉 미래를 예측하는 학습을 하기 때문에
representation이 자연스럽게
dynamics
prediction
control
에 중요한 정보 중심으로 만들어진다는 뜻임.
8️⃣ 한 줄 핵심
reconstruction model
= pixel 복원에 좋은 representation
JEPA
= 미래 예측에 좋은 representation
그래서
world model / control
에는 JEPA가 더 잘 맞음.
📌 참고로 이 논문에서 진짜 중요한 이유는 따로 있음.
JEPA가 중요한 이유는 사실
masking + latent prediction
구조 때문임.
이게 바로 C-JEPA가 interaction을 배우게 되는 핵심 이유임.
원하면
왜 object masking이 interaction learning을 강제하는지도 설명해 줄게.
(이게 논문에서 가장 중요한 아이디어임.)
Object-Centric Representation via Slot Attention
Slot Attention (Locatello et al., 2020)은 object-centric representation을 학습하기 위한 메커니즘으로 제안됨.
이 방법은 competitive attention을 통해 feature map을 반복적으로 grouping하여 고정된 개수의 slot으로 구성함.
attention 기반 assignment와 slot update를 반복적으로 수행함으로써 supervision 없이 object-level representation 집합을 생성함.
이후 연구들은 이 formulation을 image에서 video로 확장함 (Kipf et al., 2022; Zadaianchuk et al., 2023; Aydemir et al., 2023; Singh et al., 2022).
image 기반 Slot Attention과 달리 video 확장에서는 시간에 따른 slot identity를 유지해야 하는 추가적인 문제가 존재함.
이는 일반적으로 이전 프레임의 slot을 conditioning signal로 사용하여 slot update를 수행하는 방식으로 해결됨.
특히 VideoSAUR (Zadaianchuk et al., 2023)와 같은 일부 접근은 강력한 pretrained foundation model을 feature encoder로 활용함.
예를 들어 DINO (Oquab et al., 2024)와 DINOv2 (Caron et al., 2021)를 사용하여 large-scale pretraining으로부터 semantic property와 invariance 특성을 계승함.
우리의 framework에서는 Slot Attention을 사용하여 각 observation을 고정된 크기의 object-centric latent state 집합으로 인코딩함.
그 결과 다음과 같은 set representation이 생성됨.
\( S_t = \{ s_t^1, ..., s_t^N \} \)
여기서 각 slot은 장면(scene) 내의 서로 다른 entity(object)에 대응됨.

4. Method
이 섹션에서는 C-JEPA를 소개함. C-JEPA는 training 동안 object-level masking을 적용하여 interaction-aware predictive representation을 유도하는 object-centric latent world model임. 모든 notation은 Appendix A에 정리되어 있음.
4.1. Problem Setting
우리는 image sequence를 통해 관측되는 video 기반 dynamical system을 고려함.
시간 t에서의 pixel-level observation을 \( X_t \in R^{H \times W \times C} \) 로 정의함.
object-centric encoder \( g \)는 각 frame을 object-centric slot 집합으로 매핑함.
\( S_t = g(X_t) = \{ s_t^1, ..., s_t^N \}, \quad s_t^i \in R^d \) (1)
여기서 \( N \)은 slot의 고정된 개수이며, \( d \)는 각 slot의 차원임.
set representation \( S_t \)는 slot ordering에 대해 permutation-equivariant 특성을 가짐.
우리는 길이 \( T_h \)의 history window와 길이 \( T_p \)의 prediction horizon을 고려함.
history window = 모델이 보는 과거 길이
prediction horizon = 모델이 예측할 미래 길이
이에 따라 history index set을 다음과 같이 정의함.
\( T := \{ t - T_h + 1, ..., t \} \)
또한 전체 history–future prediction interval을 다음과 같이 정의함.
\( T := \{ t - T_h + 1, ..., t + T_p \} \)
과거 object state \( S_T \)가 주어졌을 때 world model의 목표는 미래 object state
\( \{ S_{t+1}, ..., S_{t+T_p} \} \)
를 예측하는 것임.

Masked and Visible Object Sets.
history window \( T \) 내의 임의의 time step \( \tau \)에 대해 object set \( S_\tau \)를 masked subset과 unmasked context subset으로 분할함.
시간 \( \tau \)에서 masking되는 object index 집합을
\( M_\tau \subset \{1, ..., N\} \)
로 정의함.
이에 따라 다음과 같이 정의함.
\( S_\tau^m = \{ s_\tau^i \mid i \in M_\tau \}, \quad S_\tau^c = \{ s_\tau^j \mid j \notin M_\tau \} \) (2)
masked set \( S_\tau^m \)은 masking 대상으로 선택된 object state 집합을 의미함. 이들의 observation은 mask token
\( \tilde{S}_\tau^m \)
으로 대체됨.
나머지 state \( S_\tau^c \)는 context로 제공됨.
training 동안 predictor \( f \)는 history window \( S_T \) 내부의 masked token을 복원하도록 학습되며 동시에 미래 state
\( \{ S_{t+1}, ..., S_{t+T_p} \} \)
를 예측하도록 학습됨.
inference 단계에서는 masking 없이 완전히 관측된 history \( S_T \)로부터 forward prediction을 수행하는 데에만 \( f \)가 사용됨.
Auxiliary Observable Variables.
object state 외에도 state transition에 영향을 주는 auxiliary observable variable을 고려함.
예를 들어 action과 proprioceptive signal이 존재할 경우 이러한 변수를
\( U_t = \{ a_t, p_t \} \)
로 표현함.
여기서 \( a_t \)는 action을 나타내며 \( p_t \)는 proprioceptive signal을 나타냄.
이러한 변수들은 object-level state representation 외부의 요소로 취급되며 object state와 함께 additional conditioning input으로 모델에 제공됨.
이를 통해 모델은 unified object-centric framework 내에서 object–object dependency뿐 아니라 action에 의해 매개되는 영향도 함께 포착할 수 있음.
이 방식은 observable source를 auxiliary로 취급하는 관점과 일치함 (Kim et al., 2025).
현실 world model에는 object 말고도 중요한 정보가 있음
예
로봇 pushing task
로봇 action
로봇 팔 위치
sensor 정보
이런 것들이 있음.
예
robot pushes block
이 상황에서 block 움직임은
object interaction
+
robot action
둘 다 영향을 줌.
3️⃣ 그래서 논문이 추가한 변수
논문에서는 object state 말고
다른 관측 가능한 변수도 같이 사용함.
이걸
Auxiliary Observable Variables
라고 부름.
4️⃣ 논문 수식
논문에서
Ut=at,ptU_t = {a_t, p_t}
라고 정의함.
의미
a_t = action
p_t = proprioception
action
예
로봇 팔 힘
로봇 이동 명령
proprioception
robot 내부 센서
예
joint angle
robot arm position
5️⃣ 그래서 전체 상태는 이렇게 됨
object만 있던 상태
StS_t
에서
이렇게 확장됨
Zt=St,UtZ_t = {S_t, U_t}
즉
Z_t =
object states
+
actions
+
robot sensor states
6️⃣ 중요한 설계 포인트
논문에서 강조하는 것
action을 object state에 합치지 않음.
예
다른 방법 (DINO-WM)
object feature + action concat
C-JEPA 방식
object entity
action entity
sensor entity
따로 둠.
즉
entity tokens
로 표현.
예
Z_t = {object1, object2, action, sensor}
7️⃣ 왜 이렇게 하냐
이렇게 하면 모델이
object ↔ object interaction
object ↔ action interaction
둘 다 배울 수 있음.
예
robot action → block movement
block → block collision
8️⃣ 직관적인 예
Push-T task
상황
robot pushes T-shaped block
state
object1 = T block
object2 = table
action = robot push
모델이 배우는 것
action → object movement
object → object collision
9️⃣ 한 줄 핵심
이 섹션 의미
object state 말고도
action이나 robot sensor 같은 변수도
world model 입력으로 같이 사용한다
그리고
object와 섞지 않고
독립된 entity로 넣는다
🔑 이 논문에서 중요한 이유
이렇게 해야
모델이 배우는 관계
object ↔ object
object ↔ action
둘 다 가능함.
블로그용 한 문단 정리
Auxiliary Observable Variables는 object state 외에도 state transition에 영향을 주는 추가적인 관측 변수들을 의미한다. 예를 들어 로봇 환경에서는 object의 움직임이 object 간 interaction뿐 아니라 로봇의 action이나 proprioceptive signal에 의해 결정된다. 이를 위해 논문에서는 이러한 변수를 \(U_t = \{a_t, p_t\}\)로 정의하며, 각각 action과 proprioception을 나타낸다. 전체 시스템 상태는 object states \(S_t\)와 auxiliary variables \(U_t\)를 합쳐 \(Z_t = \{S_t, U_t\}\)로 표현된다. 중요한 점은 action이나 sensor 정보를 object representation에 단순히 concatenation하는 대신 독립적인 entity token으로 취급한다는 것이다. 이를 통해 모델은 object–object interaction뿐 아니라 action에 의해 매개되는 object dynamics까지 하나의 object-centric framework에서 함께 학습할 수 있다.
원하면 다음도 설명해줄게.
이 논문 이해에서 가장 헷갈리는 부분임.
"identity anchor"
이거 이해하면 C-JEPA masking 구조가 완전히 이해됨.
4.2. Causal-JEPA
이제 C-JEPA의 핵심 설계를 설명함. C-JEPA는 interaction-aware dynamics 학습을 위해 object-level masking을 structured latent intervention으로 도입함.
Object-Level Masking for Latent Interventions.
Fig. 2는 object-level masking 방식을 보여줌.
각 시간 step \( t \)에서 object-centric representation \( S_t \)와 auxiliary variable \( U_t \)는 entity token 집합
\( Z_t = \{ S_t, U_t \} \)
로 표현됨.
이 entity token 집합이 predictor의 입력으로 사용됨.
미래 entity token은 항상 prediction을 위해 masking됨.
추가적으로 history window \( T \) 전반에 걸쳐 선택된 객체의 observable latent state도 masking됨.
이 masking은 masking index set \( M \)에 따라 수행됨.
단, 가장 이른 시간 step \( t_0 \)은 identity anchor로 유지됨.
identity anchor는 slot-based representation이 object ordering에 대해 permutation-equivariant 특성을 가지는 문제를 해결하기 위해 도입됨.
이 때문에 entity dimension 방향의 positional encoding은 사용하지 않음. 이는 prior work와 동일한 설정임 (Wu et al., 2023; 2021).
따라서 masked token의 경우 각 entity의 identity 정보가 제공되어야 함.
이를 통해 transformer predictor가 어떤 entity가 masking되었는지 구별하고 올바르게 예측할 수 있음.
구체적으로 masked token은 다음과 같이 정의됨.
\( \tilde{z}_\tau^i = \phi(z_{t_0}^i) + e_\tau \) (3)
여기서 \( \phi \)는 linear projection이며 \( z_{t_0}^i \)는 identity anchor 역할을 함.
또한 \( e_\tau \)는 temporal positional encoding과 결합된 learnable embedding임.
이 masking 연산은 latent-level intervention으로 해석할 수 있음.
즉 prediction이 다른 entity와의 interaction에 의존하도록 강제함.
이 해석에 대해서는 Appendix B.1에서 추가로 설명함.
Learning Objective.
C-JEPA는 object-centric world model에서 latent predictor로 동작하며 masked object representation을 입력으로 받아 dynamics를 학습함.
Fig. 1은 C-JEPA의 전체 architecture와 training procedure를 보여줌.
predictor \( f \)는 bidirectional attention을 사용하는 ViT-style masked transformer임 (Assran et al., 2023; Bardes et al., 2024; Assran et al., 2025).
이를 통해 history window와 future horizon 전반에 걸친 masked object token을 동시에 추론할 수 있음.
여기서 \( \bar{Z}_T \)는 masked input sequence를 의미함.
즉 history window와 future horizon 모두에서 선택된 entity token \( z \)가 mask token \( \tilde{z} \)로 대체된 sequence임 (Fig. 1).
predictor의 출력 latent prediction은 다음과 같음.
\( \hat{Z}_T = f(\bar{Z}_T) \) (4)
training에서는 interval \( T \) 전체에 대해 모든 masked object token을 예측하도록 하는 masked latent prediction objective를 최소화함.
\( L_{mask} = E \left[ \sum_{\tau \in T} \sum_{i=1}^{N} 1[\bar{z}_\tau^i \neq z_\tau^i] \| \hat{z}_\tau^i - z_\tau^i \|_2^2 \right] \) (5)
여기서 indicator
\( 1[\bar{z}_\tau^i \neq z_\tau^i] \)
는 입력에서 masking된 모든 token을 선택하는 역할을 함.
이 masked latent prediction objective는 history window에서의 mask reconstruction과 future horizon prediction의 결합으로 해석할 수 있음.
\( L_{mask} =
E \left[ \| \hat{z}_\tau^i - z_\tau^i \|_2^2 \;|\; i \in M, \tau \le t \right]
+
E \left[ \| \hat{Z}_\tau - Z_\tau \|_2^2 \;|\; \tau > t \right]
\) (6)
첫 번째 history term은 partial observability 상황에서 trivial self-dynamics에 의존하는 것을 억제함.
두 번째 future term은 forward world modeling과의 alignment를 강제함.
결과적으로 object-level masking은 predictive objective를 최소화하기 위해 interaction reasoning이 기능적으로 필수적이 되도록 만듦.
좋은 질문임. 여기서 (1[\cdot]) 는 수학에서 자주 쓰는 indicator function (지시 함수) 표기임.
논문 수식에서 **“어떤 조건을 만족할 때만 값을 1로 주고, 아니면 0으로 주는 장치”**라고 보면 됨.
1️⃣ 표기 의미
수식에 나온 부분
[
1[\bar{z}\tau^i \neq z\tau^i]
]
의 의미는
조건: 입력 token이 원래 token과 다른가?
즉
mask된 token인가?
를 검사하는 것임.
indicator function 정의
[
1[\text{condition}] =
\begin{cases}
1 & \text{조건이 참이면} \
0 & \text{조건이 거짓이면}
\end{cases}
]
2️⃣ 이 논문에서 의미
조건
[
\bar{z}\tau^i \neq z\tau^i
]
이 의미하는 것
입력 token ≠ 실제 token
즉
mask token으로 바뀌었다
라는 뜻임.
3️⃣ 왜 필요한가
loss는 mask된 token만 계산해야 하기 때문임.
예
object 3개
object1 = MASK
object2 = visible
object3 = visible
loss 계산
object1 → 계산
object2 → 계산 안함
object3 → 계산 안함
이걸 수식으로 구현하려면
mask된 token만 선택
해야 하는데 그걸 indicator가 해줌.
4️⃣ 수식에서 실제 역할
loss
[
|\hat{z}\tau^i - z\tau^i|^2
]
앞에
[
1[\bar{z}\tau^i \neq z\tau^i]
]
을 곱함.
그래서
mask된 경우
1 × error = error
loss 계산됨.
mask 안된 경우
0 × error = 0
loss 계산 안됨.
5️⃣ 직관적인 코드 느낌
수식이 실제로 하는 것
loss = 0
for token in tokens:
if token_is_masked:
loss += (pred - target)**2
이걸 수식으로 쓴 것이
[
1[\bar{z}\tau^i \neq z\tau^i]
]
임.
6️⃣ 한 줄 정리
1[조건] 은 indicator function으로, 조건이 참이면 1, 거짓이면 0이 되는 함수이며
이 논문에서는 mask된 token에 대해서만 loss를 계산하기 위해 사용된다.


Remark 1 (Causal Interpretation of Object-Level Masking)
C-JEPA에서는 object state와 exogenous variable 간의 structured dependency에 의해 prediction이 결정됨.
exogenous:외부에서들어온
그러나 고정된 causal graph를 가정하거나 명시적으로 parameterize하지는 않음.
여기서 “causal”이라는 용어는 causal identifiability를 주장하는 것이 아니라,
과거 object state에서 미래 state로 이어지는 temporally directed predictive dependency가 object-level masking 상황에서도 안정적으로 유지된다는 의미로 사용됨.
object-level masking은 training 동안 특정 object state 접근을 제거하여 counterfactual-like query를 생성하는 latent intervention으로 작동함.
이로 인해 interaction 관련 variable에 의존하도록 강제하는 causal inductive bias가 도입됨.
Lei et al. (2025)의 관찰과 유사하게 predictor의 attention mechanism은 state-dependent interaction pattern을 형성함.
이는 predictive influence를 포착하는 soft하고 local한 relational structure로 해석될 수 있음.
이 해석은 Sec. 6에서 형식적으로 정리함.
Inference.
inference 단계에서 C-JEPA는 Eq. (4)에 따라 forward latent prediction을 수행함.
이때 history는 fully observable 상태이며 masking은 미래 token에만 적용됨.
이 과정은 latent world modeling의 표준 objective와 일치함.
따라서 미래 object state를 직접 rollout할 수 있으며 downstream planning, control, reasoning에 활용 가능함.
rollout = 모델을 이용해 미래 상태를 계속 예측하면서 시뮬레이션하는 것
5. Experiments
이 섹션에서는 C-JEPA를 두 가지 상호보완적인 관점에서 평가함.
Sec. 5.1에서는 visual reasoning을, Sec. 5.2에서는 predictive control을 중심으로 분석함.
"이 모델이 상황을 이해하고 추론을 잘하나?" + "이 모델이 미래 예측을 이용해 행동 계획을 잘 세우나?"
모든 실험에서 object-centric encoder \( g \)로 VideoSAUR (Zadaianchuk et al., 2023)를 주로 사용함. 이 encoder는 frozen DINOv2 (Oquab et al., 2024) feature를 object-centric latent로 aggregation함.
Sec. 5.1에서는 baseline 모델과의 비교 가능성을 확보하기 위해 SAVi (Kipf et al., 2022)를 사용한 결과도 함께 보고함.
구현 및 pretraining 세부사항은 Appendix D에 정리되어 있음.
1️⃣ Visual reasoning 실험
2️⃣ Control / Planning 실험
즉
"이 모델이 상황을 이해하고 추론을 잘하나?"
+
"이 모델이 미래 예측을 이용해 행동 계획을 잘 세우나?"
를 검증하는 것임.
아래에서 왜 이 실험을 했는지 + 어떻게 했는지 + 결과가 의미하는 것을 설명함.
1️⃣ 실험 구조 전체
논문은 C-JEPA가 world model이라고 주장함.
world model이 좋은지 확인하려면 보통 두 가지를 봄.
(1) reasoning 능력
object interaction 이해
예
공이 충돌하면 어떻게 될까?
(2) control / planning 능력
미래 상태 예측 → 행동 계획
예
어떤 행동을 하면 목표 상태에 도달할까?
그래서 실험을 두 파트로 나눔
실험목적| Visual reasoning | interaction 이해 능력 |
| Predictive control | planning 능력 |
2️⃣ 실험에 사용한 encoder
논문에서 object representation은 직접 학습하지 않고
이미 존재하는 모델을 사용함.
기본 encoder
VideoSAUR
구조
image
→ DINOv2 feature
→ Slot Attention
→ object slots
즉
image → object representations
만드는 역할.
추가 encoder
SAVi
이건 baseline 논문들이 사용한 encoder라서
공정한 비교
를 위해 추가로 사용함.
3️⃣ 실험 1: Visual Reasoning
목적
C-JEPA가 object interaction을 잘 이해하는지 확인.
논문 핵심 주장
object masking → interaction reasoning 학습
이게 맞는지 검증하는 실험임.
사용 데이터셋
CLEVRER
이건 유명한 physics reasoning dataset임.
영상 예
공 A
공 B
벽
그리고 질문이 있음.
예
공 A가 B에 부딪히면 어떻게 될까?
질문 유형
CLEVRER에는 4가지 질문이 있음.
유형의미| Descriptive | 장면 설명 |
| Predictive | 미래 예측 |
| Explanatory | 원인 설명 |
| Counterfactual | “만약 ~였다면?” |
Counterfactual 예
공 A가 없었다면
공 B는 어디로 갔을까?
이게 interaction reasoning 테스트임.
실험 방법
절차
1️⃣ world model 학습
C-JEPA
baseline world models
2️⃣ 영상 rollout
128 frames → 160 frames
즉
미래 trajectory 생성
3️⃣ reasoning 모델
ALOE
이 trajectory를 이용해서 질문에 답함.
baseline 모델
비교 모델 3개
1️⃣ SlotFormer
object world model baseline
autoregressive prediction
2️⃣ OCVP-Seq
interaction과 self-dynamics 분리 모델
3️⃣ OC-JEPA
C-JEPA에서 history masking 제거한 버전
즉
object masking 효과만 테스트
결과
핵심 결과
C-JEPA > baseline
특히
counterfactual reasoning
에서 크게 향상됨.
논문 결과
약 20% 성능 향상
이 결과 의미
논문 주장 검증
object masking
→ counterfactual reasoning 학습
즉
interaction reasoning 강화
4️⃣ 실험 2: Predictive Control
목적
C-JEPA가 planning / control에 유용한 world model인지 확인.
즉
미래 상태 예측
→ 행동 계획
가능한지 테스트.
사용 환경
Push-T
로봇 manipulation task.
예
로봇이 T 모양 블록을 밀어서 목표 위치로 이동
planning 방식
사용 방법
Model Predictive Control (MPC)
절차
1️⃣ 현재 상태 관측
2️⃣ 여러 action sequence 시뮬레이션
3️⃣ 목표에 가까운 행동 선택
수식
[
a^*{t:t+H-1} =
\arg\min
|\hat{S}{t+H} - S_g|^2
]
의미
목표 상태와 가장 가까운 미래 상태를 만드는 action 선택
baseline 모델
비교 모델
1️⃣ DINO-WM
patch 기반 world model
2️⃣ DINO-WM (reg)
DINOv2 variant
3️⃣ OC-DINO-WM
object representation만 바꾼 모델
4️⃣ OC-JEPA
history masking 제거 버전
5️⃣ 실험 결과
결과 핵심
patch model
성능 좋음
하지만 매우 느림
왜냐하면
token 많음
object model
token 수 1.02%
즉
100배 작은 state
문제
단순 object model은
성능 크게 떨어짐
C-JEPA
결과
성능 ≈ patch model
하지만
token 1%
planning 속도
C-JEPA
673 sec
vs
DINO-WM
5763 sec
즉
8배 빠름
6️⃣ 이 실험의 핵심 메시지
논문이 보여주고 싶은 것
실험 1
object masking
→ reasoning 능력 증가
실험 2
object world model
+
JEPA
+
masking
→
빠르고 정확한 world model
7️⃣ 한 줄 핵심
Experiments는 두 가지 질문에 답함.
1️⃣ C-JEPA가 interaction reasoning을 잘하는가?
2️⃣ C-JEPA가 planning에 효율적인 world model인가?
결과
둘 다 그렇다
원하면 내가 Section 5를 PPT용으로 딱 1장짜리로 정리도 해줄게.
(발표할 때 가장 많이 쓰는 구조로 정리해 줄 수 있음.)
5.1. Causal-JEPA for Visual Reasoning
Task and Evaluation
먼저 CLEVRER (Yi et al., 2020)에서 visual reasoning을 평가함. CLEVRER는 dynamic scene에서의 물리적 및 causal 이해를 평가하기 위한 synthetic video benchmark임.
CLEVRER는 여러 객체가 상호작용하는 영상을 포함하며, object interaction에 대한 descriptive, predictive, explanatory, counterfactual reasoning을 평가하기 위한 question–answer pair를 제공함.
예측된 object trajectory를 기반으로 reasoning을 수행하기 위해 SlotFormer (Wu et al., 2023)의 evaluation setup을 따라 ALOE (Ding et al., 2021)를 사용함.
ALOE는 시간에 따라 stacked된 object-centric representation 위에서 직접 reasoning을 수행하도록 설계됨. 또한 language transformer를 사용하여 입력 question에 조건화된 attention을 수행함.
간단히 설명하면, 먼저 C-JEPA와 baseline world model을 학습함. 이후 128-frame input video를 160 frame까지 rollout하여 imagined trajectory를 생성함.
그 다음 ALOE를 이러한 model-generated trajectory 위에서 학습시켜 downstream question answering을 수행함.
모든 CLEVRER 실험에서는 object slot 개수를 7개로 고정함.
추가적인 데이터 및 평가 세부사항은 Appendix F에 정리되어 있음.
1️⃣ 실험 전체 아이디어
이 실험의 목표는
C-JEPA가 object interaction을 이해하고
질문에 답할 수 있는가?
를 보는 것임.
그래서 실험을 두 단계로 나눔.
1️⃣ world model이 미래 object trajectory를 생성
2️⃣ reasoning 모델이 그 trajectory로 질문에 답함
2️⃣ Step 1 — world model 학습
먼저 다음 모델들을 학습함.
C-JEPA
baseline world models
이 모델들은 하는 일이
video → 미래 object 상태 예측
임.
즉 world model임.
3️⃣ Step 2 — 미래 trajectory 생성 (rollout)
학습된 world model로
128 frame video
를 입력으로 주고
160 frame
까지 미래를 예측함.
즉
128 → 160
프레임까지 미래를 시뮬레이션함.
이걸 논문에서는
rollout
이라고 부름.
결과
imagined object trajectories
즉
미래 object 움직임 예측
이 생성됨.
4️⃣ Step 3 — reasoning 모델 (ALOE)
이제 reasoning 모델을 사용함.
논문에서 사용한 모델
ALOE
이 모델은
object trajectory + question
을 입력으로 받음.
예
trajectory
공 A → 공 B 충돌
질문
공 A가 없었다면
공 B는 어디로 갔을까?
ALOE가 이 질문에 답함.
5️⃣ 중요한 포인트
ALOE는 이미지로 reasoning하지 않음.
입력
object-centric representations
즉
object states
만 사용함.
그래서
world model이 만든 trajectory 품질
이 reasoning 성능에 직접 영향을 줌.
6️⃣ 왜 이런 실험을 하는가
논문 핵심 주장
object masking → interaction reasoning 학습
이게 맞는지 확인하려는 것임.
만약 C-JEPA가 좋은 world model이면
미래 trajectory가 더 정확
→
reasoning 성능도 좋아짐
7️⃣ 마지막 줄 의미
논문 문장
Use 7 object slots
의 의미
Slot Attention이
scene을 최대 7개의 object로 표현
한다는 뜻임.
예
slot1 = 공
slot2 = 공
slot3 = 벽
slot4 = 바닥
slot5 = empty
slot6 = empty
slot7 = empty
8️⃣ 전체 실험 파이프라인
한 번에 보면
video
↓
C-JEPA world model
↓
future object trajectory 생성
↓
ALOE reasoning model
↓
question answering
즉
trajectory quality → reasoning accuracy
를 평가하는 실험임.
한 줄 핵심
이 실험은
C-JEPA가 만든 미래 object trajectory가
reasoning 문제 해결에 얼마나 도움이 되는지
를 테스트하는 것임.
원하면 Section 5 실험 전체를 한 장 그림으로 정리해줄게.
논문 발표할 때 가장 이해 잘 되는 구조임.
ALOE는 이미지가 아니라 “object representation(숫자 벡터)”를 입력으로 받음.
즉 텍스트도 아니고 이미지도 아님. → object state tensor를 받음.
1️⃣ ALOE가 받는 입력
ALOE 입력은 두 가지임.
1️⃣ Object trajectory (숫자 벡터)
world model이 만든 object state sequence
예
t1: [s1, s2, s3, ..., s7]
t2: [s1, s2, s3, ..., s7]
t3: [s1, s2, s3, ..., s7]
...
여기서
s_i = object i의 latent vector
즉 실제 데이터 형태는
tensor: (time, object, feature_dim)
예
160 × 7 × d
2️⃣ Question (텍스트)
예
"What will happen if the red ball disappears?"
이 질문은
language transformer
로 encoding됨.
2️⃣ 그래서 ALOE 입력 구조
ALOE가 실제로 받는 입력은
(object representations over time)
+
(question text)
즉
object tensor + text
3️⃣ 그림으로 보면
실험 pipeline
video
↓
C-JEPA
↓
object trajectory
↓
ALOE
↓
question answering
ALOE 입력
trajectory tensor
+
question embedding
4️⃣ 왜 이미지 안 쓰냐
CLEVRER reasoning 논문들은 보통
object representation 기반 reasoning
을 사용함.
왜냐하면
object interaction reasoning
이 더 중요하기 때문임.
즉
pixel → object
변환 후 reasoning함.
5️⃣ 예시
trajectory
t1
ball1: (x,y,vx,vy)
ball2: (x,y,vx,vy)
t2
ball1: ...
ball2: ...
question
"If the blue ball were removed, what happens?"
ALOE가 답함
"The red ball would not collide."
한 줄 정리
ALOE는 이미지가 아니라
object state sequence(숫자 벡터)와 question text를 입력으로 받아 reasoning을 수행한다.
Baseline Models
세 가지 서로 다른 object-centric world model architecture를 평가함.
ALOE는 object-centric representation을 전제로 하기 때문에 VQA 평가는 object-centric 모델로만 제한되며 non-object-centric baseline은 제외함.
또한 C-JEPA와 동일한 reconstruction-free setting에서 공정한 비교를 위해 baseline 모델의 reconstruction-free variant도 함께 평가함.
• SlotFormer (Wu et al., 2023)은 object latent에 대해 autoregressive rollout을 수행하는 모델임. interaction constraint가 없는 canonical baseline 역할을 함. SlotFormer (+/–Recon.) 두 가지 설정을 모두 평가함.
• OCVP-Seq (Villar-Corrales et al., 2023)은 attention level에서 self-dynamics와 object interaction을 factorization하는 구조를 가짐. OCVP-Seq (+/–Recon.) 두 설정을 평가함.
• OC-JEPA는 history-unmasked variant의 C-JEPA임. 동일한 architecture를 사용하지만 future token만 masking함. 이를 통해 masking이 유도하는 inductive bias의 효과만을 분리하여 분석함.
모든 baseline은 공정한 비교를 위해 동일한 pretrained SAVi encoder를 사용함.
추가적인 세부사항은 Appendix H에 정리되어 있음.
내용 설명 (이 실험이 의미하는 것)
이 부분은 C-JEPA의 효과가 어디에서 오는지 검증하는 실험 설계임.
논문의 핵심 주장
그래서 비교 모델을 이렇게 설계함.
1️⃣ SlotFormer
역할: 대표적인 object-centric world model baseline
특징: object latent autoregressive prediction
하지만
2️⃣ OCVP-Seq
이 모델은 구조적으로
object interaction
을 분리함.
즉
interaction module
같은 구조임.
3️⃣ OC-JEPA
이 모델이 가장 중요한 baseline임.
이건
버전임.
즉
future masking만 있음
그래서
를 확인할 수 있음.
4️⃣ Reconstruction 실험
논문에서 또 확인하는 것
그래서
-Recon
두 버전을 모두 실험함.
5️⃣ 공정한 비교
모든 모델에서
사용
즉 차이는
뿐임.
핵심 요약
이 실험은
object masking 때문인지
를 검증하기 위한 baseline 비교 실험임.

Results
Tab. 1은 OC-JEPA와 C-JEPA 간 비교를 보여줌.
이 비교는 성능 향상이 단순히 object-centric representation 때문이 아니라 learning objective에서 비롯된 것임을 보여주는 clean ablation임.
object-level masking을 도입하면 성능이 일관되게 향상됨. 이는 objective가 유도하는 causal inductive bias가 핵심적인 역할을 한다는 것을 의미함.
특히 counterfactual question에서의 성능 향상은 overall accuracy나 다른 question category보다 훨씬 크게 나타남 (전체 결과는 Appendix I 참조).
이는 masking이 단순히 prediction accuracy를 높이는 것이 아니라 counterfactual reasoning 능력을 직접적으로 강화함을 의미함.
이는 training setup과도 일치함. object-level masking은 latent intervention을 통해 모델에게 counterfactual-like query를 경험하게 함.
또한 masking을 과도하게 적용할 경우 informative dependency가 제거될 수 있음. 따라서 encoder가 제공하는 object representation의 robustness에 따라 적절한 masking 비율이 존재함을 보여줌.
Tab. 2는 reconstruction setting과 non-reconstruction setting에서 object-centric baseline과의 비교를 보여줌.
결과를 보면 reconstruction을 제거할 경우 SlotFormer (Wu et al., 2023)의 성능이 크게 저하됨. 이는 pixel-level supervision에 강하게 의존함을 의미함.
OCVP-Seq (Villar-Corrales et al., 2023)은 비교적 작은 성능 감소를 보임. 이는 architecture-level factorization이 reconstruction signal 손실을 일부 완화함을 의미함.
반면 C-JEPA는 reconstruction 없이도 가장 높은 성능을 달성함.
이는 decoder-free 구조와 masking 기반 learning objective의 효과를 보여줌.
전체 결과는 Appendix I에서 확인할 수 있음.

PEROPT / PERQUE?
PEROPT / PERQUE
1️⃣ 먼저 표 구조
표는 CLEVRER 질문 유형별 정확도를 보여줌.
컬럼의미| Descriptive | 장면 설명 질문 |
| Explanatory | 원인 설명 질문 |
| Predictive | 미래 예측 질문 |
| Counterfactual | 가정 질문 |
| Average | 전체 평균 |
2️⃣ PEROPT vs PERQUE
이 두 개가 핵심임.
PEROPT
Per Option Accuracy
의미
각 선택지(option)를 개별적으로 맞췄는지 평가
CLEVRER 질문은 보통 multiple choice임.
예
A. Yes
B. No
C. Maybe
D. None
PEROPT는
각 옵션을 맞췄는지
평가함.
PERQUE
Per Question Accuracy
의미
질문 전체를 맞췄는지 평가
즉
정답 옵션을 정확히 맞췄는가
3️⃣ 왜 PERQUE가 더 낮냐
PEROPT는
옵션 단위 정확도
PERQUE는
질문 전체 정확도
라서 더 어렵다.
예
질문
Which objects collide?
옵션
A ball hits cube
B ball hits wall
C cube hits wall
정답
A, C
모델 예측
A, B
PEROPT
옵션 3개 중
A correct
B wrong
C wrong
→ 일부 맞았으므로 부분 점수 있음
PERQUE
정답 완전히 맞춰야 함.
A,C
인데
A,B
라서
0점
그래서 보통
PERQUE < PEROPT
임.
4️⃣ counterfactual 성능 향상이 크다는 의미
표를 보면
PERQUE 기준
OC-JEPA
Counterfactual = 40.3
C-JEPA
Counterfactual = 60.3
즉
+20% 상승
논문에서 말하는 것
counterfactual reasoning 성능이 크게 향상
5️⃣ average보다 낮은 이유
average는
Descriptive
Explanatory
Predictive
Counterfactual
평균임.
Counterfactual은
가장 어려운 질문 유형
이라서 보통
Counterfactual < Average
임.
6️⃣ 핵심 해석
논문이 강조하는 것
C-JEPA는 특히 counterfactual reasoning에서 성능이 크게 좋아짐
왜냐하면
학습 방식이
object masking
이라서
"object가 없으면?"
같은 상황을 많이 학습함.
한 줄 정리
PEROPT = 옵션 단위 정확도
PERQUE = 질문 단위 정확도
그래서
PERQUE가 항상 더 낮다
원하면 **이 표를 PPT에서 어떻게 설명해야 하는지 (발표용 한 문단)**도 만들어줄게.
5.2. Causal-JEPA for Efficient World Modeling
Task and Evaluation
control-oriented 환경에서 world model 학습을 평가하기 위해 Push-T (Bekris et al., 2025) 환경을 사용함.
Push-T는 contact-rich object interaction을 포함하는 robotic manipulation benchmark임.
이 환경에서는 agent가 시간에 따라 object dynamics와 contact effect를 reasoning하여 목표 지향적인 행동을 수행해야 함.
Zhou et al. (2025)에서 제안된 planning pipeline을 따라 time step \( t \)에서 planning은 learned world model이 유도한 latent object-centric state space에서 finite-horizon optimal control 문제를 해결하는 방식으로 수행됨.
현재 history window \( S_T \)가 주어졌을 때 planning horizon \( H \)에 대해 future action sequence \( a_{t:t+H-1} \)를 다음과 같이 최적화함.
\( a^*_{t:t+H-1} \equiv \arg\min_{a_{t:t+H-1}} \| \hat{S}_{t+H} - S_g \|_2^2 \) (7)
여기서 \( S_g \)는 목표 상태의 latent representation을 의미함.
이 objective는 장기적으로 예측된 결과가 목표 상태와 일치하도록 하는 plan을 유도함. intermediate cost는 따로 부과하지 않음.
Eq. (7)의 optimization 문제는 Cross-Entropy Method (CEM)을 사용하여 해결함.
planning은 새로운 observation이 들어올 때마다 model-predictive control (MPC) 방식으로 반복 수행됨.
original (non-latent) state space에서 실제 시스템 상태와 목표 상태 사이의 거리가 predefined threshold보다 작아지면 task가 성공한 것으로 간주함.
모든 Push-T 실험에서는 object slot 개수를 4개로 고정함.
추가 세부사항은 Appendix G에 정리되어 있음.


이 실험은 C-JEPA가 실제 robot control 문제에서 planning에 사용할 수 있는 효율적인 world model인지 평가한다.
다음 실험에서는 C-JEPA의 world modeling 능력을 control 환경에서 평가했습니다.
이를 위해 로봇 manipulation benchmark인 Push-T 환경을 사용했습니다.
Push-T 환경은 로봇이 물체를 밀어서 목표 위치로 이동시키는 task로,
이 과정에서 object interaction과 contact dynamics를 정확히 예측하는 능력이 중요합니다.
실험에서는 학습된 world model을 이용해 미래 object 상태를 예측하고,
이 예측 결과를 기반으로 Model Predictive Control, 즉 MPC 방식의 planning을 수행합니다.
즉, 현재 상태에서 여러 action sequence를 시뮬레이션하고
목표 상태에 가장 가까운 결과를 만드는 행동을 선택하는 방식으로 control을 수행합니다.
Baseline Models
DINO-WM 기반의 여러 world model baseline을 구성하고 이를 VideoSAUR 기반 C-JEPA와 비교함.
이 설정에서는 모든 모델이 동일한 frozen DINOv2 embedding에서 시작하며 predictor architecture와 입력 구조만 다르게 설정됨. 이를 통해 controlled comparison이 가능함.
추가 세부사항은 Appendix H에 정리되어 있음.
• DINO-WM (Zhou et al., 2025)은 patch-level representation 위에서 동작하며 autoregressive causal transformer predictor를 사용함.
• DINO-WM (reg.) (Darcet et al., 2024)은 DINOv2-with-register backbone을 사용하지만 patch-based predictor는 동일하게 유지함. 이를 통해 representation 효과만 분리함.
• OC-DINO-WM은 DINOv2 patch embedding 위에 object-centric encoder를 적용하지만 predictor와 objective는 기존 DINO-WM과 동일하게 유지함. 즉 representation 효과만을 분석하기 위한 설정임.
• OC-JEPA는 history-unmasked variant의 C-JEPA이며 future token만 masking함.
다음 실험에서는 C-JEPA와 비교하기 위한 baseline world model을 구성했습니다.
모든 모델은 동일한 frozen DINOv2 feature에서 시작하도록 설정하여,
차이는 오직 predictor architecture와 입력 representation에서만 발생하도록 만들었습니다.
이를 통해 보다 공정한 비교가 가능하도록 설계했습니다.
첫 번째 baseline은 DINO-WM으로, patch-level representation을 사용하며
autoregressive causal transformer를 통해 미래 상태를 예측하는 모델입니다.
두 번째는 **DINO-WM (reg.)**이며, 이는 DINOv2-with-register backbone을 사용하여
representation 자체의 영향을 분석하기 위한 모델입니다.
세 번째는 OC-DINO-WM으로, 기존 DINO patch representation 위에
object-centric encoder를 추가한 모델입니다.
이를 통해 object representation 자체가 성능에 미치는 영향을 분석합니다.
마지막으로 OC-JEPA는 C-JEPA에서 history masking을 제거한 버전으로,
future token만 masking하는 구조입니다.
이 모델은 object-level masking의 효과를 분리해서 분석하기 위해 사용됩니다.
Results
Table 3은 patch-based world model에서 object-centric world model로의 명확한 progression을 보여줌.
patch-based DINO-WM은 가장 높은 success rate를 달성하지만 매우 많은 token space에서 동작해야 하는 비용이 있음.
patch token을 object-centric slot으로 대체한 OC-DINO-WM은 latent token space를 1.02% 수준으로 줄임.
그러나 성능이 크게 감소함. 이는 object-centric representation만으로는 long-horizon prediction을 정확하게 수행하기에 충분하지 않음을 의미함.
JEPA-style predictor를 도입한 OC-JEPA는 object-centric representation의 효율성을 유지하면서 성능을 일부 회복함.
이는 autoregressive objective보다 joint latent prediction이 가지는 장점을 보여줌.
마지막으로 C-JEPA는 training 동안 object-level masking을 latent intervention으로 도입하여 DINO-WM (Zhou et al., 2025)과의 성능 격차를 거의 해소함.
latent token의 1.02%만 사용하면서도 patch-based world model과 comparable한 성능을 달성함.
model-based planning에서 predictor rollout이 대부분의 계산 비용을 차지하기 때문에 이러한 token 감소는 직접적인 효율성 향상으로 이어짐.
동일한 설정에서 single L40s GPU로 실험한 결과 C-JEPA는 8배 이상 빠른 planning 속도를 달성함.
세 개의 seed에 대해 50개의 trajectory를 평가하는 데 평균 673초가 소요되었으며, DINO-WM은 5763초가 소요됨.
전체적으로 C-JEPA는 joint latent prediction과 object-level masking을 결합함으로써 object-centric world model의 효율성과 image-based 접근의 성능을 동시에 달성함.
---
#### Action and Proprioception as Auxiliary Nodes
Sec. 4.1에서 설명했듯이 C-JEPA는 action과 proprioception 같은 auxiliary variable을 predictor를 conditioning하는 separate entity로 취급함.
반면 DINO-WM (Zhou et al., 2025)은 이러한 signal을 patch representation과 concat하여 visual representation 내부에 포함시킴.
Fig. 3에서 보이듯이 auxiliary variable을 separate entity로 모델링하는 방식이 object latent에 concat하는 방식보다 일관되게 더 좋은 성능을 보임.
이는 auxiliary variable을 explicit variable로 처리하는 것이 타당함을 보여줌.
---
#### Ablation on Masking Strategy
object-level masking 외에도 token-level masking과 tube-level masking을 reasoning task와 control task 모두에서 평가함.
token-level 또는 tube-level masking도 특정 task에서는 object-level masking과 비슷한 성능을 보일 수 있음.
그러나 object-level masking은 더 구조화되고 controllable한 inductive bias를 제공함.
그 결과 training이 더 안정적으로 이루어지며 interaction이 많은 query에서 더 좋은 성능을 보임.
전체 비교 분석은 Appendix J에 정리되어 있음.
6. Theoretical Perspective: Causal Inductive Bias of Latent Interventions
이 섹션에서는 C-JEPA가 왜 future-only world modeling objective보다 더 강한 forward prediction을 산출하는지 분석함.
6.1. Assumption
먼저 분석의 범위를 명확히 하기 위해 실용적 동기에서 출발한 가정들을 설정함. 가정들에 대한 자세한 논의는 Appendix K에 제시되어 있음.
Assumption 1 (Temporally Directed Predictive Dependencies). object-level state transition은 time-directed predictive dependency에 의해 지배됨. 한 객체의 future state는 past object observation과 auxiliary variable로 결정되며, 동일한 time step 내에서 instantaneous causal effect를 요구하지 않음.
Assumption 2 (Shared Transition Mechanism). latent state transition은 shared mechanism에 의해 지배됨. object state는 시간과 episode에 따라 달라질 수 있지만, finite history가 주어졌을 때 future state의 conditional distribution은 trajectory 전반에 걸쳐 invariant하게 유지됨.
Assumption 3 (Object-Aligned Latent Representation). 각 slot은 coherent한 object-level state variable에 대응하며, 이러한 representation은 object dynamics를 reasoning하기 위한 충분한 abstraction을 제공함.
Assumption 4 (Finite-History Sufficiency). 길이 \(T_h\)의 finite history window로도 시스템의 predictive dependency 하에서 future object state를 예측하기에 충분함.
Note. 우리는 causal sufficiency를 가정하지 않음을 강조함. object-centric representation을 사용할 때는 underlying system의 full observability를 가정하지 않기 때문에 unobserved confounder를 허용하는 것이 중요함. 또한 object level에서 first-order Markov process를 가정하지 않음. future object state는 \(Z_t\)만이 아니라 past state의 history에 의존할 수 있음. 예를 들어 velocity는 single observation만으로는 추론될 수 없음. 더 나아가 underlying dynamics에 global sparsity를 가정하지 않음. 이는 지나치게 restrictive하다고 보고된 바 있음 (Pandaram et al., 2025).
6.2. Interaction-Inducing Inductive Bias
이 subsection에서는 temporal window \(T\)에서 partial observation으로부터 missing object representation을 예측하는 과정이 유도하는 inductive bias를 분석함.
우리는 masked history prediction이 target object 자체를 넘어서는 최소 sufficient한 contextual variable set에 의존하도록 predictor를 강제함을 보임.
이 최소 sufficient set을 influence neighborhood로 formalize함.
Definition 1 (Influence Neighborhood under Masked Completion). history window 전체의 entity token 집합을 \(Z_T\)로 두고, object \(i\)의 history를 제외한 나머지 모든 variable을 \(Z_T^{(-i)}\)로 둠. 단, object identity를 보존하기 위해 사용하는 minimal identity anchor는 예외로 두고 포함함.
시간 \(t\)에서 masked된 object state \(z_t^i\)에 대해 influence neighborhood \(N_t(i)\)는 \(N_t(i) \subseteq Z_T^{(-i)}\)인 minimal sufficient subset으로 정의됨.
즉 다음을 만족함.
\( p\big(z_t^i \mid Z_T^{(-i)}\big) = p\big(z_t^i \mid N_t(i)\big) \) (8)
여기서 minimality는 \(N_t(i)\)의 어떠한 strict subset도 위 조건을 만족하지 못한다는 의미에서 정의됨.
influence neighborhood는 partial observability 하에서 masked object의 state를 복원하기 위해 반드시 참조해야 하는 가장 작은 contextual variable 집합을 포착함.
influence neighborhood 개념은 Markov blanket 및 sufficient statistic 개념과 밀접히 연관됨 (Pearl, 2009; Koller & Friedman, 2009). 이 연결에 대한 논의는 Appendix B.2에 제공됨.
여기서는 단일 masked object state에 대한 influence neighborhood를 정의함.
training 동안 여러 object를 masking하는 것은 이러한 conditional dependency를 여러 개 병렬로 함께 학습하는 것에 해당하며, 정의 자체는 변하지 않음.
---
Theorem 1 (Interaction Necessity under Masked History Completion). Eq. (6)에서의 masked history prediction loss 중 시간 \(t\)에서 object \(i\)에 대한 항을 다음과 같이 두면,
\( L_{history}^i := E\big[\|\hat{z}_t^i - z_t^i\|_2^2\big] \) (9)
여기서 \(\hat{z}_t^i\)는 Eq. (4)에 따라 observable history \(Z_T^{(-i)}\)로부터 계산됨.
또한 expectation은 \(Z_T^{(-i)}\)가 주어졌을 때의 \(z_t^i\) conditional distribution에 대해 취해짐.
Assumption 1–4와 Definition 1 하에서, Eq. (9)를 최소화하는 optimal predictor는 다음을 만족함.
\( \hat{z}_{t}^{i*} = E\big[z_t^i \mid Z_T^{(-i)}\big] = E\big[z_t^i \mid N_t(i)\big] \) (10)
따라서 \(N_t(i)\) 안의 정보를 활용하지 못하는 어떤 predictor도 masked completion 하에서 달성 가능한 최소 expected reconstruction error에 도달할 수 없음.
masked된 \(z_t^i\)는 직접 관측될 수 없기 때문에, optimal predictor는 uncertainty를 줄이기 위해 다른 variable에 의존해야 함.
Definition 1에 의해 \(N_t(i)\)는 \(z_t^i\)의 conditional distribution을 보존하는 minimal sufficient subset임.
그러므로 \(N_t(i)\)의 variable을 무시하는 predictor는 반드시 더 큰 expected loss를 incur함.
완전한 증명은 Appendix L.1에 제공됨.
---
Corollary 1 (Discovery of Intervention-Stable Influence Neighborhoods). 다양한 object-level masking에 반복적으로 노출되는 상황에서 \(L_{mask}\)를 최적화하면, influence neighborhood \(N_t(i)\)와 align되는 state-dependent attention pattern이 유도됨. 이는 predictive influence를 포착하는 soft하고 local한 relational structure로 해석될 수 있음.
Corollary 1은 invariant causal prediction (Peters et al., 2016)과 invariant risk minimization (Arjovsky et al., 2020)과 밀접히 연관됨.
이들 연구는 intervention이나 environment가 바뀌어도 stable하게 유지되는 predictive dependency를 다룸.
이 관점에서 C-JEPA의 object-level masking은 latent intervention들의 모음을 유도하는 것으로 볼 수 있음.
그 결과 intervention-stable influence neighborhood가 emergent하게 됨.
추가 논의는 Appendix L.2에 제공됨.
---
Remark 2. influence neighborhood는 복잡한 dynamical system에서 full causal discovery에 대한 실용적인 대안을 제공함.
latent confounder가 존재하고 state space가 high-dimensional인 현실적 setting에서는 true causal parent를 식별하는 것이 infeasible하거나 ill-defined일 수 있음 (Seitzer et al., 2021; Ke et al., 2021).
반면 intervention-stable influence neighborhood는 controlled perturbation 하에서 prediction에 필요한 variable을 포착함.
따라서 reasoning, planning, model-based control에 유용함.
C-JEPA는 explicit causal graph를 요구하지 않고도 learning objective를 통해 이러한 neighborhood를 식별함.
---
Remark 3 (Transfer of Bidirectional Training to Forward Prediction). training 동안 bidirectional masked prediction을 사용하기 때문에 influence neighborhood \(N_t(i)\)는 temporal direction을 추상화하게 됨.
실제 시스템 dynamics는 forward transition \(s_{t+1} = \Psi(s_t)\)로 진화함.
그러나 \(N_t(i)\)는 edge direction을 제거한 direction-agnostic interaction structure로 해석될 수 있음.
즉 past 또는 future observation에서 비롯된 정보인지와 무관하게, object state에 대해 jointly informative한 variable을 포착하는 구조로 볼 수 있음.
그 결과 \(L_{mask}\)를 최소화하면 정보 흐름 방향에 대해 invariant한 interaction constraint를 encode하는 latent representation이 유도됨.
Assumption 2 하에서는 training 중 object state 예측이 temporal direction과 무관하게, past observation으로부터의 forward dynamics를 지배하는 동일한 variable에 의존하게 됨.
7. Conclusion
- 본 논문에서는 joint embedding prediction과 object-level masking을 결합하여 learning objective 자체를 통해 causal inductive bias를 직접 도입하는 C-JEPA를 제시함.
- 우리의 지식으로는 본 연구가 JEPA를 object-centric world modeling과 통합한 첫 번째 연구임.
- object masking을 latent하고 counterfactual-like한 intervention으로 취급함으로써, C-JEPA는 reconstruction loss나 task-specific supervision에 의존하지 않고도 interaction-aware dynamics를 학습함.
- 실험적으로 C-JEPA는 visual reasoning에서 강한 성능 향상을 보이며, 특히 counterfactual question에서 매우 큰 improvement를 달성함.
- predictive control에서는 patch-based world model 대비 orders of magnitude 더 적은 token으로도 highly efficient한 planning을 가능하게 하면서 comparable한 성능을 달성함.
- 또한 몇 가지 limitation도 식별함.
- 성능은 object-centric encoder의 quality에 의존하며, 이는 performance ceiling을 제한할 수 있음.
- 또한 우리는 influence neighborhood를 형식적으로 characterize하지만, explicit temporal causal graph가 있는 dataset에서 이를 직접 validate하지는 않음. 이는 future work로 남겨둠.
- 또 다른 유망한 방향으로는 representational collapse 없이 강력한 pretrained backbone을 사용해 object-centric encoder를 jointly refining하는 것임 (Ðukic´ et al., 2025).
- 또한 더 풍부한 interaction을 가진 더 복잡한 environment에서 C-JEPA를 평가하는 것도 중요한 방향임.
- 종합하면 본 연구는 object-level masking을 효율적이고 interaction-aware한 world model에 causal inductive bias를 주입하는 principled하고 효과적인 mechanism으로 확립함.
true causal graph 란 ?
1️⃣ causal graph가 무엇인가
causal graph는 변수들 사이의 원인 → 결과 관계를 그래프로 표현한 것임.
예를 들어 object interaction 상황을 생각해보면
공 A → 공 B
의 의미는
공 A의 상태가 공 B의 상태에 영향을 준다
라는 뜻임.
그래프 형태로 쓰면
A → B
즉
- node = 변수 (object state)
- edge = causal influence
2️⃣ 예시 (physics scene)
예를 들어 당구 상황
공 A가 공 B를 침
causal graph는
A velocity → B velocity
또는 더 자세히 쓰면
A position
A velocity
↓
collision
↓
B velocity
즉
A → B
3️⃣ 논문에서 말하는 문제
논문에서 말하는 것:
우리가 causal 구조를 학습한다고 주장하지만
정답 causal graph가 있는 dataset에서 검증하지는 않았다
라는 뜻임.
왜냐하면 대부분 dataset에는
true causal graph
가 없음.
예
CLEVRER dataset에는
video
question
answer
만 있음.
하지만 이런 정보는 없음
object1 → object2
object2 → object3
즉 ground truth causal structure.
4️⃣ 그래서 논문이 실제로 한 것
논문은 이론적으로 말함.
object masking을 하면
model → interaction dependency
를 배우게 된다고 주장함.
그리고
influence neighborhood
이라는 개념을 정의함.
하지만
실제로
model이 배운 graph
가
true causal graph
와 같은지는 실험적으로 확인하지 않았음.
5️⃣ 그래서 문장의 의미
논문 문장
explicit temporal causal graph가 있는 dataset에서 이를 직접 validate하지는 않음
의 의미
👉 정답 causal graph가 있는 데이터셋에서 우리가 배운 causal 구조가 맞는지 검증하지 않았다
라는 뜻임.
6️⃣ 왜 이런 dataset이 필요한가
만약 이런 dataset이 있으면
예
ground truth
A → B
B → C
모델이 attention으로 배운 구조
A → B
B → C
와 비교할 수 있음.
즉
learned causal structure
vs
true causal structure
검증 가능함.
7️⃣ 정리
논문이 말하는 limitation
우리는 causal reasoning을 한다고 주장하지만
실제로
"정답 causal graph가 있는 데이터셋에서
우리 모델이 진짜 causal structure를 찾았는지"
검증하지는 않았다
라는 의미임.
원하면 이 논문 이해에서 가장 중요한 것 하나도 설명해 줄게.
많은 사람들이 놓치는 핵심인데
C-JEPA가 왜 counterfactual reasoning을 잘하게 되는지는
사실 masking 때문이 아니라 특정 training 구조 때문임.
이걸 이해하면 논문이 완전히 정리됨.
object encoder가 좋지 않으면 C-JEPA 성능도 올라갈 수 있는 한계가 있음.
1️⃣ "성능은 object-centric encoder의 quality에 의존하며, 이는 performance ceiling을 제한할 수 있음."
의미
C-JEPA는 object representation을 직접 학습하는 모델이 아님.
구조를 보면
image → object-centric encoder → object slots → C-JEPA predictor
즉
encoder (object extraction)
+
world model (prediction)
두 단계 구조임.
논문에서는 encoder로
VideoSAUR + DINOv2
같은 pretrained encoder를 사용함.
문제
만약 encoder가 object를 잘 못 잡으면
예
ball + shadow
같이 섞여버리거나
두 object가 하나 slot
으로 인코딩되면
그 다음 단계인
C-JEPA predictor
는 이미 깨진 representation 위에서 학습하게 됨.
그래서 아무리 predictor가 좋아도
encoder quality
가 성능의 upper bound가 됨.
이걸 논문에서
performance ceiling
이라고 말함.
즉
object encoder가 좋지 않으면 C-JEPA 성능도 올라갈 수 있는 한계가 있음.
2️⃣ "influence neighborhood를 형식적으로 정의했지만 실제 causal graph dataset에서 검증하지 않음"
논문 이론 파트 핵심 개념이
influence neighborhood
임.
정의는
Nt(i)
= object i를 예측할 때 필요한 최소 변수 집합
예
공 A의 미래 위치를 예측할 때
공 B 위치
벽 위치
공 A 속도
만 필요하다면
Nt(A) = {A velocity, B position, wall}
이게 influence neighborhood임.
그런데 논문이 실제로 한 것
이걸 이론적으로 증명함
즉
masking objective
→ influence neighborhood를 학습하게 됨
하지만 실제 실험은
사용한 dataset
CLEVRER
PushT
에는
true causal graph
가 없음.
예
object A → object B
같은 정답 causal structure.
그래서
논문은
theory: 있음
empirical causal validation: 없음
상태임.
즉
우리가 말한 causal structure가 실제로 맞는지는 직접 검증하지 않았다.
이걸 future work로 남김.
3️⃣ "representational collapse 없이 encoder를 joint training"
여기서 말하는 건
현재 구조 문제임.
현재 C-JEPA pipeline
image
→ pretrained encoder (freeze)
→ object slots
→ predictor
즉
encoder freeze
상태임.
왜 freeze 했냐
joint training 하면
object encoder가 망가질 수 있음.
예
slot attention collapse
모든 slot이 같은 representation
이 되는 현상.
이걸
representational collapse
라고 함.
그래서 논문은 안전하게
encoder freeze
함.
future work
더 좋은 방향은
encoder + world model
joint training
임.
하지만 조건이 있음.
collapse 없이
즉
stable object representation 유지하면서
joint learning.
그래서 논문에서 말한 방향
strong pretrained backbone + joint refinement
임.
4️⃣ "더 복잡한 환경에서 평가 필요"
현재 실험 environment
CLEVRER
PushT
둘 다 비교적 단순함.
예
CLEVRER
몇 개 object
단순 physics
PushT
robot pushing
정도임.
하지만 실제 world model 환경은
훨씬 복잡함.
예
many objects
partial observation
long horizon
multi-agent interaction
그래서 논문이 말하는 것
더 복잡한 interaction environment에서도 C-JEPA가 잘 작동하는지 확인해야 함.
🔑 전체 문단 핵심 요약
논문이 스스로 인정한 한계는 4개임.
1️⃣ encoder 의존성
object encoder quality
→ 성능 upper bound
2️⃣ causal theory 실험 검증 부족
influence neighborhood
theory 있음
empirical validation 없음
3️⃣ encoder joint training 미지원
현재
encoder freeze
future
joint training 필요
4️⃣ 복잡한 environment 실험 부족
현재
CLEVRER
PushT
future
more complex interaction worlds
📌 이 논문에서 제일 중요한 limitation (연구 관점)
사실 연구적으로 가장 중요한 것은 이것임
encoder quality dependency
왜냐하면
object-centric world model 연구 대부분의 공통 문제임.
그래서 이 논문 다음 연구 방향은 거의 확실히
better object-centric representation
+
C-JEPA objective
쪽으로 갈 가능성이 높음.
Impact Statement
본 논문은 task-agnostic world model 및 그 응용에서 효율성과 interaction-aware learning을 개선하는 것을 목표로 하는 연구를 제시함.
world modeling의 발전은 robotics, simulation, decision-making system 등에서 광범위한 downstream impact를 가질 수 있음.
그러나 여기서 제안된 방법은 주로 foundational하고 methodological한 성격을 가짐.
우리는 learned model의 deployment와 일반적으로 연관되는 것들 외에, 본 연구에 특화된 즉각적인 부정적 사회적 결과를 예상하지 않음.
따라서 여기서는 특정한 impact를 별도로 강조하지 않음.