[논문리뷰] From Culture to Clothing: Discovering the World Events Behind A Century of Fashion Images (ICCV 2021)

카테고리 없음

[논문리뷰] From Culture to Clothing: Discovering the World Events Behind A Century of Fashion Images (ICCV 2021)

도도걸만단 2026. 4. 7. 15:28

From Culture to Clothing: Discovering the World Events Behind A Century of Fashion Images

Fashion is intertwined with external cultural factors, but identifying these links remains a manual process limited to only the most salient phenomena. We propose a data-driven approach to identify specific cultural factors affecting the clothes people wea

arxiv.org

# fashion, cultural analysis

0. Abstract

패션은 단순한 의복 선택을 넘어서 문화적, 사회적, 정치적 이벤트의 영향을 받음. 특정 시기의 옷 스타일은 그 시대의 사회적 분위기와 긴밀히 연결되어 있음. 본 논문에서는 대규모 이미지 데이터셋과 시계열 분석을 활용하여, 패션 스타일의 변화와 세계 이벤트 간의 관계를 자동으로 발견하는 문제를 다룸.

이를 위해 우리는 특정 시기와 장소에 따른 의류 스타일의 변화를 포착하고, 해당 변화와 관련된 세계 이벤트를 연결하는 framework를 제안함. 먼저, 다양한 시기의 street fashion 이미지를 수집하고, 이를 기반으로 스타일 representation을 학습함. 이후 temporal clustering을 통해 스타일 변화의 주요 시점을 탐지함. 마지막으로, 외부의 event 데이터와 매칭하여 어떤 이벤트가 특정 패션 변화를 유도했는지 분석함.

실험 결과, 제안한 방법은 단순한 시각적 유사도 기반 접근보다 더 의미 있는 fashion trend 변화를 포착함을 확인함. 또한 정치적 사건, 경제 위기, 문화적 흐름 등 다양한 이벤트와 패션 스타일 간의 상관관계를 자동으로 발견할 수 있음을 보임. 이는 패션을 단순한 시각적 데이터가 아닌, 사회적 신호로 해석할 수 있는 가능성을 제시함.

1. Introduction

패션은 개인의 취향을 표현하는 수단이면서 동시에 사회적, 문화적 맥락을 반영하는 중요한 요소임. 특정 시기의 의복 스타일은 단순한 미적 선택이 아니라, 당시의 사회적 분위기, 정치적 상황, 경제적 환경 등의 영향을 받음. 예를 들어, 경제 불황 시기에는 보다 실용적이고 단순한 스타일이 선호되는 경향이 있으며, 문화적 변화가 클 때는 보다 실험적인 스타일이 등장함.

기존의 패션 분석 연구는 주로 이미지 분류나 retrieval과 같은 low-level visual task에 집중되어 있었음. 즉, 특정 의류 아이템을 인식하거나, 유사한 스타일을 찾는 문제에 초점을 맞춤. 그러나 이러한 접근은 패션이 가지는 사회적 의미나 시간에 따른 변화를 충분히 설명하지 못함.

본 논문에서는 패션을 하나의 시계열 데이터로 보고, 시간에 따라 변화하는 스타일과 그 변화의 원인을 분석하는 새로운 문제를 정의함. 우리의 목표는 단순히 어떤 스타일이 존재하는지를 아는 것이 아니라, 왜 특정 시점에 특정 스타일이 등장했는지를 이해하는 것임.

이를 위해 우리는 다음과 같은 key question을 다룸:
특정 시점에서 패션 스타일이 급격히 변화하는 순간을 어떻게 탐지할 수 있는가?
그리고 이러한 변화가 실제 세계의 어떤 이벤트와 관련되어 있는가?

이 문제를 해결하기 위해 우리는 대규모 street fashion 이미지 데이터셋과 외부의 event database를 결합함. 먼저, convolutional neural network를 활용하여 이미지로부터 스타일 feature를 추출함. 이후 시간에 따른 feature distribution의 변화를 분석하여 스타일 shift를 탐지함. 이러한 shift는 clustering 또는 change point detection 기법을 통해 정량화됨.

그 다음 단계에서는, 감지된 스타일 변화 시점과 외부 이벤트 간의 alignment를 수행함. 이를 통해 특정 패션 트렌드 변화가 정치적 사건, 경제 변화, 또는 문화적 이벤트와 어떻게 연결되는지를 분석함.

본 연구의 주요 기여는 다음과 같음:
1) 패션 스타일 변화를 시계열적으로 분석하는 새로운 framework 제안함
2) 스타일 변화와 세계 이벤트 간의 관계를 자동으로 발견하는 방법 제시함
3) 패션 데이터를 사회적 신호로 해석할 수 있는 가능성 제시함

이러한 접근은 패션 연구뿐만 아니라, 시각 데이터 기반 사회 분석이라는 broader research direction에도 기여할 수 있음.

2. Related work

Clothing recognition and styles.
패션에 대한 computer vision 연구는 흔히 유사한 garment를 retrieval하는 것 [34, 37, 40], 그 특성(color, pattern, shape attribute)과 category(dress, blouse)를 탐지하는 것 [9, 29, 32, 41], 혹은 개별 garment를 segmentation하는 것 [16, 39, 55, 58]에서 시작함. 이들은 모두 product search [20, 36, 57]에 필수적임. Recognition을 넘어서, 최근 연구들은 하나의 garment가 다른 garment와 얼마나 잘 어울리는지 [21, 26, 30, 47, 51, 52], outfit 전체가 얼마나 fashionable한지 [28, 49], 어떤 garment가 어떤 body shape에 잘 어울리는지 [24, 27]를 추론함. 대부분의 기존 연구는 supervision을 통해 clothing style을 학습하지만 [35, 41, 50], style은 자동으로 mining될 수도 있음 [5, 25, 33, 44, 45]. 우리 모델은 garment의 attribute와 category를 인식하는 것에서 출발한 뒤, localized visual style을 자동으로 발견함. 그러나 위 방법들과 달리, 우리는 cultural event의 맥락 속에서 시간에 따른 style 변화까지 분석함.

Visual trend analysis and dating photos.
의류 style [5, 25, 45]뿐 아니라, 자동차 [31], 건축 [12] 같은 다른 visual phenomenon에서도 style은 중요한 관심 대상임. 초기 연구들은 hand-engineered feature(예: HOG descriptor [10])를 사용해 localized part patch(예: 자동차 헤드라이트, 건물 창문, 어깨 부위 vs. 허리 부위)를 mining했고, 이 patch들은 시각적으로는 일관되면서도 temporal하게는 구별 가능함. 이후 이 style들의 전이를 시간 및/또는 공간에 따라 추적함 [12, 31, 54]. 여러 기존 dataset은 trend를 추적하기 위해 날짜 annotation이 달린 사진들을 모아둠. 예를 들어, car dataset [31]은 1920년부터 1999년까지의 자동차를 포함하고, US yearbook dataset [17]은 1905년부터 2013년까지의 얼굴을 포함하며, clothing dataset [53]은 1900년부터 2009년까지를 다룸.\(^1\) 위 방법들은 발견된 style의 전이를 추적하고, 대상(car, person, clothing)이 어느 연도 혹은 decade에 속하는지를 예측하는 데 초점을 둠.

우리 연구 역시 시간에 따른 visual style modeling을 포함하지만, style trend를 world event에 자동으로 grounding하는 것이 고유한 목표임. yearbook project [17]는 사회적, 문화적 사건과의 연결 가능성(예: 안경의 prevalence, 미소 곡률)을 논의하고, 그럴듯한 영향에 대한 문헌도 제시하지만, 그 연결은 anecdotal하며 수동으로 찾아낸 것임. 반면 우리는 style에 영향을 주는 cultural factor를 자동으로 탐지하고, 그 탐지된 influence를 활용해 forecasting과 timestamping이라는 두 quantitative task를 개선함.

Influence modeling.
패션은 다른 장소와 사람들에게 확산되지만, fashion의 influence modeling을 탐구한 기존 연구는 제한적임. runway에서 real-way로 influence가 퍼진다는 가설 하에, 한 방법은 세 가지 attribute(floral, neon, pastel)의 style trend dynamics를 anecdotal하게 추적했고 [54], 다른 한 방법은 NY fashion show와 대중 사이의 attribute 변화에 대한 correlation coefficient만 모니터링했을 뿐 influence나 causality는 다루지 않음 [8]. GeoStyle 프로젝트는 Instagram style trendline의 anomaly를 찾은 뒤, 그에 해당하는 이미지 caption의 text를 살펴 이를 설명함. 예를 들어, 태국 국왕 생일에 yellow shirt가 갑자기 급증한 현상을 찾아냄 [44]. 단순 correlation을 넘어서, 우리는 fashion event에 선행하는 root source의 influence를 발견함. 우리가 아는 한, computer vision에서 detected influence를 활용한 유일한 연구는 최근의 두 style forecasting 방법 [4, 43]뿐임. 이들은 도시 간 fashion influence [4], 혹은 여러 style과 그 taxonomy 사이의 influence [43]를 모델링할 뿐, cultural event와는 연결하지 않음. 위 모든 방법은 visual content 내부의 influence relation만 고려하는 반면, 우리는 외부 요인(news event)이 visual style에 미치는 influence를 연구함.

\(^1\) 이 dataset은 publicly available하지 않음.

3. Approach

우리는 먼저 이 문제를 위해 수집한 Vintage clothing image dataset과 textual corpus를 소개함 (Sec. 3.1). 그 다음, 한 세기에 걸친 clothing style을 mining하기 위한 모델을 설명함 (Sec. 3.2, Sec. 3.3), 그리고 news article로부터 cultural factor를 발견하는 방법을 설명함 (Sec. 3.4). 마지막으로, 어떤 cultural factor가 어떤 clothing style에 영향을 미치는지 탐지하고 (Sec. 3.5), 발견된 influence를 이용해 미래 clothing trend를 forecast하고 (Sec. 3.7) photo를 timestamping함 (Sec. 3.8). 전반적으로, 우리는 문화에 대한 긴 historical window를 제공하는 새로운 Vintage dataset과, 최근 몇 년간의 문화적 효과를 풍부하게 기록하는 기존 대규모 social media photo dataset인 GeoStyle [44]를 병렬적으로 사용하여 실험을 수행함.

3.1. Collecting a century of data

20세기는 지금까지 clothing이 가장 빠르게 진화한 시기였음. Mass-production technique이 도입되었고, 사회 속 사람들의 역할도 변화했음. Clothing design은 이전 세기들보다 더 자유로운 형태를 띠게 되었음. 더불어, 사진 촬영은 19세기 말에 professional을 넘어 대중화되었고 [46], 사람들의 일상 outfit에 대한 더 많은 기록을 만들어냈음. 이러한 이유들 때문에, 우리는 clothing의 진화와 사회의 관계를 연구하기 위해 20세기를 선택함. 관련 데이터에 접근할 수 있다면, 이 methodology는 다른 시기로도 확장 가능함.

Image data.

20세기에 걸친 대규모 photo collection을 구축하기 위해, 우리는 사용자가 자신이 좋아하는 주제/대상을 공유하는 online social platform인 Flickr를 사용함. Vintage는 Flickr에서 인기 있는 주제 중 하나임. 사용자들은 오래된 사진, magazine cover, poster의 스캔본을 업로드하며, metadata에는 종종 이미지가 언제 누구에 의해 만들어졌는지에 대한 설명이 포함됨. 우리는 vintage clothing과 관련된 keyword를 사용해 publicly available image와 그 metadata를 retrieval하고, metadata를 자동으로 parsing하여 각 이미지의 date label을 얻음. 그 결과 생성된 Vintage image dataset은 총 6,292장의 photo와 11,898개의 clothing instance를 포함함(자세한 내용은 아래 참조). 이는 publicly available한 date-annotated clothing dataset 중 가장 큰 규모이며, community photo sharing에서 기원했기 때문에 어느 정도 organic diversity도 가짐. 즉, museum이나 textbook에 curated된 사진과 달리, 누구나 Flickr에 자신의 사진을 공유할 수 있음. 다만, 모든 Internet photo collection과 마찬가지로 특정 bias가 존재할 수 있음. 우리의 경우, 서로 다른 시기와 지역에서 photography가 얼마나 널리 퍼졌는지의 차이 때문에 sampling bias가 존재함. 예를 들어, outfit은 대부분 Western style이며, 이미지 속 인물은 fashion model, movie actor, political character인 경우가 많고, 초기 decade보다 후기 decade에 이미지가 더 많음. Fig. 1, Fig. 2, Fig. 3에 example image를 제시함.

Sec. 4에서는 Vintage를 사용해 100년에 걸친 influence를 발견하고, 별도로 7M-image GeoStyle dataset [44]을 사용해 2013-2016년 동안의 influence를 발견함. 이 두 dataset은 본 연구에 대해 상호보완적인 장점을 가짐. Vintage photo는 훨씬 긴 기간과 다양한 media source(personal photo, magazine, advertisement 등)를 포괄하는 반면, GeoStyle photo는 social media user photo에 초점을 두고 최근 몇 년을 조밀하게 커버함.

Text data.

무슨 일이 일어났는지, 사람들이 무엇을 가장 많이 논의했는지, 무엇이 사람들의 일상에 가장 큰 영향을 주었는지에 대한 정보를 얻기 위해 가장 이상적인 source는 news article임. 우리는 textual corpus로 The New York Times를 선택함. 이 신문은 20세기 전체에 걸친 news article을 포함하고 있으며, 권위와 정확성에 기반한 national “newspaper of record”로 여겨지고, 다양한 범위의 내용을 다룸(예: The Wall Street Journal은 business에 더 초점이 맞춰져 있음).

우리는 1900년부터 현재까지 이용 가능한 모든 New York Times news article을 수집했고, 총 100M articles를 확보함(자세한 내용은 아래 참조). 미국 신문이기 때문에 그 content나 perspective는 종종 미국 혹은 Western hemisphere에 관한 것임. 이는 우리가 수집한 image dataset의 관점과도 합리적으로 잘 맞으며, 동일 기간 동안 clothing style을 형성한 잠재적 cultural factor를 mining하기에 적합함. 우리는 수집한 dataset을 다음 주소에서 공유함: http://vision.cs.utexas.edu/projects/CultureClothing.

3.2. Clothing features

우리는 먼저 모든 이미지에 person detection [18]을 적용해 사람들이 입고 있는 clothing을 분리함. 이를 통해 총 11,898개의 clothing instance를 얻음.

다음으로 clothing style을 추출함. Style representation은 outfit의 color, pattern, cut 등을 포착하면서도, 해당 person의 pose나 identity 혹은 다른 irrelevant factor에는 invariant해야 함. 또한 style evolution에서 중요한 점은 변화가 점진적이고 localized한 경우가 많다는 것임. 예를 들어 clothing의 기능이 더 practical해지면서, 1910년대 초에는 bust area가 먼저 완화되었고, 이후 1920년경에는 hemline이 종아리 위로 올라갔음. 이러한 요인들은 단순한 global image encoding보다 더 정교한 표현을 요구함. 전체 outfit에서 얻은 global feature는 흔히 더 큰 영역(예: dress 전체 silhouette)에 의해 지배되며, 이는 localized detail(미세한 pattern, sleeve type, neckline 등)을 분석하는 것을 방해함. 마찬가지로, ImageNet [11]으로 pre-trained된 neural network의 feature는 object의 전체 texture와 shape는 포착할 수 있지만, clothing에 존재하는 fine-grained하고 localized한 detail(예: neckline이나 hemline)에는 충분하지 않음.

따라서 우리는 style discovery에 사용할 visual feature를 준비하기 위해 두 가지 요소를 주입함. 첫째, clothing-sensitive encoder를 얻기 위해, ImageNet pre-trained ResNet-18 [23]을 DeepFashion [41]에서 clothing category와 attribute recognition task로 fine-tuning함. 이 network는 clothing의 detail을 인식하도록 학습되었기 때문에, 우리가 얻는 style은 더 fine-grained해짐(floral A-line dress vs. A-line dress). 둘째, outfit을 neckline, sleeves, torso, legs region으로 zoom-in하여 각 region에서 clothing style의 evolution을 별도로 분석함. 이러한 region을 자동으로 분리하기 위해 human body joint를 anchor로 사용함. 구체적으로는 Mask-RCNN [22]을 이용해 neck, arms, waist, hips, ankles의 joint를 검출함. 이후 clothing-style-based feature를 이 localized region에서 clothing-sensitive network를 사용해 추출함. Fig. 2는 위 두 요소를 사용했을 때의 qualitative comparison을 보여줌. 사진 속 face region은 버린다는 점에 유의해야 함. 우리의 관심은 identity가 아니라 clothing을 모델링하는 데 있음.

(a) ImageNet [11] pre-training only (left) vs. DeepFashion [41] fine-tuning (right).
(b) Features extracted from full-body (left) vs. from zoomed-in body-part regions (right).

Figure 2: Clothing features comparison.
제안한 feature extraction은 더 fine-grained하고 coherent한 style cluster를 생성함.

3.3. Clothing style discovery

우리의 목표는 clothing style을 mining하고, world event의 함수로서 시간에 따른 trend를 추적하는 것임. 따라서 각 clothing instance \(I_j\)는 추론된 style label \(s_j\)와 year label \(d_j\)를 가짐. Year label은 이미지와 함께 제공되는 tag 혹은 description metadata를 parsing하여 얻음.

Clothing style을 mining하기 위해, 우리는 Sec. 3.2에서 추출한 각 body region의 feature에 clustering algorithm을 적용함. Feature는 이미 clothing에 맞게 fine-tuning되어 있고 각 region별로 localized되어 있으므로, Euclidean distance를 clothing style similarity metric으로 사용하는 것이 합리적인 결과를 냄. 우리는 각 body region의 cluster 수를 algorithm이 자동으로 결정하도록 Affinity Propagation [15]를 사용함. 각 cluster는 하나의 candidate style을 의미함.

Clothing style을 완전히 자동으로 발견하는 과정은 person detection에서 출발해 body joint 기반 part crop을 수행하고, clothing과 직교하는 low-level photo statistic(예: scanning artifact, photo processing technology의 변화 등)의 존재도 받기 때문에, 모든 cluster가 의미 있는 style에 대응하는 것은 아님. 이러한 위험을 제어하기 위해, 우리는 DeepFashion [41]의 clothing attribute 혹은 category와 얼마나 잘 대응하는지로 cluster의 quality를 자동 측정함. Cluster \(c\)의 correspondence score는 예측된 attribute/category label distribution의 entropy로 계산함:

\(E(c) = - \Sigma_{i \in S} H(i)\log_2 H(i)\),

여기서 \(H(i)\)는 cluster \(c\) 내 모든 instance에 대해 attribute/category label \(i\)의 aggregated output activation이고, \(S\)는 DeepFashion [41]의 label set임. Entropy가 낮을수록 특정 predicted attribute/category에 더 잘 대응함을 의미함. 우리는 각 body region에서 평균보다 2 standard deviation 이내로 entropy가 낮은 cluster만 채택함. Tab. 1에는 최종 cluster(style)의 수가 나와 있으며, body region당 26개에서 144개 범위임.

발견된 style의 quality를 검증하기 위해 user study를 수행함. 75%의 경우에 대해 human judge는 해당 cluster가 서술 가능한 coherent clothing style을 보인다고 판단함(자세한 내용은 supplementary 참조).

그 다음, 시간 단계 \(t\)에서 style \(i\)의 popularity를 occurrence의 비율로 정의함:

\(x_{i,t} := \frac{|\{s_j' \mid s_j' = i, d_j' = t\}|}{\Sigma_{j'} \mathbb{1}(d_{j'} = t)}\), (1)

그리고 시간에 따른 \(i\)-번째 visual style의 trend는 \(x_{i,1}, \ldots, x_{i,T}\)의 sequence가 되며, 여기서 \(T\)는 이용 가능한 가장 최근 time point임. Fig. 3은 torso region에서 상위 style trend의 timeline을 보여줌. 다른 body region은 supplementary 참조.

각 style에 함께 붙는 attribute와 category label은 해석 가능성을 위한 것일 뿐이며, style 자체는 DeepFashion [41]의 attribute를 직접 채택하는 것이 아니라 clothing-oriented feature 위의 clustering으로부터 bottom-up으로 발견된다는 점에 유의해야 함. Clothing style과 그 trend를 확보한 뒤, 다음으로 우리는 시간에 따른 cultural factor를 어떻게 얻는지 설명함.

Figure 3: Timeline of the top styles in the torso region:
각 색은 하나의 style을 나타내며, style이 차지하는 면적은 그 style의 특정 time delta에서의 frequency를 보여줌. 일부 example style은 centroid image와 탐지된 visual attribute를 함께 제시함(clothing-sensitive encoder 위 classifier를 통해 추론함). 흥미로운 trend를 관찰할 수 있는데, 예를 들어 후기 시기일수록 더 많은 skin region이 노출되고, 몇몇 두드러진 복잡한 texture는 1910년대와 1920년대에 peak를 보임. 다른 body region의 timeline은 supplementary 참조.

3.4. Cultural factor mining

사람들의 일상에 영향을 준 latent factor를 mining하기 위해, 우리는 New York Times (NYT) API\(^2\)를 사용하여 1900년부터 현재까지의 모든 news article을 수집한 뒤, 매우 짧은 기사(number of words < 15)는 제외함. 이를 통해 총 100 million article을 확보함. 연도별 news article 분포는 supplementary 참조. 우리는 모든 기사에 대해 title, abstract, first paragraph를 concat하여 사용함. 이 corpus의 vocabulary를 만들기 위해 Natural Language Toolkit [42]을 사용해 stemming과 stop word 제거를 수행함.

대부분의 뉴스는 소수의 subject에 집중되고, 대부분의 subject는 반복적으로 등장함. 예를 들어 baseball 경기, presidential election 등이 그러함. 따라서 우리는 topic modeling, 구체적으로는 Latent Dirichlet Allocation (LDA) [6]을 사용해 전체 news article에 공통된 latent factor를 mining함. LDA는 vocabulary에 있는 observed word의 분포를 설명하는 latent topic \(K\)개가 존재한다고 가정하며, 각 topic은 vocabulary 위의 word distribution이고, 각 document는 topic distribution으로 표현될 수 있음. \(K=400\)으로 text corpus 위에서 LDA를 실행하면, 각 article \(M_j\)는 topic distribution \(\theta_j\)로 표현됨:

\(\theta_j = [\theta_{j,1}, \dots, \theta_{j,K}]\), (2)

여기서 \(\theta_{jk} \ge 0\), \(\Sigma_k \theta_{jk} = 1\)임. 각 article은 publication date를 가지며, 이것이 article \(M_j\)의 date label \(d_j\)가 됨. 따라서 temporal bin \(t\)에서 topic \(l\)의 popularity는 다음과 같이 계산됨:

\(y_{l,t} := \frac{\Sigma_{j:d_j=t} \theta_{jl}}{\Sigma_{k=0}^{K-1} \Sigma_{j:d_j=t} \theta_{jk}}\), (3)

그리고 시간에 따른 \(l\)-번째 cultural factor(topic)의 trend는 \(y_{l,1}, \ldots, y_{l,T}\)의 sequence가 됨.

\(^2\) https://developer.nytimes.com/
\(^3\) \(K\)를 정하기 위해, common topic에 대한 hierarchical category를 reference로 제공하는 Google Cloud Natural Language API를 사용함. 그들의 세 번째 hierarchy에는 382개의 category가 있음.

3.5. Culture-fashion influence modeling

Clothing style과 cultural factor를 발견하는 접근을 소개했으므로, 이제 우리는 culture가 우리가 입는 옷을 어떻게 형성하는지를 모델링하는 방법을 설명함. 자연스럽게 떠오르는 방법은 style 변화와 topic 변화 사이의 correlation을 찾는 것임. 어떤 style과 topic이 모든 인접 연도에서 유사한 변화를 보이면, 그 topic이 해당 style에 영향을 준다고 볼 수 있음. 그러나 이 단순한 방법은 다른 가능성을 고려하지 못함. Style과 topic의 trend는 positive correlation일 수도 negative correlation일 수도 있고, correlation은 임의의 delay에서 발생할 수도 있으며, 양쪽 trend에 존재하는 local fluctuation이 전체 correlation metric에 쉽게 영향을 줄 수 있음. 실제로 우리는, trend의 형태가 어떻든 간에 topic을 관측하는 것이 style trend forecasting을 개선한다면, 그 topic이 해당 style에 영향을 주었을 것이라고 가정함. 이 성질은 본질적으로 Granger causality [19]의 정의와 같음.

Definition 1 Granger-causality.
시계열 \(\{y_{l,t}\}\)가 또 다른 시계열 \(\{x_{i,t}\}\)를 Granger-cause한다는 것은, \(y_l\)의 history를 포함하는 것이 \(x_i\)의 history만 알고 있을 때보다 \(x_i\)의 prediction을 더 잘하게 만드는 경우를 의미함.

어떤 topic이 어떤 style에 영향을 주는지를 결정하기 위해, 우리는 모든 topic-style pair에 대해 Granger-causality test를 수행함. 여기서 topic \(l\)의 time series는 \(\{y_{l,t}\}\), style \(i\)의 time series는 \(\{x_{i,t}\}\)임. Test는 다음의 regression model에 기반함:

\(\hat{x}_{i,t} = \Sigma_{m=1}^{q_1} \alpha_m x_{i,t-m} + \Sigma_{m=1}^{q_2} \beta_m y_{l,t-m}\). (4)

여기서 \(\alpha_m, \beta_m\)은 각 time series의 regression coefficient이고, \(q_1, q_2\)는 각 regression window임. 이 test의 null hypothesis는 모든 \(m \in \{1, \ldots, q_2\}\)에 대해 \(\beta_m = 0\)일 때가 optimal하다는 것임. 어떤 topic-style pair에 대해 유의수준 \(\alpha\)에서 null hypothesis가 reject되면, 그 topic은 해당 style을 Granger-cause한다고 판단함. Fig. 4는 우리의 접근을 overview 형태로 보여줌.

이후 section에서는, 이 influence model을 사용해 fashion history timeline을 자동으로 만드는 방법(Sec. 3.6)을 설명하고, 그 다음 두 개의 quantitative task(Sec. 3.7, 3.8)를 통해 우리가 발견한 influence를 어떻게 검증하는지 논의함.

Figure 4: Approach overview:
Cultural factor는 topic model을 사용해 news article로부터 mining됨(Sec. 3.4). Clothing style은 clothing-sensitive feature 위의 clustering을 통해 photo로부터 mining됨(Sec. 3.3). Clothing style에 대한 cultural influence는 각각의 popularity time series 사이의 Granger-causality relation을 측정하여 탐지됨(Sec. 3.5).

3.6. Automatically creating fashion timelines

Fashion history timeline을 만드는 데는 두 가지 핵심 요소가 있음. i) 각 era에서 iconic style을 식별하는 것, ii) 그러한 iconic style의 배경에 있는 사회적, 문화적 사건을 설명하는 것임. 각 decade에서 iconic style을 식별하기 위해, 우리는 각 style의 각 decade에서 index lift [48]를 다음과 같이 계산함:

\(\frac{x_{i,t}}{\Sigma_t x_{i,t}}\),

이는 전체 시간에 걸친 style distribution 대비 특정 시점에서 그 style이 관측되는 uniqueness를 반영함. 시점 \(t\)에서 lift index가 가장 큰 style을 iconic style로 식별함. 그러한 style이 나타나게 된 세계의 사건을 이해하기 위해, 우리는 그 style의 Granger-causal topic을 분석함. Topic의 상위 단어들은 더 coarse한 cultural factor(예: German, music, turmoil 등)를 설명하고, 해당 시점에서 그 topic probability가 가장 높은 news article을 역추적하면, 실제로 일어난 구체적인 event(예: World War I, The Great Depression, campus protest and unrest 등)도 탐지할 수 있음. Fig. 1은 위 절차로 Vintage data 위에서 생성한 fashion history timeline의 일부임. 제시된 influence 중 일부는 익숙할 수 있지만(예: 전시의 utility clothing), 다른 일부는(미니스커트와 campus unrest) 우리 모델이 새롭게 발견했을 가능성이 있음.

3.7. Influence-based style forecasting

어떤 topic이 실제로 style에 영향을 준다면, 이 관계는 미래 time series에도 계속 유지될 수 있으며, 따라서 미래 style trend를 forecasting하는 task를 개선할 수 있음. 이를 위해, 우리는 training set 시간 범위에서 발견한 influence를 사용해 미래의(disjoint한) test set 시간 범위에서 style trend를 forecast함. Trend forecasting은 시계열의 history를 기반으로 미래 값을 예측하는 task이며, autoregressive model이 일반적으로 사용됨. \(C_i\)를 style \(i\)에 대해 Granger-causality test에서 얻은 influential topic의 집합이라 하자. Clothing style \(i\)의 미래 trend를 예측하기 위해, 우리는 exogenous input으로 style의 Granger-causal topic \(l \in C_i\)를 사용한 모든 autoregressive model의 prediction을 ensemble함:

\(\hat{x}_{i,t} = \frac{1}{|C_i|} \Sigma_{l \in C_i}\left(\Sigma_{m=1}^{q_1} \alpha_{i,m,l}x_{i,t-m} + \Sigma_{m=0}^{q_2-1} \beta_{i,m,l}y_{l,t-m}\right)\). (5)

예비 실험에서 우리는 더 복잡한 model(예: neural-network-based)도 시도했지만, simple linear-based one보다 성능이 떨어짐을 발견함. 유사한 결과는 forecasting에 관한 기존 연구 [5]에도 보고되어 있음.

3.8. Influence-based photo timestamping

Trend forecasting 외에도, 우리는 text corpus로부터 얻은 cultural factor가 historic photo의 date(timestamp)를 맞추는 데 얼마나 도움을 주는지도 살펴봄. Test instance의 date label은 training set에서 nearest neighbor의 date를 채택한 값을 predicted timestamp로 사용함. Instance 간 similarity metric은 visual feature만을 사용할 수도 있고(baseline), 또는 다음에 설명하듯이 우리 모델이 제공하는 이미지의 inferred cultural factor를 추가로 사용할 수도 있음.

우리는 먼저 이미지를 그 이미지가 암시하는 cultural factor, 즉 latent textual topic으로 mapping하는 model을 학습함. Date label이 \(t\)인 training photo \(I_j\)에 대한 textual feature \(v_j\)는, 동일한 date label을 가진 모든 news article에 대한 topic distribution의 평균임:

\(v_j = \frac{\Sigma_{i:d_i=t} \theta_i}{\Sigma_i \mathbb{1}(d_i=t)}\). (6)

Training 시에는, photo의 visual feature를 textual feature로 변환하는 mapping function(3-layer MLP)을 학습함. Test 시에는 photo만 주어지므로, clothing instance의 textual feature는 그 visual feature를 학습된 mapping function에 넣어 얻고, 출력 textual feature를 training instance와의 similarity 측정에 사용함. Visual similarity와 textual similarity는 각자의 feature space에서 Euclidean distance로 측정하며, 최종 similarity는 visual distance와 textual distance의 평균임. 이러한 방식으로, 사진이 주어졌을 때 추론된 cultural factor를 활용하여 timestamping을 위한 encoding을 풍부하게 만듦.

4. Experiments

우리는 먼저 우리 모델이 발견한 clothing style에 대한 cultural influence를 보여줌. 그 다음, 탐지된 influence가 두 image dataset에서 trend forecasting과 timestamping에 얼마나 도움이 되는지를 평가함.

4.1. Discovered trends and influences

먼저, cultural factor가 장기적으로 clothing style에 어떻게 영향을 주는지 연구하기 위해 Vintage data를 사용함(cf. Sec. 3.1). Clothing time series \(\{x_{i,t}\}\)와 textual time series \(\{y_{l,t}\}\)에서 각 time point \(t\)의 granularity는 4년에서 5년임. Influence는 1900년부터 1975년까지의 연도를 사용해 탐지됨. 1976년부터 1996년까지의 연도는 이후 trend forecasting 평가에 사용됨. 더 늦은 연도를 test data로 사용함으로써, sample density가 더 높아지고 각 time point마다 최소 수백 개의 test sample을 확보할 수 있음.

둘째, 현대 시기의 단기 influence를 연구하기 위해 GeoStyle [44] image data를 사용함. 이 dataset은 2013년 7월부터 2016년 5월까지의 기간에 걸친 Instagram의 timestamped and geotagged photo를 포함함. 여기서는 이전 연구 [44, 45]에서 계산된 동일한 style을 사용하며, 이 style은 city별로 탐지된 visual attribute를 weekly aggregate하여 style trend를 얻음. 그 결과 2,024개의 style trend를 얻으며, 각 trend의 길이는 143 time point임. Clothing time series \(\{x_{i,t}\}\)와 textual time series \(\{y_{l,t}\}\) 모두에서 각 time point \(t\)의 granularity는 1주임. 이후 trend forecasting 평가를 위해 마지막 26 point를 hold-out하고(기존 연구 [4, 44]를 따름), 그 이전의 모든 point를 influence 탐지에 사용함.

Example influence는 Fig. 1과 Fig. 5에 제시함. Clothing style에 영향을 미치는 것으로 알려진 cultural factor에는 경제 상태, 정치적 긴장, 시민권, 전쟁, ethnic diversity, 새로운 기술 등이 포함됨. Fig. 5(a-d)는 Vintage photo로부터 탐지된 influence의 예시를 보여줌. 흥미롭게도, 이들은 전문가가 보고한 내용 [7]과 종종 일치함. Fig. 5a는 women에 관한 topic이며, 미국 수정헌법 19조가 통과된 시점에 peak를 가짐. 이 topic에 의해 영향을 받은 style은 blouse, suede, A-line 등의 attribute를 갖는 working attire를 묘사함. Fig. 5b의 두 번째 topic은 war에 관한 것으로, World War I과 World War II 시기에 peak를 가짐. 이 topic은 denim, chambray, peasant, jumpsuit 등의 attribute를 지닌 utility clothing의 인기에 영향을 주었음. Fig. 5c의 세 번째 topic은 (South) Africa에 관한 것이며, Grand Apartheid와 civil war 시기에 peak를 가짐. Floral 또는 paisley 같은 colorful print와 embroidery를 지닌 ethnicity-inspired clothing이 이 topic의 영향을 받음. 마지막으로, Fig. 5d의 네 번째 topic은 patent와 새로운 invention에 관한 것이며, 우주 경쟁 시대에 peak를 가짐. 이 topic의 영향을 받은 clothing은 대부분 zipper, bleaching, mineral wash 등 새로운 technique으로 만들어짐. 전문가의 통찰과 일치하는 influence를 찾는 것도 만족스럽지만, 우리 모델은 더 미묘하고 이전에는 예상되지 않았던 influence도 회복할 수 있음. 이것이 우리의 data-driven approach의 강점임.

Fig. 5(e-f)는 GeoStyle에서 발견한 influence 예시를 보여줌. 우리 모델은 finance 관련 topic과 런던의 folded neckline 사이의 seasonal similarity를 발견함(Fig. 5e). 또한 environment-conscious topic으로부터 시애틀에서 green을 입는 style로의 가능한 causality relation도 발견함(Fig. 5f).

우리 결과의 statistical significance를 검증하기 위해, top Granger-causality relation을 식별하고 그들의 F-value와 F-critical value를 비교함. F-value가 F-critical value보다 크면 statistically significant한 것으로 간주함 [2]. Vintage의 F-critical value는 3.98이고, GeoStyle은 2.48임. Top 20 Granger-causality relation의 F-value는 각 dataset에서 각각 9에서 96, 13에서 17 범위에 있으며, 이는 유의미함을 나타냄. 전체 목록은 supplementary 참조.

Figure 5: Example detected influences:
각 subfigure의 curve는 visual style과 cultural factor의 popularity trend를 나타냄. Curve에 대응하는 call-out box는 style의 centroid image와 탐지된 attribute/category(파란 박스), 그리고 mining된 textual topic의 상위 단어(노란 박스)를 보여줌. Fig. (a) (b) (c) (d)는 Vintage dataset (1900-1996)에서 발견된 influence를 보여줌. 이들은 전문가 지식 [7]과 일치함. Fig. (e) (f)는 GeoStyle [44] (2013-2016)에서의 예시를 보여줌. 공간 제약 때문에 발견된 influence 중 일부만 이미지를 통해 보여주지만, quantitative result는 모든 발견된 influence에 대한 결과를 보고함(Table 1, 2).

(a) Topic ‘Women’ influences working attire.
(b) Topic ‘War’ influences utility attire.
(c) Topic ‘African’ influences ethnic attire.
(d) ‘Invention’ influences novel clothing details.
(e) ‘Finance’ influences necklines in London.
(f) ‘Eco’ influences wearing green in Seattle.

4.2. Forecasting trends

다음으로, 우리는 탐지된 influence를 hold-out time series에 대한 trend forecasting에 적용함. 즉, Vintage에서는 1975-1996 전체, GeoStyle에서는 2016년 하반기 전체를 사용함. 두 dataset 모두에서 우리는 external influence가 채택된 모든 style을 평가함. 즉, Granger test에서 null hypothesis가 reject된 style들임(see supplementary). Clothing style의 수는 Tab. 1 첫 번째 row에 제시됨.

Baselines and evaluation.

우리는 기존 trend forecasting 연구 [5]\(^4\)의 baseline을 채택함. Forecasting task [14, 38, 56]의 standard이기 때문에 (Vintage에서는) mean-squared-error (MSE)를 evaluation metric으로 사용함. 반면 GeoStyle에서는 기존 방법 [4, 44]과 일관되도록 mean-absolute-error (MAE)를 사용함. Training set의 ground-truth value가 주어졌을 때, 모든 방법은 long-horizon basis에서 미래를 예측함. 즉, test set의 ground-truth value는 절대 주어지지 않음. 성능은 style별, time-point별로 평가되며, 최종 error는 Vintage에서는 다음 20년, GeoStyle에서는 다음 6개월에 대한 평균 error임.

Trend prediction results는 Tab. 1에 제시함. 우리 방법이 overall에서 가장 좋은 성능을 보임. 미래 trend를 예측하는 것은 short-term(GeoStyle)인지 long-term(Vintage)인지에 따라 서로 다른 특성을 가진 model이 필요함. Short term(다음 6개월)의 future trend를 예측할 때는, 더 최근 value(즉, last와 EXP)에 명시적으로 더 의존하는 것이 더 과거 value(즉, mean과 linear)를 고려하는 것보다 더 잘 작동함. Fig. 5와 Fig. 6의 GeoStyle example style은 local fluctuation이 늘 존재하더라도, 짧은 기간에서는 style의 trend가 일반적으로 크게 변하지 않음을 시사함. 우리 influence-based model이 전체적인 future trend뿐 아니라 local fluctuation까지 포착하는 방식은 Fig. 6에서 확인할 수 있음. 반면 long term(다음 20년)의 Vintage prediction은 훨씬 더 도전적임. 단 1개 또는 2개의 data point(즉, last 혹은 linear)만 사용해 미래 curve를 extrapolate하는 방법은, 더 많은 historical point를 고려하면(즉, mean, AR, EXP) 종종 성능이 좋지 않음. 과거를 더 많이 볼수록 model 성능이 좋아짐. 그러나 우리의 influence-based model은 Fig. 6의 highly dynamic한 long-term future trend를 예측할 수 있기 때문에 가장 좋은 성능을 냄.

Long-term과 short-term setting 모두에서, 제안한 cultural influence를 autoregression (AR)에 포함시키면 overall performance가 향상됨. Vintage에서는 57%의 style이 influence를 포함할 때 더 나은 성능을 보이며, 8%의 style은 10% 이상 개선됨. GeoStyle에서는 80%의 style이 influence를 포함할 때 더 나은 성능을 보이며, 66%의 style이 10% 이상 개선됨.

우리는 이 실험들이 모든 style에 대해 포괄적으로 수행되었다는 점을 강조함. 공간상 qualitative figure는 발견된 influence relation의 일부 sample만 보여주지만, quantitative result(Tab. 1, Tab. 2)는 전체 데이터를 대상으로 계산됨. 더 나아가, 우리가 발견한 influence의 정확성도 중요함을 확인함. Granger-causal한 topic만이 아니라 모든 topic을 포함하면, forecasting은 vanilla AR보다 30% 더 나빠짐.

\(^4\) [4]의 방법은 city label이 필요하므로 vintage data에는 적용할 수 없음. 또한 [44]의 방법도 시도했지만, linear baseline으로 fallback되며 실패함. 이 데이터에는 그 모델이 의존하는 cyclicity가 없기 때문에 수렴하지 못했음.

Figure 6: Examples of trend forecasting
vanilla AR와 cultural influence를 고려한 ours를 비교한 예시임. 위 row는 한 세기에 걸친 Vintage data, 아래 row는 3년에 걸친 GeoStyle [44] data를 보여줌. Topic에서 visual style로의 발견된 influence relation은 AR보다 더 정확한 trend prediction을 가능하게 함.

Table 1: Forecasting trends
GeoStyle [44] dataset의 style 전체(left)와 Vintage photo의 각 body region(right)에 대한 결과를 보여줌.

4.3. Timestamping photos

마지막으로, 우리는 unseen photo의 timestamping에 대한 우리 방법의 영향을 평가함(cf. Sec. 3.8). Vintage와 GeoStyle\(^5\) dataset 모두에서 clothing instance의 20%를 evaluation용으로 random split하여 hold out하고, 나머지를 retrieval을 위한 training database로 사용함. Vintage data의 date label 집합은 1900, 1905, 1910, \(\ldots\), 1995와 같이 5년 간격이며, 총 20개의 label이 있음. GeoStyle의 label 집합은 2013년 7월부터 2016년 5월까지 매 4개월 간격으로 총 10개의 label을 가짐. 우리는 multi-class classification accuracy를 평가함.

Tab. 2는 timestamping result를 보여줌. 우리 접근은 visual-only baseline을 유의미하게 능가함. Cultural feature는 visual feature만 사용하는 것보다 timestamping에 더 나은 representation을 제공하는데, 이는 아마도 날짜 특이적 정보를 더 깔끔한 방식으로 압축하기 때문일 것임.

\(^5\) Full image data는 publicly available하지 않음. 우리는 약 130K장의 image를 사용함.

Table 2: Timestamping accuracy:
사진이 주어졌을 때, 그 사진의 inferred cultural feature를 포함하면 올바른 날짜를 더 잘 예측할 수 있게 됨.

5. Conclusion

한 세기에 걸친 패션 사진을 분석하며, 우리는 세계의 사건들이 사람들이 선택해 입는 옷에 어떤 영향을 미쳤을 수 있는지 탐구함. 우리의 statistical model은 news event와 visual style 사이의 구체적인 temporal influence relationship을 식별하며, 잘 알려진 연결뿐 아니라 더 미묘한 연결까지도 data-driven한 방식으로 드러낼 수 있게 함. 실제적인 영향을 보여주기 위해, 우리는 mining된 influential cultural factor를 활용하는 forecasting 및 timestamping 방법을 제안함. 두 개의 dataset에서의 결과는 이러한 새로운 context source가 두 practical task 모두에 유익함을 보여줌. 향후 연구에서는 influence의 hierarchical model을 탐구하고 geographic pattern의 역할도 살펴볼 계획임.

현재글[논문리뷰] From Culture to Clothing: Discovering the World Events Behind A Century of Fashion Images (ICCV 2021)

프로그래밍선

귀여운 뽀뿌 🐶💗🤍

LLM, nvs, depth pro, streamlit, error, depth, novel view synthesis, 경사하강법, Depth estimation, 논문리뷰, Computer Vision, tiled multiplane images for practical 3d photography, 챗봇만들기, 프로그래머스, SGD, ICCV, tmpi, Python, PIP, cv2,

Today :
Yesterday :

프로그래밍선