[Paper Review] Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval

Posted Oct 14, 2024 Updated Mar 2, 2025

By Jeong-hun Hong

12 min read

Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval
ACM MM 2024
Yang Du, Yuqi Liu, Qin Jin
Renmin University of China
[paper] [supplementary] [github]

1. Abstract & Introduction

기존 연구 문제점

기존 벤치마크가 시간적 이해를 충분히 평가하지 못함.
대규모 이미지-텍스트 모델(단일 프레임 기반 모델)이 비디오-텍스트 모델과 유사한 성능을 보임 -> 비디오-텍스트 학습 모델들이 시간적인 의미보다는 정적인 이미지에 편향됨. (그림2 참조)
또한 그림1과 같이 노트북을 여는 동영상과 노트북을 닫는 동영상의 차이를 구별하지 못함
기존 데이터셋(MSRVTT test set)에서 10%의 비디오-텍스트 쌍만이 시간적 의미를 포함함

제안 방법

RTime이라는 시간적으로 어려운 부정 샘플을 포함하는 새로운 데이터셋을 구축, 21,000개의 비디오와 210,000개의 텍스트로 구성됨
세가지 벤치마크(RTime-Origin, RTime-Hard, RTime-Binary)를 설정하여 포괄적으로 평가

2.1. Video-Text Benchmark Datasets

다양한 비디오-텍스트 검색 벤치마크 데이터셋이 존재하지만, 시간적 평가의 한계가 있음.
MSR-VTT, VATEX, ActivityNet-Caption, DiDeMo 등의 데이터셋이 널리 사용되지만, 시간적 측면을 충분히 반영하지 않음.

2.2. Video-Text Retrieval Methods

기존 retrieval methods는 초기의 오프라인 특징 추출 방법, CLIP과 같은 사전 학습 모델을 활용한 방식, 대규모 비디오-텍스트 사전 학습 모델이 있고, 기존 벤치마크에서 우수한 성능을 보였지만, 시간적 이해 측면은 여전히 부족함

3. RTime: Novel Video-Text Benchmark

3.1. RTime Dataset Construction

top-down 3step 데이터 구축 파이프라인을 제안함
사람과 LLM을 활용하여 action 목록을 구성함, 이 action들은 시간적으로 반대되는 action 또한 성립함
action 목록을 토대로, 인터넷에서 동영상을 크롤링하고, annotation을 구성

3.1.1. Step 1: Seed Activity List Proposal.

기존 action recognition dataset으로 부터 레이블 추출
브레인스토밍을 통해 뚜렷한 시각적 강조를 가지고, 시간적 반대 의미를 포함하는 action 목록 구성
GPT-4를 활용하여 몇가지 action 페어를 제공하고, 더 많은 샘플 생성
비논리적, 동영상으로 구별할 수 없는 쌍들은 인간이 검토하여 제거
최종적으로 144개의 쌍을 구성 \(A = \lbrace(𝑎_𝑖, 𝑎_{e𝑖})\rbrace_{i=1}^{144}\)

3.1.2. Step 2: Activity List Enrichment.

Step 1의 action 목록에 구체적인 객체는 GPT-4를 사용하여 생성하여 동사-명사 구문을 생성
평균적으로 action별 20개의 객체를 추가하여, 5760개의 동사-명사 목록을 구성

3.1.3. Step 3: Video Acquisition and Annotation.

Raw Video Acquisition.

7명의 작업자 모집하여, 앞서 구성한 페어를 쿼리로 비디오를 검색하고, 다음 조건으로 필터링 수행
1. 시간적 정보에 의존하지 않고 식별할 수 있는 활동
2. 검색된 동영상의 수가 50개 미만인 경우
3. 검색된 비디오 중 50% 미만이 이 action과 일치하는 경우
결과적으로 800개의 action과 약21,000개의 비디오 수집

Video Reversion.

시간적 이해 능력 평가를 위해, 시각적으로 유사하지만, 시간적 의미가 정반대인 비디오를 포함시키는 것이 필요함 -> 약21,000개의 비디오의 역전한 버전을 같이 사용 -> 단순히 역전한 비디오가 의미가 있을까 싶지만, 추후 annotation 과정에서 한번더 검증을 수행함

Manual Annotation.

IELTS 7점의 영어 능력을 가진 23명의 전문가가 원본 동영상과 Reversed 동영상에 annotation 생성
아래 5가지 조건을 재 검토하며 annotation 생성하여 최종 21,537개 데이터셋 구성
1. 뚜렷한 시간적인 활동을 포함하고 있는지
2. 상당한 차이가 있는 연속적인 활동을 포함하고 있는지
3. 객체의 상태에 명백한 변화가 있는지
4. 객체의 위치에서 관찰 가능한 변화가 있는지
5. reversed 동영상에 비현실적인 시나리오가 있는지

Rewriting for Diversity.

다양성을 위하여, GPT-4에게 인간이 작성한 캡션을 제공하여, 9개의 추가적인 문장을 작성하도록 지시
불확실한 GPT의 캡션 품질로 인해, 학습 세트에만 추가하고, 테스트세트에는 기존 캡션만 사용
최종적으로 210,000개의 비디오-텍스트 쌍 구성

3.2. Dataset Statistics

총21,537개의 동영상, 각 동영상은 하나의 수동 annotation 캡션과 9개의 GPT-4 생성 캡션을 가짐
16,530개 동영상(76.8%)에 시간적으로 어려운 반대 샘플이 존재
RTime의 비디오는 SSV2-Label 및 SSV2-Template보다 더 넓은 범위를 포괄하여 도메인 제한 문제 해결.
동사-명사 조합 및 동사 구문 분포 기반 워드 클라우드 제공, RTime에서 균형 잡힌 분포 보여줌.
RTime의 텍스트 문장 길이가 다른 유사 데이터셋보다 길어, 더 세밀한 annotation을 나타냄.

3.3. Benchmark Tasks Definition

원 비디오와 역전 비디오는 동일한 하위집합에 포함되도록 보장함(data leakage 방지)
Train: 18,537, Val: 1,000, Test: 2,000
RTime-Origin: 일반적인 T2V, V2T로 R@K 평가지표 사용
RTime-Hard: 원본 비디오와, 역전 비디오를 모두 사용하여 T2V, V2T 수행, R@K 평가지표 사용
RTime-Binary: 원본 비디오와 역전 비디오 중, 주어진 쿼리에 적합한 것을 선택, Acc를 평가지표로 사용, 무작위 선택 시 정확도는 50%

4. Empirical Study on RTime

4.1. Model Architecture and Learning Strategy

독립적인 vision encoder, text encoder를 가진 모델에 대해 학습을 수행(CLIP4Clip, TS2Net, UMT)
이 중 UMT는 텍스트-비디오 사전학습 모델임
학습의 경우 VTC 로스와 VTM 로스 2가지를 사용

VTC 로스의 경우 일반적으로 쓰이는 infoNCE 로스를 적용

VTM 로스의 경우 크로스 엔트로피 로스를 적용
\(p^{vtm}\)은 매칭 확률, \(y^{vtm}\)은 레이블값
효율성을 위해 Align before fuse 논문의 negative mining 방식을 사용하여 negative sample을 샘플링함
또한 역방향 샘플을 hard negative로 취급하여, 같은 배치 안에 두도록 조정하여 학습 성능을 향상시킴, 이 경우 (UMT-neg)와 같이 표기하였음

4.2. Benchmarking SOTA Models on RTime

RTime-Origin에서 다른 벤치마크보다 비디오 설명이 세밀하고 길어 모호성이 적기 때문에, 전반적으로 높은 성능을 기록함, 이때 비디오 기반 모델은 이미지 모델과 낮은 성능 차이를 보임
RTime-Hard에서 모든 모델의 성능이 RTime-Origin에 비해 크게 감소, 정적인 시각 정보에 기반한 비디오 검색의 한계로 인해 시간적 순서 구별이 어려움.
UMT-Neg을 제외하면 파인튜닝 하여도 Binary에서는 성능 향상이 거의 없음.

4.3. Ablation on Temporal Understanding

Impact of leveraging harder negatives within same batch.

UMT와 UMT-Neg의 차이가 RTime에서는 거의 없으나, RTime-Hard와 Binary에서 큰 것을 통해 증명
단 가장 큰 모델 UMT가 아닌 작은 모델들에서의 결과가 궁금함

Impact of number of input frames.

입력 프레임 수의 증가가 시간적 이해에 도움을 주어 유의미한 성능 향상을 기록함

Impact of temporal positional embedding.

spatial-only positional embedding보다, temporal positional embedding을 추가로 사용하였을 때, 큰 성능 향상을 기록함

4.4. Additional Ablation Analysis

Impact of rewriting & reverse in data construction.

RW: Rewriting의 여부가 성능 향상에 큰 영향을 미침. 일종의 augmentation
RV: Reverse의 성능 향상이 두드러지지만, RW과 함께하여 negative sample이 많은 것이 중요함

Impact of test set scales on performance.

RTime-Hard에서의 성능이 낮은 이유가 test set의 scale 때문일 수 있기 때문에, 같은 scale로 맞췄을 때의 성능을 비교함
낮아지기는 하나, 큰 차이는 없으며, Origin과는 여전히 큰 차이를 기록함

Review

GPT4와 많은 인력을 사용해서 구성한 데이터셋 논문
문제점을 정말 잘 잡았고, 시각화로 직관적으로 잘 보여주었음
이 논문의 데이터셋을 베이스로 사용해서, time 측면 모델링에 집중한 모델 개발이 가능하지 않을지
단, 이 논문에서 사용한 학습 방식에 대한 코드가 제공되지 않으며, 정보가 부족하여, 직접 테스트를 해봐야하며, reimplementation은 어려울 것으로 보임

Paper Review, Multimodal Learning

This post is licensed under CC BY 4.0 by the author.