[Paper Review] Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval
[Paper Review] Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval
Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval
ACM MM 2024
Yang Du, Yuqi Liu, Qin Jin
Renmin University of China
[paper] [supplementary] [github]
1. Abstract & Introduction
기존 연구 문제점
- 기존 벤치마크가 시간적 이해를 충분히 평가하지 못함.
- 대규모 이미지-텍스트 모델(단일 프레임 기반 모델)이 비디오-텍스트 모델과 유사한 성능을 보임 -> 비디오-텍스트 학습 모델들이 시간적인 의미보다는 정적인 이미지에 편향됨. (그림2 참조)
- 또한 그림1과 같이 노트북을 여는 동영상과 노트북을 닫는 동영상의 차이를 구별하지 못함
- 기존 데이터셋(MSRVTT test set)에서 10%의 비디오-텍스트 쌍만이 시간적 의미를 포함함
제안 방법
- RTime이라는 시간적으로 어려운 부정 샘플을 포함하는 새로운 데이터셋을 구축, 21,000개의 비디오와 210,000개의 텍스트로 구성됨
- 세가지 벤치마크(RTime-Origin, RTime-Hard, RTime-Binary)를 설정하여 포괄적으로 평가
2. Related Works
2.1. Video-Text Benchmark Datasets
- 다양한 비디오-텍스트 검색 벤치마크 데이터셋이 존재하지만, 시간적 평가의 한계가 있음.
- MSR-VTT, VATEX, ActivityNet-Caption, DiDeMo 등의 데이터셋이 널리 사용되지만, 시간적 측면을 충분히 반영하지 않음.
2.2. Video-Text Retrieval Methods
- 기존 retrieval methods는 초기의 오프라인 특징 추출 방법, CLIP과 같은 사전 학습 모델을 활용한 방식, 대규모 비디오-텍스트 사전 학습 모델이 있고, 기존 벤치마크에서 우수한 성능을 보였지만, 시간적 이해 측면은 여전히 부족함
3. RTime: Novel Video-Text Benchmark
3.1. RTime Dataset Construction
- top-down 3step 데이터 구축 파이프라인을 제안함
- 사람과 LLM을 활용하여 action 목록을 구성함, 이 action들은 시간적으로 반대되는 action 또한 성립함
- action 목록을 토대로, 인터넷에서 동영상을 크롤링하고, annotation을 구성
3.1.1. Step 1: Seed Activity List Proposal.
- 기존 action recognition dataset으로 부터 레이블 추출
- 브레인스토밍을 통해 뚜렷한 시각적 강조를 가지고, 시간적 반대 의미를 포함하는 action 목록 구성
- GPT-4를 활용하여 몇가지 action 페어를 제공하고, 더 많은 샘플 생성
- 비논리적, 동영상으로 구별할 수 없는 쌍들은 인간이 검토하여 제거
- 최종적으로 144개의 쌍을 구성
3.1.2. Step 2: Activity List Enrichment.
- Step 1의 action 목록에 구체적인 객체는 GPT-4를 사용하여 생성하여 동사-명사 구문을 생성
- 평균적으로 action별 20개의 객체를 추가하여, 5760개의 동사-명사 목록을 구성
3.1.3. Step 3: Video Acquisition and Annotation.
Raw Video Acquisition.
- 7명의 작업자 모집하여, 앞서 구성한 페어를 쿼리로 비디오를 검색하고, 다음 조건으로 필터링 수행
- 시간적 정보에 의존하지 않고 식별할 수 있는 활동
- 검색된 동영상의 수가 50개 미만인 경우
- 검색된 비디오 중 50% 미만이 이 action과 일치하는 경우
- 결과적으로 800개의 action과 약21,000개의 비디오 수집
Video Reversion.
- 시간적 이해 능력 평가를 위해, 시각적으로 유사하지만, 시간적 의미가 정반대인 비디오를 포함시키는 것이 필요함 -> 약21,000개의 비디오의 역전한 버전을 같이 사용 -> 단순히 역전한 비디오가 의미가 있을까 싶지만, 추후 annotation 과정에서 한번더 검증을 수행함
Manual Annotation.
- IELTS 7점의 영어 능력을 가진 23명의 전문가가 원본 동영상과 Reversed 동영상에 annotation 생성
- 아래 5가지 조건을 재 검토하며 annotation 생성하여 최종 21,537개 데이터셋 구성
- 뚜렷한 시간적인 활동을 포함하고 있는지
- 상당한 차이가 있는 연속적인 활동을 포함하고 있는지
- 객체의 상태에 명백한 변화가 있는지
- 객체의 위치에서 관찰 가능한 변화가 있는지
- reversed 동영상에 비현실적인 시나리오가 있는지
Rewriting for Diversity.
- 다양성을 위하여, GPT-4에게 인간이 작성한 캡션을 제공하여, 9개의 추가적인 문장을 작성하도록 지시
- 불확실한 GPT의 캡션 품질로 인해, 학습 세트에만 추가하고, 테스트세트에는 기존 캡션만 사용
- 최종적으로 210,000개의 비디오-텍스트 쌍 구성
3.2. Dataset Statistics
- 총21,537개의 동영상, 각 동영상은 하나의 수동 annotation 캡션과 9개의 GPT-4 생성 캡션을 가짐
- 16,530개 동영상(76.8%)에 시간적으로 어려운 반대 샘플이 존재
- RTime의 비디오는 SSV2-Label 및 SSV2-Template보다 더 넓은 범위를 포괄하여 도메인 제한 문제 해결.
- 동사-명사 조합 및 동사 구문 분포 기반 워드 클라우드 제공, RTime에서 균형 잡힌 분포 보여줌.
- RTime의 텍스트 문장 길이가 다른 유사 데이터셋보다 길어, 더 세밀한 annotation을 나타냄.
3.3. Benchmark Tasks Definition
원 비디오와 역전 비디오는 동일한 하위집합에 포함되도록 보장함(data leakage 방지)
- Train: 18,537, Val: 1,000, Test: 2,000
- RTime-Origin: 일반적인 T2V, V2T로 R@K 평가지표 사용
- RTime-Hard: 원본 비디오와, 역전 비디오를 모두 사용하여 T2V, V2T 수행, R@K 평가지표 사용
- RTime-Binary: 원본 비디오와 역전 비디오 중, 주어진 쿼리에 적합한 것을 선택, Acc를 평가지표로 사용, 무작위 선택 시 정확도는 50%
4. Empirical Study on RTime
4.1. Model Architecture and Learning Strategy
- 독립적인 vision encoder, text encoder를 가진 모델에 대해 학습을 수행(CLIP4Clip, TS2Net, UMT)
- 이 중 UMT는 텍스트-비디오 사전학습 모델임
- 학습의 경우 VTC 로스와 VTM 로스 2가지를 사용
- VTC 로스의 경우 일반적으로 쓰이는 infoNCE 로스를 적용
- VTM 로스의 경우 크로스 엔트로피 로스를 적용
은 매칭 확률, 은 레이블값- 효율성을 위해 Align before fuse 논문의 negative mining 방식을 사용하여 negative sample을 샘플링함
- 또한 역방향 샘플을 hard negative로 취급하여, 같은 배치 안에 두도록 조정하여 학습 성능을 향상시킴, 이 경우 (UMT-neg)와 같이 표기하였음
4.2. Benchmarking SOTA Models on RTime
- RTime-Origin에서 다른 벤치마크보다 비디오 설명이 세밀하고 길어 모호성이 적기 때문에, 전반적으로 높은 성능을 기록함, 이때 비디오 기반 모델은 이미지 모델과 낮은 성능 차이를 보임
- RTime-Hard에서 모든 모델의 성능이 RTime-Origin에 비해 크게 감소, 정적인 시각 정보에 기반한 비디오 검색의 한계로 인해 시간적 순서 구별이 어려움.
- UMT-Neg을 제외하면 파인튜닝 하여도 Binary에서는 성능 향상이 거의 없음.
4.3. Ablation on Temporal Understanding
Impact of leveraging harder negatives within same batch.
- UMT와 UMT-Neg의 차이가 RTime에서는 거의 없으나, RTime-Hard와 Binary에서 큰 것을 통해 증명
- 단 가장 큰 모델 UMT가 아닌 작은 모델들에서의 결과가 궁금함
Impact of number of input frames.
- 입력 프레임 수의 증가가 시간적 이해에 도움을 주어 유의미한 성능 향상을 기록함
Impact of temporal positional embedding.
- spatial-only positional embedding보다, temporal positional embedding을 추가로 사용하였을 때, 큰 성능 향상을 기록함
4.4. Additional Ablation Analysis
Impact of rewriting & reverse in data construction.
- RW: Rewriting의 여부가 성능 향상에 큰 영향을 미침. 일종의 augmentation
- RV: Reverse의 성능 향상이 두드러지지만, RW과 함께하여 negative sample이 많은 것이 중요함
Impact of test set scales on performance.
- RTime-Hard에서의 성능이 낮은 이유가 test set의 scale 때문일 수 있기 때문에, 같은 scale로 맞췄을 때의 성능을 비교함
- 낮아지기는 하나, 큰 차이는 없으며, Origin과는 여전히 큰 차이를 기록함
Review
- GPT4와 많은 인력을 사용해서 구성한 데이터셋 논문
- 문제점을 정말 잘 잡았고, 시각화로 직관적으로 잘 보여주었음
- 이 논문의 데이터셋을 베이스로 사용해서, time 측면 모델링에 집중한 모델 개발이 가능하지 않을지
- 단, 이 논문에서 사용한 학습 방식에 대한 코드가 제공되지 않으며, 정보가 부족하여, 직접 테스트를 해봐야하며, reimplementation은 어려울 것으로 보임
This post is licensed under CC BY 4.0 by the author.