포스트

[논문 리뷰] Expertized Caption Auto-Enhancement for Video-Text Retrieval

[논문 리뷰] Expertized Caption Auto-Enhancement for Video-Text Retrieval

Expertized Caption Auto-Enhancement for Video-Text Retrieval
arxiv, 5 Feb 2025
Junxiang Chen, Wenbin Yao, Baoyao Yang
WeChat, Tencent, Guandong University of Technology
[paper]

1. Abstract & Introduction

fig1

기존 연구 문제점

  • 비디오에 대한 불충분한 텍스트 설명으로 정보 격차 발생
  • 이를 해결하기 위한 기존의 프레임 샘플링 및 데이터 증강 방법은 비디오와 텍스트 간의 관계를 포괄적으로 활용하는데 한계가 있음
  • Rewriting 방법의 경우, 어휘 엔지니어링과 수작업 프롬프트에 크게 의존함

제안 방법

  • ExCae: 프롬프트의 의존에서 벗아나 캡션 자동 강화 방법을 제안함
    • Caption Self-improvement (CSI): 자가 개선을 통한 비디오에서 풍부한 내용과 다양한 관점의 캡션을 도출
    • Expertized Caption Selection (ECS): 다수의 학습 가능한 expert를 통해, 적절한 표현을 선택
  • 샘플링과 empirical 편향을 극복

2. Related work

  • Video foundation model들은 downstream task에서 효과적이나, 너무나 큰 데이터와 리소스에 의존적임
  • 대다수의 모델은 CLIP과 같은 이미지-텍스트 모델을 비디오-텍스트 태스크에 확장을 수행
  • Cap4video는 LLM을 활용하여 캡션을 재작성하지만, 이러한 방식은 시각적 세부 정보를 담기는 부족하고, 어휘와 프롬프트에 의존적
  • 이러한 한계를 극복하기 위해, 자동 캡션 강화 연구를 제안

3. Method

3.1. Caption Self-improvement (CSI)

fig3

위 그림과 같은 프로세스를 수행, 자세한 내용은 슈도코드 참조

  1. 캡셔너로 다양한 관점에서 비디오를 설명하는 캡션을 생성
  2. 생성된 캡션의 의미를 평가, 점수화하여, 프롬프트 후보 풀을 업데이트
  3. 프롬프트 엔지니어를 도입하여, 현개 가장 좋은 프롬프트를 재작성 -> 캡셔너의 프롬프트 업데이트
  4. 더 이상 새로운 프롬프트 후보가 추가되지 않을 때 종료 algo1

Caption scoring

fo1 supple_fo1

  • \(p^t\): 캡셔너의 쿼리 프롬프트, t는 반복 인덱스
  • \(v\_i\): i번쨰 비디오
  • \(c^t\_i\): i번째 비디오에 대한 t번째 프롬프트의 생성 결과
  • \(K\): 캡션의 수
  • \(\psi\): semantic extractor
  • \(\text{div}\)의 경우, 다양성 제약으로, \(S\_i[p,q]\)는 p번째와 q번째 캡션 사이의 유사도를 뜻함. 즉 모든 캡션 쌍의 유사도를 합한 후, 나눠준것. 하지만 순서만 바뀐 쌍의 유사도는 동일하므로, 불필요한 연산이 포함된 수식으로 보임
  • 즉 최종적으로, 생성된 캡션들과 원본 텍스트와의 유사도와, 다양성 제약을 합친값이 현재 프롬프트의 점수가 됨
  • 이때 프롬프트 점수가, 프롬프트 풀의 점수를 초과하면, 프롬프트 후보 풀에 추가, best prompt 업데이트를 수행

prompt refinement

  • 기존의 프롬프트 엔지니어링 방식은, 주어진 프롬프트를 인코딩하고, 이를 gradient descent로 조정하는 방식으로, “언어적 의미와 해석 가능성”를 잃게 되며, “일반화 한계”가 존재함
  • LaCLIP논문의 방식에 영감을 받아, Prompt engineer 방식을 제안함
  • LaCLIP의 경우 LLaMa를 활용한 rewrite방식이지만, 저자의 방식은 GPT-4o에 기존 best 프롬프트와, 기존 video-text쌍을 같이 입력을 받아서, 프롬프트를 rewrite하는 방식으로 추정, 더 자세한 설명은 없음(아래 그림은 LaCLIP의 rewrite 방식)
  • 이렇게 rewrite한 프롬프트로 캡셔너의 프롬프트를 업데이트 laclip

supplementary - Prompts and examples of video-derived captions

supple_t1

  • 반복에 따른 프롬프트 변화 예시

3.2. Expertized Caption Selection (ECS)

  • \(e_v\): video embeddings & caption embeddings
  • \(f_m\): m번쨰 expert network
  • \(r_m\): m번째 expert network를 사용할지 결정하는 라우터 역할
  • 원래 복잡한 비디오의 정보에 추가 캡션들을 직접적으로 매칭에 활용하면 오히려 혼란을 야기할 수 있음
  • 따라서 여러 expert nework를 적용하고, 각각은 비디오의 내용을 특정 각도에서 설명하도록 학습
  • 각 expert 모델의 라우터는 쿼리 텍스트와의 관련성을 평가하여, 관련성이 낮을 경우, 해당 네트워크를 사용하지 않도록 함
  • 여러 expert 모델의 출력을 조합하여, 최종 비디오 표현을 구성함

4 Experiments

4.2. Implementation Details

preprocessing

  • 텍스트 전처리: 원본 텍스트와 비디오에서 파생된 캡션의 각 문장은 CLIP tokenizer를 사용하여 최대 70개의 단어 토큰으로 분할
  • 비디오 프레임 샘플링: 8개(일반적인 방식보다는 적음)

Model setup

  • ViT-B/16, L/14, H/14, G/14 사용..
  • 각 비디오에 대해 10개의 캡션을 생성
  • ECS모듈에는 16개의 expert 모델이 학습되며, 이 중 2개만이 활성화 됨
  • CSI 모듈은 최적의 프롬프트를 얻기 위해 “사전학습함”, ECS는 백본과 함꼐 학습
  • 캡셔너와 프롬프트 엔지니어는 GPT4o를 사용..
  • ExCae를 플러그인 모듈로 캡슐화하고, 기존 모델에 적용하는 방식의 테스트를 수행
  • MSR-VTT, VIT-G/14를 기본으로 ablation 실험 수행

Environment

  • 8개의 NVIDIA A800 사용
  • 배치 크기: 16
  • 백본: CLIP

4.3. Comparision to State-of-the-arts

t1 t2

  • MSRVTT의 경우 CLIP-based와 foundation model보다도 우수한 성능을 보임
  • DiDeMo의 경우 CLIP-based 모델 대비 우수한 성능을 보임
  • MSVD의 경우 동일 베이스라인 기준 저조한 성능을 보임

4.4. Plug-in Experiment

t3

  • 기존 모델에 plug-in 방식으로 도입했을 때, 큰 성능 향상이 존재함

4.5. ablation study

t4

  • CSI 제거: 캡셔너의 프롬프트를 최초의 프롬프트로 대체하여 사용
  • ECS 제거: 모든 비디오 측 데이터를 단순 인코딩
  • 독립적으로 사용하였을 때는 CSI의 효과가 좀 더 뚜렷이 드러남

4.6. Analytical Experiments

fig6 fig7

  • a) 비디오에서 파생된 캡션 수의 효과:
    • 1개: 기존 방법보다도 열악한 성능을 보임, cap4video의 결과와 비교했을 때, 저자가 제시한 분석은 부족한 것 같음
    • 3개로 늘렸을 때, 큰 성능 향상이 있으며, 7개 이후 안정적으로 유지됨
  • b) 활성화된 Expert의 효과:
    • 0에서 2로 증가할 때, 점진적으로 개선
    • 더 늘릴 경우 성능이 하락함, 더 많은 expert가 활성화되더라도, 일부만이 실제로 기여를 함

5. Discussion

5.1. Superiority

fig8

  1. 그림8과 같이 모달리티 갭을 효과적으로 줄임
  2. 데이터 기반 방법으로, 초기화 외에 프롬프트 설계나 용어 집합 구축과 같은 사람의 작업이 필요없음 -> emperical한 편향을 피할 수 있음
  3. 다각적인 캡션으로 일반화성
  4. ECS 모듈로, 적응적으로 선택함으로써, personalized ability가 있음

5.2. Convergence

  • CSI 모듈은 400회 반복 후에 수렴하는 경향이 있으며, 전체 프레임워크의 경우, 기존 CLIP-based 방식과 동일한 수렴 특성을 가짐

5.3. Storage and Efficiency

  • 저장 공간: 사전 학습 방식과 비교하면 효율적이며, 캡션을 기록하는데 적은 공간이 필요하다고 주장. 하지만 추론 때만 가정하더라도 ECS 모듈의 여러 expert를 올리는 추가 메모리는 고려하지 않은 것 같음
  • 계산 비용: 저자는 CLIP기반 방법과 비교할 떄, CSI 모듈의 학습에서만 추가적인 계산이 발생하며, 일회성 학습과정이며, 다양한 데이터셋에서 일반화 능력을 갖추고 있고, comparable하다고 주장. 맞는말이나, GPT4o를 사용하는 비용이 추가되는 것인데 이걸 기존 방식들과 comparable하다고 과연 볼 수 있을지..

Review

  • 프롬프트에 대한 의존성을 없애는 방향의 연구로, 기존 연구의 단점을 해결하는 의미있는 연구이며 우수한 성능을 보임.
  • 하지만 반대로, LLM에 의존적일 수 있다고 생각함. 일반화에 대한 검증이 부족
  • LLM을 사용하기에 뒷따르는 비용측면에 대해서, 분석이 부족하다고 생각됨. 각 모듈의 상세 구조와 메모리 사용량, 학습 시간 등 좀 더 상세한 분석이 필요할 것으로 보임
이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.