[논문 리뷰] Are Diffusion Models Vision-And-Language Reasoners?
[논문 리뷰] Are Diffusion Models Vision-And-Language Reasoners?
Are Diffusion Models Vision-And-Language Reasoners?
Neurips 2023
Benno Krojer, Elinor Poole-Dayan, Vikram Voleti, Christopher Pal, Siva Reddy
Mila University, McGill University, Polytechnique Montréal, Stability AI, ServiceNow Research, CIFAR AI
[paper] [github]
Abstract
Diffusion 기반 Text-conditioned 이미지 생성형 모델은 Discriminative한 Task에 적용하기 위해서 저자는 두 가지 혁신을 제안
- Stable Diffusion을 변형하여, 이미지-텍스트 매칭(ITM) 태스크를 위한 새로운 방법 DiffusionITM을 제안.
- 7개의 복잡한 비전-언어 작업, 편향 평가를 포함한 생성-판별 평가 벤치마크(GDBench)를 도입
제안 방식이 CLEVER와 Winoground와 같은 Compositionality 태스크에서 CLIP의 성능을 뛰어넘었으며, Stable Diffusion의 편항에 대해서 평가함
1. Introduction
- Text-Image 생성 기술이 빠르게 발전하고 있으며, 이들은 개방형 텍스트 포름프트의 Compositional 구조를 반영함
- Discriminative한 비전-언어 모델들은 판별에 필요한 최소한의 정보에만 집중하며, 이는 일반화되지 않는 임의의 상관관계일 수 있으며, 이를 평가하기 위해 Winoground, ARO와 같은 벤치마크가 제안됨
- 저자는 Compositinal 데이터를 합성하도록 학습된 생성 모델이, 이러한 복잡성을 해결할 수 있다고 가정하여 Stable Diffusion 기반 DiffusionITM 방식을 제안함
- Stable Diffusion(이하 SD)를 사용하여 입력된 이미지와 텍스트를 활용하여 가장 낮은 노이즈 예측 오류를 제공하는 텍스트 혹은 이미지를 선택하는 간단한 방식을 적용하였을 때, 이미지-텍스트에서는 우수한 성능을 보이나, 텍스트-이미지에서는 낮은 성능을 보임
- 이러한 현상을 분석하고, Hard negative로 fine-tuning하는 방식을 제안
- 7개의 복잡한 비전-언어 작업과, 사회적 편향 분석을 위한 편향 평가 데이터셋을 포함한 벤치마크 GDBench를 제안
- 실험결과 SD기반 DiffusionITM은 여러 태스크에서 CLIP과 경쟁력있는 결과를 보여주며, 어려운 Compositional 태스크에서는 CLIP을 초과함
- SD는 CLIP보다 편향이 낮으며, SD 2.1이 SD 1.5보다 편향이 적음을 관찰함
기존 연구 문제점:
- Discriminative vision-language 모델은 잘못된 상관관계에 의존하여 일반화 되지 않는 경우가 많음
- Diffusion을 단순 최소 노이즈 예측 방식으로 Retrieval에 사용할 때, ITR은 잘 작동하나, TIR은 시각적 속성에만 의존하여, 무작위 성능을 보임
- 생성 이미지 평가는 어렵고, 보조적인 모델의 사용이 필요함
제안 방법:
- DiffusionITM을 통해, diffusio모델을 zero-shot image-text 매칭에 맞게 변형
- MS-COCO에서 hard negative pair를 활용하여, fine-tuning방식 제안
- 다양한 이미지-텍스트 매칭과 bias 평가를 수행할 수 있는 GDBench 제안
2. Related Work
Evaluation of Image Generation
- 전통적으로 이미지 품질과, 이미지-텍스트 정렬을 기반으로 평가를 수행함
- 기존 매트릭에는 FID, CLIPScore, Object detector 기반, 캡션+BLEU기반이 있음
- 최근 VQA모델을 사용하여, 생성된 이미지에 대한 질문에 답하도록 설계된 TIFA가 제안됨
- GDBench는 개별 예제에 대한 평가지표가 아닌, 전체적은 평가 프레임워크로, 다른 큰 모델이 평가에 필요하지 않음
Bias in Image Generation Models
- 생성 모델에 대한 평가 기술의 부족으로 bias 평가는 discriminative 비전-언어 모델에 집중됨
- DALL-EVAL (ICCV2023): 백인과 남성에 연관된 집단에 편향되어 있음을 발견, SD 2.0이 1.4보다 편향되어 있음
-> 하지만 평가에 시간이 오래걸리고 수동적임
3. Our Approach to Image-Text Matching with Diffusion Models
3.1. Diffusion Image-Text Matching: Overcoming the modality asymmetry for image retrieval
Text-conditioned Diffusion
가정: Diffusion model에 입력된 이미지와 텍스트가 유사할 수록 특정 time-step t에서 원래 noise와 예측된 noise의 차이가 작을 것
-> 즉 식(1) Diffusion Loss의 값이 작을 것
- Image2Text Retrieval
- Text2Image Retrieval
- 문제점 분석
- 이미지 기준: “이미지1”과 가장 유사한 “캡션1”이 가장 낮은 noise 예측 error를 보임
- 텍스트 기준: “입력된 캡션”과 상관없이 “이미지2”의 error는 “이미지1”의 error보다 낮음
- Diffusion model의 노이즈 제거는 주로 시각과 텍스트에 고르게 의존하지 않고, 시각적 속성에 의존함
-> 텍스트 조건과 상관없이 시각적으로 쉬운 이미지에 대해 가장 낮은 노이즈 예측 오류(Diffusion loss)를 가지게 됨
- 개선한 Text2Image Retrieval
3.2. HardNeg-DiffusionITM: Tuning with compositional hard negatives and transfer
- MS-COCO를 사용하여, 하드 네거티브에 대해 loss를 계산하여 fine-tuning함
- U-Net cross-attention에 LORA 레이어를 추가하고, 이를 fine-tuning하는 방식을 사용
- 모델이 positive prompt의 noise 예측 목표에서 너무 벗어나지 않도록 \(L_{neg}\)를 \([-L_{pos}, {L_{pos}}]\)범위로 제한
- 이 Diffusion 기반 방식은 image과 text를 동시에 인코딩 하기 때문에 각각 인코딩 하는 방식인 CLIP과는 달리, 많은 negative sample을 batch에 포함할 수 없음
-> MS-COCO로 fine-tuning 후 zero-shot방식으로 평가
4. Data: The GDBench Benchmark
- 목적: GDBench는 Diffusion 기반 생성 모델의 비전-언어 추론 작업에 대한 downstream task 성능을 측정하기 위한 벤치마크로 NLP의 GLUE 벤치마크와 유사한 방식으로 모델의 성능을 평가
- 구성: GDBench는 8개의 다양한 이미지-텍스트 매칭(ITM) 작업으로 구성되어 있으며, 7개는 ability 중심, 1개는 bias 데이터셋
- 장점: 명확하며, 다양성을 제공, 비전-언어 데이터셋에 대한 해석 가능한 평가를 제공함, 또한 VQA와 같은 별도의 모델 없이 평가를 수행
- 포함된 데이터셋:
- Flickr30K: 다양한 장면의 이미지 및 텍스트 검색 데이터셋
- Winoground: 조합 가능성을 평가하는 진단 벤치마크
- ARO: 자동 생성된 데이터셋으로 하드 텍스트 네거티브 포함
- ImageCoDe: 유사한 이미지와 복잡한 캡션에 초점
- SVO: 주어, 목적어, 동사 분리에 따른 성능 평가
- CLEVR2: 3D 형태의 이미지를 기반으로 다양한 현상 평가
- Pets: 37종의 동물을 포함한 작은 이미지 분류 데이터셋
- 기존 데이터셋들을 가져와서 통합한 벤치마크 제안이라고 볼 수 있음
Measuring Bias
- 세 가지 사회적 편향: Religious, Nationality, sexual orientation을 조사, 특정 집단과 속성 간의 연관성을 측정하여 평가함
- \(\sigma\) 점수는 DiffusionITM의 점수 또는 CLIP의 경우 코사인 유사도
- 각 이미지에 대해 속성 A의 평균 점수에서 속성 B의 평균 점수를 뺌
- X집단에 대한 평균 점수와, Y집단에 대한 평균 점수를 각각 계산
- X와 Y의 모든 이미지에 대한 점수의 표준 편차를 계산
- 최종 양의 점수가 높을수록 X 집단에 긍정적인 속성(A)의 편향이 존재함을 뜻함
- 반대로 음의 점수가 높을수록 Y 집단에 긍정적인 속성(A)의 편향이 존재함을 뜻함
5. Experiments and Results
Hyperparameters
- 샘플링:
- 타임스텝 t는 [0, 1000] 범위에서 uniform 샘플링
- table1 메인실험에선 250개의 샘플을 사용, 다른 실험에서는 10개의 샘플만 사용
CLIP RN50x64와 OpenCLIP VIT-L/14와 공정한 비교를 수행
- MS-COCO fine-tuning: 배치사이즈 112, clipping 1.0, 8epoch 이후 체크포인트 선택
Runtime
- Flickr30K image2text retrieval task에서 pair 당 10개의 샘플을 사용하여 평가 시, A6000 1대로 68분 소요(OpenCLIP ViT-L/14는 4분 소요)
- Supplementary: CLIP RN50X64로 top-10선정 후 test를 수행
-> 그럼에도 많은 inference 시간이 필요함
DiffusionITM performance & HardNeg-DiffusionITM performance:
- I2T는 일반적으로 CLIP보다 성능이 우수
- T2I는 단순한 Flickr가 아닌 어려운 데이터셋에서도 CLIP보다 낮은 성능을 보임
- hard negative 유형에 따른 ablation study
- 250샘플링 -> 10샘플링으로 줄였을 때, 큰 성능 하락이 있음
- 단독으로 쓰일 때, hard neg는 random neg과 neg 없는것보다 성능이 떨어짐
- Text retrieva에서는 negative의 영향이 적음
Bias & Stable Diffusion 1.5 vs. 2.1 Performance:
- CLIP과 stable diffusio은 기독교, 미국인, heterosexual에 편향된 경향이 있음
- 그 중 stable diffusion 2.1이 가장 낮은 편향을 보임
- 2.1의 safety filter의 약화가 다양성에 영향을 미쳤을 수 있음
Review
- Diffusion model Discriminative Task인 ITR에 사용한 논문
- Diffusion model의 한번에 인코딩 하는 구조로 인해, Contrastive learning을 수행하기 어려움
-> 이에 따라 많은 계산 복잡도에 비해, 낮은 성능을 기록 - Flickr, COCO가 아닌 ARO, Winoground, Sugarcrepe와 같은 어려운 벤치마크에서도 성능은 준수하나 너무 큰 계산복잡도로 인해 Diffusion으로 CLIP을 대체하기는 어려울 것 같음
이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.