Multimodal Learning 14

[논문 리뷰] Geodesic Multi-Modal Mixup for Robust Fine-Tuning 2025/04/30
[논문 리뷰] What to Align in Multimodal Contrastive Learning 2025/04/01
[논문 리뷰] Train Once, Deploy Anywhere: Matryoshka Representation Learning for Multimodal Recommendation 2025/04/01
[논문 리뷰] DrVideo: Document Retrieval Based Long Video Understanding 2025/03/24
[논문 리뷰] Discovering Clone Negatives via Adaptive Contrastive Learning for Image-Text Matching 2025/03/14
[논문 리뷰] Weighted Point Cloud Embedding for Multi-modal Contrastive Learning Toward Optimal Similarity Metric 2025/03/03
[논문 리뷰] Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models 2025/02/25
[논문 리뷰] TULIP: Token-length Upgraded CLIP 2025/02/17
[논문 리뷰] Expertized Caption Auto-Enhancement for Video-Text Retrieval 2025/02/09
[논문 리뷰] Unified Lexical Representation for Interpretable Visual-Language Alignment 2025/02/04
[논문 리뷰] CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning 2025/01/20
[논문 리뷰] Are Diffusion Models Vision-And-Language Reasoners? 2025/01/13
[논문 리뷰] Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval 2024/10/14
[논문 리뷰] ATM: Action Temporality Modeling for Video Question Answering 2024/06/07