[논문 리뷰] Train Once, Deploy Anywhere: Matryoshka Representation Learning for Multimodal Recommendation
[논문 리뷰] Train Once, Deploy Anywhere: Matryoshka Representation Learning for Multimodal Recommendation
Train Once, Deploy Anywhere: Matryoshka Representation Learning for Multimodal Recommendation
EMNLP findinds 2024
Yueqi Wang, Zhenrui Yue, Huimin Zeng, Dong Wang, Julian McAuley
University of California, Berkeley and University of Illinois Urbana-Champaign and University of California, San Diego
[paper], [github]
1. Abstract & Introduction
기존 연구 문제점
- 대규모 데이터에서 다중 모달 지식을 추천 시스템에 통합하는데, 메모리 요구 사항이 크고 복잡한 모델 설정이 필요
- 다양한 추천 시나리오에서 성능과 효율성을 위한 item representation의 세분화가 필요함
- 최적의 세분화를 찾기 위해 Grid search, adaptive search heuristic이 사용되지만, 비효율적이며 높은 학습 비용이 초래됨
제안 방법
- full-scale Matryoshka representation learning for multimodal recommendation (fMRLRec)를 제안
- 한번의 학습으로 다양한 크기의 모델을 생성할 수 있도록 설계
- 작은 벡터표현을 큰 표현에 포함시키는 방식으로 메모리 비용 감소, 효율적인 선형 변환을 통해 작은 가중치와 활성화함수 또한 큰 것에 포함
- 기존의 state-space modeling가 융합하여 효율성과 성능을 모두 달성
2. Related Works
2.1 Multimodal Recommendations
- 최근 언어, 멀티모달 모델이 추천 시스템에 적용되어, 사용자 선호와 항목 특성을 이해하는데 사용됨
- 현재 방식은 사전학습된 모델을 활용하여, 항목 표현을 개선하거나, 검색된 항목의 순위를 재조정함
- 현재 모델은 유연한 항목 속성이나 모달리티에 맞춰져 있지 않으며, 확장 가능한 모델 크기와 효율적인 추론을 위해 최적화되어있지 않음
3. Methodologies
3.1. Problem Statement
- multimodal sequential recommendation에 초점을 둔 연구
유저 집합 $$U = \lbrace u_1, u_2, …, u_{ U }\rbrace\(, 아이템 집합\) V = \lbrace v_1, v_2, …, v_{ V } \rbrace$$이 주어질 때 - 유저가 아이템과 상호작용한 시퀀스는 시간 순서대로 \(S_u = [v^{(u)}\_1, v^{(u)}\_2, ..., v^{(u)}\_{n}]\)로 나타나며, n은 시퀀스 길이
- 이 task의 목적은 시퀀스 \(S_u\)가 주어질 때, 다음 상호작용 아이템 \(v^{(u)}\_{n+1}\) 의 확률을 최대화 하는 것
3.2. Full-Scale Matryoshka Representation Learning for Recommendation
- 이유는 모르겠지만 상당히 어렵게 작성을 해놓았다. 결국 핵심 내용은 한줄로 요약된다
- 입력 데이터 \(X\)와 전체 가중치 \(W\)가 있고, 출력값이 \(XW\)라면, 슬라이스된(작은) 데이터 \(X^J\)는 마찬가지로 슬라이스된 가중치 \(W^J\)와 곱해서 출력값을 계산하는 형태가 되며, 작은 모델이 큰 모델에 포함된 형태이다. 또한 각 모델들이 같이 학습이 되어, 추론 떄 독립적으로 사용이 가능하다.
- 마스킹은 별것 없이, Weight에서 필요없는 부분에 패딩을 채워놓은것이 전부
- 기존 마트료시카와 큰 차이는 없다.
3.3. Framework
- 항목의 title, price, brand, category를 합쳐서 텍스트로, 항목 이미지를 이미지 속성으로 사용
각각 인코딩 후, concat, projection을 수행
- 이후 메인 아키텍처로는 LRU를 사용하는데, 저자는 우수한 성능 그리고 RNN과 self-attention에 비해 낮은 학습/추론 코스트로 인해 LRU를 사용하였다고 한다.
- LRU는 ICML 2023에 구글 딥마인드에서 낸 논문으로 자세한 내용은 생략 [LRU]
- 마지막 레이어 z와 상품 임베딩과의 유사도를 계산
- 이를 원 마트료시카 로스와 같은 방식으로 각 차원별로 로스 계산, 합을 수행함
4. fMRLRec Memory Efficiency
- 제안 방식과 독립적으로 모델들을 학습한 방식과의 메모리 효율 비교를 수행
- 독립 방식의 경우 각 차원별 모델 크기의 파라미터와 활성화함수를 계산하고 이를 합산함. 이렇게 비교하는 것이 맞나..
5. Experimental Setup
5.1. Datasets
- Amazon.com에서 흔히 사용되는 네 가지 Sparsity한 벤치마크 데이터셋을 사용
- beauty
- Clothing, Shoes & Jewelty
- Sports & Outdoors
- Toys & Games
- 전처리 과정
- 입력 시퀀스는 시간 순서에 따라 구성, 다섯번 미만으로 등장한 사용자와 아이템 제외
- 텍스트 특성: 제목, 가격, 브랜드, 카테고리
- 시각적 특성: 아이템의 사진
- 메타데이터 없는 아이템은 제외
- Implementation details
- 임베딩 크기: [64, 128, 256, 512, 1024, 2048]
- fMRLRec-LRU 레이어 수: [1, 2, 4, 8]
- Metrics
- NDCG@K
- 추천된 항목의 순위에서 각 항목의 관련성을 부여, 일반적으로 0에서 1까지의 값
- Discounted Cumulative Gain (DCG) 계산 \(DCG_k = \sum_{i=1}^{k} \frac{rel_i}{\log_2(i + 1)}\)
- DCG를 실제 Ideal DCG로 나눠서 계산, \(NDCG_K = \frac{DCG_K}{IDCG_K}\)
- Recall@K
- \[\frac{TP}{AP}\]
- TP: 추천 목록에 포함된 사용자가 선호하는 항목의 수
- AP: 사용자가 선호하는 전체 항목의 수
- NDCG@K
6. Experimental Results
6.1. Main Performance Analysis
- Sports R@10을 제외하면 최고의 성능을 달성
- Recall보다 더 어려운 평가지표 NDCG에서 더 큰 성능 향상을 보여줌
- Clothing, SPorts와 같은 sparse한 데이터셋에서의 이점을 보여줌
6.2. fMRLRec Model-Series Performance
- Matryoshka 논문에서 제시한 독립적으로 학습된 모델과의 차이를 보이는게 아닌, 이 논문에선 단순히 학습한 모델에서 모델 크기별 성능 추이만을 보임
- 분석이 부족한 것 같다.
6.4. Ablation Study
- language -> image 순으로 기여가 큼
- 둘 다 제외한, 즉 임의로 초기화한 거의 실험은 어떻게 한거지..?
8. Limitations
- Click rate prediction, Multi-baskte recommendation과 같은 다른 recommendation task에 대해서는 실험하지 않았음
- 더 넓게는 제안 fMRL 방식이 다른 머신러닝 분야에도 적용 가능성이 있음, 이러한 모델과 데이터의 규모가 크게 변동하는 분야에서 fMRL의 성능을 탐구하지 않았음
- 향후 연구로 위 이론적 분석과 실험을 수행할 계획임
Review
- Recommendation system의 경우 예전에 오셨던 교수님의 설명을 들었을 때, Retrieval과 유사한 부분이 있다고 생각하였었는데, 분야 자체는 비슷하다고 할 수 있으나, 연구 되고 있는 방향에는 차이가 큰 것 같음
- Recommendation system은 확실히 좀 더 application 측면의 성격이 강한 것으로 보임
- 이 분야에서 임베딩 압축에 따른 효율성에 대해 첫 시도한 논문이라는 점에서 의의가 있으며, 기존 MRL과 달리 weight단에서도 축소된다는 차이가 있음, 하지만 실험 분석에는 아쉬움이 남음
이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.