일반화 가능한 추천을 위한 인과 표현 학습 (Causal Representation Learning)
요약
추천 시스템의 분포 변화 문제를 해결하기 위해 인과 표현 학습(CRL)을 적용한 새로운 방법론을 제안합니다. 정보 이론적 얽힘 해제 기준을 통해 인과적 구성 요소에 집중함으로써, 추가적인 추론 비용 없이도 분포 외 일반화 성능을 높였습니다.
핵심 포인트
- 인과 표현 학습(CRL)을 통한 추천 시스템의 분포 변화 문제 해결
- 정보 이론적 얽힘 해제 기준 및 변분 하한 도출
- 추론 시간 비용 추가 없이 기존 지도 학습 모델에 적용 가능
- Spotify A/B 테스트를 통해 온라인 사용자 참여도 향상 입증
관측 데이터 (observational data)로 학습된 예측 모델은 배포 시 마주하게 되는 분포로 일반화하는 데 종종 실패하며, 특히 학습 데이터가 최적화 대상인 시스템의 산물일 때 더욱 그러합니다. 추천 시스템 (Recommender systems)은 그 전형적인 사례입니다. 추천 시스템은 배포된 정책 (policy), 과거 사용자 행동, 그리고 플랫폼 필터링에 의해 교란된 (confounded) 상호작용 로그를 바탕으로 학습됩니다. 그 결과, 학습 분포는 서빙 시점에 점수가 매겨지는 후보 분포와 실질적으로 달라지며, 이러한 격차는 오프라인 지표를 온라인 성능의 신뢰할 수 없는 예측 인자로 만듭니다. 우리는 인과 표현 학습 (Causal Representation Learning, CRL)에서 영감을 얻은 방법론을 통해 이러한 분포 변화 (distribution shift) 문제를 해결합니다. 우리는 정보 이론적 얽힘 해제 기준 (information-theoretic disentanglement criterion)을 제안하며, 이 기준의 최적값이 입력의 인과적 구성 요소 (causal components)에만 의존함을 증명합니다. 그런 다음, 유한한 관측 데이터만으로도 해당 기준을 최적화할 수 있게 하는 다루기 쉬운 변분 하한 (variational lower bound)을 도출합니다. 우리 방법론의 범위는 기존의 많은 CRL 문헌보다 좁은데, 이는 모든 잠재적 인과 요인 (latent causal factors)을 완전히 식별하는 것이 아니라 분포 변화 하에서의 더 나은 일반화를 목표로 하기 때문입니다. 이러한 좁은 목표 설정 덕분에 본 방법론은 실용성을 갖추게 되었습니다. 즉, 기존의 교란된 로그만을 필요로 하고, 모든 표준 지도 학습 모델 (supervised model)에 적용 가능하며, 추론 시간 (inference-time) 비용을 추가하지 않습니다. 우리의 주요 평가는 Spotify의 수백만 명의 사용자를 대상으로 개인화된 플레이리스트 생성을 위한 프로덕션 랭커 (production ranker)에 적용된 A/B 테스트입니다. 용량이 맞춰진 (capacity-matched) CRL 변형 모델은 오프라인에서는 대등한 성능을 보였으나, 온라인에서는 청취자 참여도 (listener engagement) 측면에서 상당한 이득을 가져왔습니다. 공개된 KuaiRand 추천 데이터셋과 인과 구조가 알려진 합성 벤치마크 (synthetic benchmark)를 통한 보완적 증거 역시 동일한 패턴을 보여줍니다: 베이스라인과 오프라인에서는 대등하며, 분포 변화 하에서는 이득을 얻습니다. 세 가지 설정 모두에서, 우리의 인과적 얽힘 해제 목적 함수 (causal disentanglement objective)를 추가하는 것은 의미 있게 더 나은 분포 외 일반화 (out-of-distribution generalisation) 성능을 산출합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기