본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 12:36

단편 영상 추천을 위한 행동 인식 생성 시퀀스 모델링

요약

본 논문은 단편 영상 콘텐츠의 복잡한 사용자 선호도를 포착하기 위해 행동 인식 생성 시퀀스 모델링 패러다임을 제안합니다. 사용자의 소비가 시간적 과정이라는 점에 착안하여, Action-Aware Generative Sequence Network (A2Gen)을 개발했습니다. 이 모델은 Context-aware Attention Module (CAM), Hierarchical Sequence Encoder (HSE), 그리고 Action-seq Autoregressive Generator (AAG)를 통합하여 사용자 행동 시퀀스를 정교하게 학습하고 예측합니다. 실제 대규모 온라인 A/B 테스트에서 시청 시간, 상호작용률 등 주요 지표에서 유의미한 성능 개선을 입증하며 실질적인 서비스 가치를 제시했습니다.

핵심 포인트

  • 단순 이진 분류 모델의 한계를 극복하고, 사용자 행동의 시간적 흐름(시퀀스)을 고려하는 새로운 추천 패러다임을 도입함.
  • 제안된 A2Gen 모델은 CAM, HSE, AAG 등 세 가지 핵심 모듈로 구성되어 행동 시퀀스를 다층적으로 학습하고 생성합니다.
  • Kuaishou 및 Tmall 데이터셋 기반의 오프라인 실험과 실제 대규모 온라인 A/B 테스트를 통해 높은 성능을 검증했습니다.
  • 실제 서비스 배포 결과, 사용자 시청 시간 0.34%, 상호작용률 8.1% 등 핵심 지표에서 유의미한 개선 효과를 달성했습니다.

인터넷의 급속한 발전으로 인해 온라인 콘텐츠 소비 플랫폼에 대한 사용자들의 추천 정확도에 대한 기대치는 더욱 높아지고 있습니다. 그러나 단편 영상은 종종 다양한 구절 (segments) 을 포함하고 있으며, 사용자는 모든 구절에 대해 동일한 태도를 유지하지 않을 수 있습니다. 영상을 단일 통합된 개체로 취급하는 전통적인 이진 분류 기반 추천 모델은 이러한 미묘한 선호도를 정확하게 포착하는 데 한계를 겪습니다. 사용자 소비가 시간적 과정임을 고려할 때, 본 논문에서는 통계 분석과 행동 패턴 검증을 통해 사용자의 행동 시점이 다양한 의도를 나타낼 수 있음을 보여줍니다. 이 통찰력을 바탕으로, 우리는 시간 차원을 따라 사용자의 행동을 정제하고 이를 시퀀스로 연결하여 통합 처리 및 예측을 수행하는 새로운 모델링 패러다임인 Action-Aware Generative Sequence Network (A2Gen) 을 제안합니다. 먼저, 아이템별 컨텍스트 특징으로 풍부한 행동 시퀀스를 모델링하기 위해 Context-aware Attention Module (CAM) 을 도입합니다. 이를 바탕으로 사용자의 과거 행동으로부터 시간적 행동 패턴을 학습하는 Hierarchical Sequence Encoder (HSE) 를 개발합니다. 마지막으로 CAM 을 활용하여 행동 시퀀스 생성을 위한 모듈인 Action-seq Autoregressive Generator (AAG) 를 설계합니다. Kuaishou 데이터셋과 Tmall 공개 데이터셋에 대한 광범위한 오프라인 실험 결과, 제안된 모델의 우수성이 입증되었습니다. 또한 Kuaishou 플랫폼에 배포된 대규모 온라인 A/B 테스트를 통해, 본 모델은 시퀀스 정보를 활용하여 멀티태스크 예측에서 베이스라인 방법에 비해 유의미한 개선을 달성했습니다. 구체적으로 사용자 시청 시간 (user watch time) 은 0.34%, 상호작용률 (interaction rate) 은 8.1%, 전체 사용자 유지율 (LifeTime-7) 은 0.162% 증가하는 성과를 거두었으며, 이는 매일 4 억 명 이상의 사용자를 서비스하는 모든 트래픽에 성공적으로 배포되는 결과를 가져왔습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0