arXiv논문2026. 04. 29. 12:36

단편 영상 추천을 위한 행동 인식 생성 시퀀스 모델링

요약

본 논문은 단편 영상 콘텐츠의 복잡한 사용자 선호도를 포착하기 위해 행동 인식 생성 시퀀스 모델링 패러다임을 제안합니다. 사용자의 소비가 시간적 과정이라는 점에 착안하여, Action-Aware Generative Sequence Network (A2Gen)을 개발했습니다. 이 모델은 Context-aware Attention Module (CAM), Hierarchical Sequence Encoder (HSE), 그리고 Action-seq Autoregressive Generator (AAG)를 통합하여 사용자 행동 시퀀스를 정교하게 학습하고 예측합니다. 실제 대규모 온라인 A/B 테스트에서 시청 시간, 상호작용률 등 주요 지표에서 유의미한 성능 개선을 입증하며 실질적인 서비스 가치를 제시했습니다.

핵심 포인트

단순 이진 분류 모델의 한계를 극복하고, 사용자 행동의 시간적 흐름(시퀀스)을 고려하는 새로운 추천 패러다임을 도입함.
제안된 A2Gen 모델은 CAM, HSE, AAG 등 세 가지 핵심 모듈로 구성되어 행동 시퀀스를 다층적으로 학습하고 생성합니다.
Kuaishou 및 Tmall 데이터셋 기반의 오프라인 실험과 실제 대규모 온라인 A/B 테스트를 통해 높은 성능을 검증했습니다.
실제 서비스 배포 결과, 사용자 시청 시간 0.34%, 상호작용률 8.1% 등 핵심 지표에서 유의미한 개선 효과를 달성했습니다.

인터넷의 급속한 발전으로 인해 온라인 콘텐츠 소비 플랫폼에 대한 사용자들의 추천 정확도에 대한 기대치는 더욱 높아지고 있습니다. 그러나 단편 영상은 종종 다양한 구절 (segments) 을 포함하고 있으며, 사용자는 모든 구절에 대해 동일한 태도를 유지하지 않을 수 있습니다. 영상을 단일 통합된 개체로 취급하는 전통적인 이진 분류 기반 추천 모델은 이러한 미묘한 선호도를 정확하게 포착하는 데 한계를 겪습니다. 사용자 소비가 시간적 과정임을 고려할 때, 본 논문에서는 통계 분석과 행동 패턴 검증을 통해 사용자의 행동 시점이 다양한 의도를 나타낼 수 있음을 보여줍니다. 이 통찰력을 바탕으로, 우리는 시간 차원을 따라 사용자의 행동을 정제하고 이를 시퀀스로 연결하여 통합 처리 및 예측을 수행하는 새로운 모델링 패러다임인 Action-Aware Generative Sequence Network (A2Gen) 을 제안합니다. 먼저, 아이템별 컨텍스트 특징으로 풍부한 행동 시퀀스를 모델링하기 위해 Context-aware Attention Module (CAM) 을 도입합니다. 이를 바탕으로 사용자의 과거 행동으로부터 시간적 행동 패턴을 학습하는 Hierarchical Sequence Encoder (HSE) 를 개발합니다. 마지막으로 CAM 을 활용하여 행동 시퀀스 생성을 위한 모듈인 Action-seq Autoregressive Generator (AAG) 를 설계합니다. Kuaishou 데이터셋과 Tmall 공개 데이터셋에 대한 광범위한 오프라인 실험 결과, 제안된 모델의 우수성이 입증되었습니다. 또한 Kuaishou 플랫폼에 배포된 대규모 온라인 A/B 테스트를 통해, 본 모델은 시퀀스 정보를 활용하여 멀티태스크 예측에서 베이스라인 방법에 비해 유의미한 개선을 달성했습니다. 구체적으로 사용자 시청 시간 (user watch time) 은 0.34%, 상호작용률 (interaction rate) 은 8.1%, 전체 사용자 유지율 (LifeTime-7) 은 0.162% 증가하는 성과를 거두었으며, 이는 매일 4 억 명 이상의 사용자를 서비스하는 모든 트래픽에 성공적으로 배포되는 결과를 가져왔습니다.

AI 자동 생성 콘텐츠

원문 바로가기

단편 영상 추천을 위한 행동 인식 생성 시퀀스 모델링

요약

핵심 포인트

댓글