arXiv논문2026. 06. 03. 11:31

Taiji: 산업용 LLM 강화 추천 시스템을 위한 의미론적 ID 간의 트레이드오프를 고려한 파레토 최적 정책 최적화

요약

Taiji는 산업용 추천 시스템을 위해 설계된 새로운 LLM-as-Enhancer 프레임워크입니다. SFT 과정의 CoT 품질 문제와 RL 정렬 시 발생하는 의미론적 보상과 추천 선호도 보상 간의 트레이드오프를 해결하는 데 집중합니다.

핵심 포인트

역공학적 추론과 거부 샘플링을 통한 고품질 CoT 데이터 생성
파레토 최적 정책 최적화(POPO)를 통한 보상 간 트레이드오프 해결
LLM의 세계 지식과 협업 ID 특징 간의 최적 정렬 달성
Kuaishou 광고 플랫폼 배포를 통해 대규모 확장성 및 상업적 효과 검증

대규모 언어 모델 (LLMs)을 통한 추천 시스템의 스케일링 (Scaling)은 업계의 두드난 트렌드가 되었습니다. 그러나 사후 학습 (Post-training, 예: SFT 및 RL)을 통해 LLM의 의미론적 공간 (Semantic space)을 추천 시스템의 ID 공간 (ID space)과 정렬하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 LLM4Rec 패러다임은 두 가지 주요 문제로 인해 병목 현상을 겪고 있습니다: (1) SFT 과정 중 오픈 도메인 추천에서 사고의 사슬 (Chain-of-thought, CoT) 품질을 측정하고 개선하는 것의 어려움, (2) RL 정렬 (Alignment) 과정 중 LLM의 의미론적 보상 (Semantic rewards)과 추천 선호도 보상 (Recommendation preference rewards) 사이의 트레이드오프 (Trade-off)를 간과한다는 점입니다. 이러한 과제에서 영감을 받아, 우리는 산업용 추천 시스템을 위해 설계된 새로운 LLM-as-Enhancer 프레임워크인 Taiji를 제안합니다. SFT 병목 현상을 극복하기 위해, 우리는 역공학적 추론 (Reverse-engineered reasoning)과 개방형 거부 샘플링 (Open-ended rejection sampling)을 활용하여 고품질의 도메인 특화 CoT 데이터를 생성합니다. RL 정렬 문제를 해결하기 위해, 우리는 교차 도메인 보상 가중치를 적응적으로 조정하는 파레토 최적 정책 최적화 (Pareto Optimal Policy Optimization, POPO)를 제안합니다. 이론적으로, 이는 LLM의 의미론적 세계 지식 (Semantic world knowledge)과 온라인 사용자 선호도를 나타내는 협업 ID 특징 (Collaborative ID features) 사이의 최적의 트레이드오프를 달성합니다. 광범위한 오프라인 평가와 온라인 A/B 테스트를 통해 Taiji의 효과를 검증했습니다. 2026년 5월부터 Kuaishou의 광고 플랫폼에 배포된 Taiji는 현재 매일 4억 명 이상의 사용자에게 서비스를 제공하며, 상당한 상업적 수익을 창출하고 웹 규모 환경에서의 강력한 확장성을 입증하고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Taiji: 산업용 LLM 강화 추천 시스템을 위한 의미론적 ID 간의 트레이드오프를 고려한 파레토 최적 정책 최적화

요약

핵심 포인트

댓글