arXiv논문2026. 06. 24. 10:07

ScaleToT: 십억 단위 저활동 사용자 모델링을 위한 구조화된 LLM 추론의 일반화

요약

ScaleToT는 상호작용 데이터가 부족한 수십억 명의 저활동 사용자를 위해 구조화된 LLM 추론을 확장하는 프레임워크입니다. Tree-of-Thought(ToT)와 OSIPO 기법을 통해 학습된 추론 능력을 경량 인코더로 전이하여, 비용 효율적으로 사용자 상태를 예측합니다.

핵심 포인트

저활동 사용자의 희소한 프로필 문제를 해결하기 위한 ScaleToT 제안
ToT 정제 절차와 OSIPO를 통한 구조화된 추론 학습
경량 프로필 인코더로 추론 신호를 전이하여 LLM 비용 절감
광고 LTV 예측 A/B 테스트에서 LT30 6.738% 향상 달성

정확한 사용자 모델링(user modeling)은 종종 풍부한 상호작용 이력에 의존하지만, 이는 수십억 명의 저활동 사용자(low-activity users)에게는 제공되지 않습니다. 대규모 언어 모델(LLMs)은 정적 프로필로부터 잠재적 사용자 상태를 추론할 수 있지만, 프로필이 희소(sparse)할 경우 이러한 추론은 신뢰할 수 없게 되며, 수십억 명의 사용자에게 LLM을 적용하는 것은 비용이 지나치게 많이 듭니다. 우리는 소수의 LLM 처리된 하위 집합으로부터 구조화된 추론(structured reasoning)을 학습하고, 이를 더 넓은 저활동 사용자 인구로 확장하는 ScaleToT를 제안합니다. 추론의 신뢰성을 높이기 위해, ScaleToT는 유계 엔트로피 가이드 Tree-of-Thought (ToT) 정제 절차를 통해 유형화된 사용자 상태 체인(typed user-state chains)을 구축합니다. 희소한 프로필에서도 이 구조화된 추론을 사용할 수 있도록, 교사(teacher)가 큐레이션한 체인은 지도 미세 조정(supervised fine-tuning, SFT) 및 결과 중심 세그먼트 인식 암시적 보상 정책 최적화(Outcome-Driven Segment-Aware Implicit Reward Policy Optimization, OSIPO)를 통해 정적 프로필 상의 학생 모델(student model)을 학습시키는 데 사용됩니다. 그런 다음 ScaleToT는 학생의 추론 표현(reasoning representations)을 경량 프로필 인코더(profile encoder)로 전이하여, LLM 추론 없이도 나머지 사용자들에게 공유된 추론 신호를 제공합니다. 우리는 십억 단위 광고 배포 환경에서의 생애 가치(lifetime value, LTV) 예측을 통해 ScaleToT를 평가합니다. 무작위 온라인 A/B 테스트 결과 LT30이 6.738% 증가했으며, 오프라인 추론은 잠재적 인구의 7.32%만을 커버하면서도 전체 인구 추론과 비교하여 컴퓨팅 비용을 크게 절감했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ScaleToT: 십억 단위 저활동 사용자 모델링을 위한 구조화된 LLM 추론의 일반화

요약

핵심 포인트

댓글