하나의 모델, 다중 목표: 이커머스 대화 시스템을 위한 적응형 다중 목표 학습 (Adaptive Multi-Objective Learning)
요약
이커머스 대화 시스템에서 추론 정확도와 언어적 자연스러움을 동시에 최적화하는 MORE 프레임워크를 제안합니다. 제약 조건 기반의 정책 최적화를 통해 추가적인 추론 오버헤드 없이 두 목표를 균형 있게 달성합니다.
핵심 포인트
- 추론 정확도와 언어적 자연스러움을 동시에 최적화하는 MORE 프레임워크 제안
- 보상 혼합 대신 추론 함수를 정책 최적화의 제약 조건으로 활용
- 추가적인 추론 오버헤드 없이 강화된 추론 효과 제공
- ByteDance 실제 서비스 적용 결과 전환율 및 사용자 만족도 대폭 개선
이커머스 (e-commerce) 시나리오의 대화 시스템은 종종 여러 목표를 동시에 충족해야 합니다. 즉, 올바른 의사결정과 사용자 상태 해석을 보장하기 위해 사용자 프로필(예: 자격 요건, 신용 한도)을 정확하게 추론하는 동시에, 자연스럽고 충실한 응답을 생성해야 합니다. 이러한 목표들은 상호 보완적이지만 동일하지는 않습니다. 본 연구에서는 추론 정확도 (reasoning accuracy)와 언어적 자연스러움 (linguistic naturalness)을 공동으로 최적화하는 적응형 다중 목표 강화학습 (Multi-Objective REinforcement learning, MORE) 프레임워크를 제안합니다. 우리의 예비 실험에 따르면, 서로 다른 최적화 역학 (optimization dynamics)을 가진 보상들을 직접 혼합하는 것은 진동과 불안정한 학습을 유발할 수 있습니다. 따라서 우리는 단일 혼합 보상을 최적화하는 대신, 추론 함수를 정책 최적화 (policy optimization)를 가이드하는 제약 조건 (constraints)으로 취급합니다. 추론 (inference) 시점에 시스템은 명시적인 추론 단계 없이 직접 응답을 생성하면서도, 추론이 강화된 스캐폴드 (scaffold)의 이점을 누리고 추가적인 추론 오버헤드 (inference overhead)를 피할 수 있습니다. 응답 생성 중에 언어적 목표를 더 잘 균형 있게 맞추기 위해, 우리는 유창성 (fluency) 및 자연스러움 (naturalness)과 같은 신호들을 집계하고 그래디언트 피드백 (gradient feedback)을 통해 이를 동적으로 재가중하는 적응형 다중 보상 메커니즘을 도입합니다. 우리는 ByteDance의 두 가지 실제 대화 시스템과 MultiWOZ 2.2 벤치마크에서 MORE를 평가하였으며, MORE는 강력한 베이스라인 (baselines) 모델들을 일관되게 능가했습니다. ByteDance의 실제 운영 트래픽을 대상으로 한 14일간의 온라인 실험에서, MORE는 전체 전환율과 도달 전환율을 각각 16.53% 및 30.09% 개선하는 동시에 사용자 만족도를 높이고 상담원 연결률 (handoff rates)을 낮추었습니다. 특히, 인간-기계 비교 실험에서 MORE는 상담원이 달성한 추가 전환 상승분 (incremental conversion lift)의 약 60%를 회복했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기