arXiv논문2026. 06. 26. 11:12

AIGP: 이커머스 가격 책정의 장기적 가치 정렬을 위한 LLM 기반 프레임워크

요약

이커머스의 장기적 비즈니스 목표 달성을 위해 LLM 기반의 가격 책정 프레임워크인 AIGP를 제안합니다. 오프라인 강화학습과 DPO를 활용하여 GMV와 ROI를 최적화하며, 기존 모델 대비 높은 성과와 해석 가능성을 입증했습니다.

핵심 포인트

LLM과 도메인 지식을 결합한 해석 가능한 가격 책정 프레임워크 제안
오프라인 강화학습 기반의 장기 가치 추정기(LTVE) 활용
DPO를 통한 가격 책정 정책과 비즈니스 목표의 정렬
A/B 테스트 결과 GMV 13.21%, ROI 7.59% 개선 달성

대규모 이커머스(e-commerce)에서의 전통적인 동적 가격 책정(dynamic pricing) 모델은 제한된 해석 가능성, 비정형 정보의 낮은 활용도, 그리고 누적 총 상품 판매액(GMV), 투자 수익률(ROI), 마일스톤 달성(milestone achievement)과 같은 장기적인 비즈니스 목표와의 불일치 문제를 겪고 있습니다. 우리는 도메인 지식(domain knowledge), 구조화된 데이터(structured data), 그리고 텍스트 문맥(textual context)을 프롬프트로 활용하여 해석 가능하고 지식 기반의 가격 책정 결정을 내리는 새로운 프레임워크인 AIGP를 제안합니다. 고품질의 출력을 유지하면서 효율적인 배포를 위해, 우리는 지식 증류(knowledge distillation)를 위한 지도 미세 조정(supervised fine-tuning)을 채택합니다. AIGP의 핵심은 과거 데이터를 통한 오프라인 강화학습(offline reinforcement learning)으로 학습된 장기 가치 추정기(Long-Term Value Estimator, LTVE)이며, 이는 후보 가격 책정 행동에 점수를 매기고 직접 선호 최적화(Direct Preference Optimization, DPO)를 위한 선호 쌍(preference pairs)을 선택하는 보상 모델(reward model) 역할을 수행함으로써 가격 책정 정책을 장기적인 비즈니스 목표와 정렬시킵니다. Tao Factory에서의 광범위한 오프라인 평가와 대규모 온라인 A/B 테스트 결과, AIGP는 기존 운영 베이스라인(production baseline) 대비 14일 동안 GMV +13.21%, ROI +7.59%, 마일스톤 달성률 +8.20%의 상당한 개선을 달성하는 동시에, 해석 가능하고 투명한 가격 책정 근거를 제공함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AIGP: 이커머스 가격 책정의 장기적 가치 정렬을 위한 LLM 기반 프레임워크

요약

핵심 포인트

댓글