LLM에 영업 전략을 부여하기 위한 RL 모델 오픈 소스 공개
요약
LLM에 영업 전략을 부여하기 위해 모델 프리 강화학습(Model-free RL)을 활용하는 새로운 연구 방법론을 공개했습니다. 합성 데이터셋 대신 수치 기반의 영업 규칙을 사용하여 PPO 모델을 훈련시키고, 이를 LLM의 잔차 스트림에 주입하여 응답을 보강합니다.
핵심 포인트
- 텍스트 데이터 없이 숫자와 영업 규칙만으로 RL 모델 훈련 가능
- PPO 알고리즘을 사용하여 매출을 보상으로 하는 행동 예측
- 훈련된 RL의 은닉 특징을 LLM의 잔차 흐름에 주입하여 응답 증강
- Gemma 4 레이어를 활용한 브릿지 MLP 훈련 방식 채택
이러한 LLM을 영업 용도로 사용할 때 직면하는 주요 문제는, 엄격한 프롬프팅 (prompting)을 사용하더라도 이들이 너무 완벽하고, 매끄러우며, 예의 바르고, 항상 수용적이며, 내가 말하는 무엇이든 동의한다는 점입니다. 결국 장기적으로는 모든 상황이 수용하는 방향으로 흘러가게 됩니다. Fable 5 (현재는 기능이 제한됨), Opus 4.8, Gemini 3.1 pro, 그리고 GPT 5 시리즈도 마찬가지입니다. 저는 항상 영업의 미묘한 차이 (nuances)를 이해하도록 훈련된 RL (강화학습) 정책을 통해 이러한 응답을 보강하는 방법을 생각해 왔습니다. 우리는 이 모델들을 훈련시키기 위해 거대한 영업 데이터셋이 필요하지 않습니다. 합성 데이터셋 (synthetic dataset)이나 어떠한 문장/단어 데이터셋도 필요하지 않습니다. 비결은 자기 생성 상호작용 (self-generated interactions)을 이용한 모델 프리 RL (model-free RL)입니다! 우리는 단지 신뢰 (trust), 관심 (interest), 예산 적합성 (budget fit) 등과 같이 영업 특징이나 고객 가치를 나타내는 숫자만 있으면 됩니다. 숫자를 입력하면, 각기 다른 숫자를 가진 수백만 개의 환경에서 매출 (revenue)을 보상 (reward)으로 하여 PPO (Proximal Policy Optimization) 모델을 훈련시킵니다. 아이디어는 행동 (action)을 예측하는 것이며, 행동은 클로징 (close), 피칭 (pitch), 라포 형성 (rapport) 등과 같습니다. 예를 들어 신뢰 수치가 임계값 (threshold) 이상으로 증가하면 관심 수치도 함께 증가해야 하며, 이러한 조건 중 많은 수가 특정 임계값 위에 있으면 매출, 즉 보상이 더 큰 숫자가 되고, 그렇지 않으면 0이 됩니다. 따라서 단어 없이, 오직 숫자와 영업 규칙만으로 RL을 훈련시킵니다. 이제 이 RL은 LLM의 잔차 스트림 (residual streams)과 연결되어야 합니다. 그래야 RL의 은닉 특징 (hidden features)과 행동 상태 (action states)를 LLM에 추가하여 최종 응답을 보강할 수 있기 때문입니다. 그래서 우리는 Gemma 4 E4Bs 레이어를 사용하여 브릿지 MLP (Multi-Layer Perceptron) 레이어를 훈련시킵니다. 이때 Gemma 4 레이어와 RL 레이어는 동결 (frozen)된 상태입니다. 전체적인 아이디어는 훈련된 LLM의 은닉 특징을 LLM에 완벽하게 연결하는 것입니다. 추론 (inference) 과정 동안, 하나의 LLM이 신뢰, 관심과 같은 특징에 대한 JSON을 생성하면, RL 모델은 이를 사용하여 은닉 특징을 생성하고, 행동 상태는 LLM의 잔차 흐름 (residual flow)에 주입됩니다. 참고로 두 과정 모두 동일한 LLM의 두 인스턴스를 사용합니다.
하지만 첫 번째 LLM의 응답에서 생성된 JSON을 직접 가져와 두 번째 LLM과 함께 사용할 수도 있습니다. 그러나 그렇게 하면 모델은 미래를 알지 못하며, 4,000만 번의 영업 게임을 수행하지도 않았습니다. 정책 (policy)은 이를 더 흥미롭게 만듭니다. 즉, 추론 (inference) 과정 중 RL로부터 전달되는 1,024개의 은닉층 (hidden layers)은 해당 결정이 내려진 이유를 제공하며, 8개의 액션 헤드 (action head)는 취해야 할 최선의 움직임이 무엇인지 알려줍니다.
요약 (TLDR): 신뢰, 관심 등 22가지 고객 상태 (customer states)를 기반으로 학습된 RL 모델을 사용하여 피치 (pitch) 또는 클로징 (close)과 같이 어떤 행동을 취할지 예측하며, 이를 오픈 소스 LLM의 잔차 흐름 (residual flow)에 주입하여 최종 응답을 증강 (augment)합니다. LLM API의 경우, 주입할 필요 없이 RL 출력 이후에 시스템 프롬프트 (system prompt)를 추가하여 최종 응답을 증강하기만 하면 됩니다.
Pypi 패키지: https://pypi.org/project/rl-sales-augment/
GitHub 저장소: https://github.com/NandhaKishorM/rl-sales-augment
1년 전 제 arXiv 논문을 기반으로 구축되었습니다: https://arxiv.org/abs/2510.01237
현재 새로운 arXiv 논문을 막 제출했습니다. 승인되는 대로 논문을 공유하겠습니다.
제출자: /u/Nandakishor_ml
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기