arXiv논문2026. 06. 18. 12:06

Turing Rewards를 이용한 사용자 시뮬레이터 학습

요약

사용자 시뮬레이터를 효과적으로 학습시키기 위해 튜링 테스트 기반의 강화학습 방식인 Turing-RL을 제안합니다. 기존의 응답 매칭 방식 대신 LLM 판사를 활용해 실제 사용자와의 구별 불가능성을 최적화하여 성능을 높였습니다.

핵심 포인트

Turing-RL: 튜링 테스트 기반의 새로운 강화학습 접근법 제안
LLM 판사를 활용한 판별적 튜링 보상 메커니즘 도입
단순 응답 매칭보다 구별 불가능성 최적화가 더 효과적임을 입증
채팅 및 Reddit 도메인 실험에서 기존 베이스라인 모델 능가

대화형 환경에서 인간 사용자를 시뮬레이션하는 법을 배우는 것은 에이전트 어시스턴트(agent assistants)의 훈련, 개인화 시스템(personalization systems)의 평가, 사회 과학 연구 등을 발전시킬 수 있습니다. 기존의 접근 방식은 일반적으로 로그 확률(log probability)을 최대화하거나 유사도 보상(similarity reward)을 사용하여, 단일 정답(ground truth) 응답에 맞추도록 대규모 언어 모델(LLM)을 훈련하는 방식으로 이루어집니다. 우리는 대신 사용자 시뮬레이터 모델을 훈련하기 위한 튜링 테스트 기반 강화학습(Turing-Test-based reinforcement learning) 접근 방식인 {Turing-RL}을 제안합니다. {Turing-RL}은 LLM 판사(LLM judge)를 활용한 판별적 튜링 보상(discriminative Turing reward)을 사용하여, 사용자의 이력을 고려했을 때 생성된 응답이 실제 사용자의 응답과 얼마나 구별 불가능한지를 점수화하며, 사용자 시뮬레이터 LLM은 이러한 보상을 통해 사용자가 말했을 법한 응답과 구별할 수 없는 응답을 생성하도록 학습합니다. 대화형 채팅과 Reddit 포럼 토론이라는 두 가지 서로 다른 도메인에 걸쳐, 우리는 {Turing-RL}이 LLM 및 인간 평가 지표 모두에서 일관되게 베이스라인 방법들을 능가한다는 것을 발견했습니다. 우리의 연구는 응답 매칭(response matching)보다는 구별 불가능성(indistinguishability)을 최적화하는 것이 사용자 시뮬레이터를 학습하는 데 효과적임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Turing Rewards를 이용한 사용자 시뮬레이터 학습

요약

핵심 포인트

댓글