arXiv논문2026. 05. 25. 11:21

OnePred: 다회차 대화에서의 재귀적 의도 메모리를 통한 다음 질의 예측

요약

OnePred는 다회차 대화에서 사용자의 다음 질의를 예측하기 위해 재귀적 의도 메모리를 사용하는 연구입니다. 전체 대화 이력을 사용하는 대신 진화하는 의도 궤적을 추적하여 토큰 효율성과 예측 정확도를 동시에 높였습니다.

핵심 포인트

재귀적 의도 메모리를 통한 선제적 대화 상호작용 구현
2단계 강화학습을 통한 예측 지향적 의도 체인 형성
전체 이력 대비 토큰 소비량을 최대 22배 절감
새로운 벤치마크인 NQP-Bench 도입 및 성능 입증

대규모 언어 모델 (LLM) 대화 시스템은 매일 수백만 건의 다회차 대화 (multi-turn dialogues)를 처리하지만, 근본적으로는 반응적 (reactive)인 상태로 남아 있습니다. 즉, 사용자가 질의를 입력한 후에만 응답합니다. 선제적 (proactive) 상호작용을 향한 핵심 단계는 다음 질의 예측 (next-query prediction)이며, 이는 오직 이전 대화만을 기반으로 사용자의 후속 질의를 예측하는 것입니다. 이 작업의 발전은 전용 벤치마크의 부재와 근본적인 효율성-품질 간의 트레이드오프 (efficiency--quality trade-off)로 인해 저해되고 있습니다. 전체 대화 이력을 단순하게 연결 (concatenating)하면 토큰 소비량이 선형적으로 증가하는 반면, 최신 턴으로 자르는 것 (truncating)은 중요한 턴 간 문맥 (cross-turn context)을 버리게 됩니다. 우리의 핵심 통찰은 정확한 예측을 위해 가공되지 않은 이력을 다시 읽을 필요가 없다는 것입니다. 주제, 해결되지 않은 요구 사항, 관심사 변화에 따라 진화하는 사용자의 의도 궤적 (intent trajectory)을 추적하는 것만으로도 충분합니다. 우리는 유일한 턴 간 문맥으로서 재귀적으로 업데이트되는 메모리를 유지하며, 대화 길이에 관계없이 턴당 비용을 제한하는 OnePred를 제안합니다. 우리는 먼저 무엇을 예측할지 가르치고, 그다음 무엇을 압축할지를 가르치는 2단계 강화학습 (reinforcement learning) 파이프라인을 통해 모델을 학습시켜, 메모리를 예측 지향적인 의도 체인 (intent chain)으로 형성합니다. 엄격한 테스트베드를 구축하기 위해, 우리는 세 가지 다양한 서브셋을 아우르는 NQP-Bench를 도입합니다. 실험 결과, OnePred는 전체 이력 입력과 비교했을 때 턴당 토큰 소비를 최대 22배까지 줄이면서도 예측 품질 면에서 모든 베이스라인 (baselines)을 일관되게 능가하였으며, 대화가 길어질수록 더 큰 이득을 보였습니다. 우리의 코드는 https://github.com/ZBWpro/OnePred 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

OnePred: 다회차 대화에서의 재귀적 의도 메모리를 통한 다음 질의 예측

요약

핵심 포인트

댓글