arXiv논문2026. 05. 15. 15:43

Self-Recall Thinking을 통한 다회차 대화 일관성 향상

요약

본 논문은 LLM 기반 다회차 대화 시스템이 겪는 장거리 문맥 의존성 및 정보 희소성 문제를 해결하기 위해 Self-Recall Thinking (SRT) 프레임워크를 제안합니다. SRT는 외부 모듈 없이도 과거의 유용한 대화 턴을 선택적으로 회상하고 추론하는 내생적(endogenous) 과정을 통합하여 일관성을 높입니다. 실험 결과, SRT는 기존 방법 대비 F1 점수를 향상시키고 엔드투엔드 지연 시간을 감소시켜 성능과 효율성 모두에서 우수함을 입증했습니다.

핵심 포인트

Self-Recall Thinking (SRT) 프레임워크를 통해 다회차 대화의 일관성과 확장성을 개선함.
SRT는 외부 메모리 의존 없이, 과거 턴을 선택적으로 회상하고 추론하는 내생적(endogenous) 과정을 통합함.
주요 구성 요소로는 의존성 구축, 능력 초기화, 그리고 검증 가능한 보상을 통한 추론 개선 과정이 포함됨.
실험 결과, SRT는 F1 점수 향상과 엔드투엔드 지연 시간 감소를 동시에 달성하여 최첨단 성능을 입증함.

Large language model (LLM) 기반의 다회차 대화 (multi-turn dialogue) 시스템은 인접하지 않은 턴 사이의 의존성을 추적하는 데 종종 어려움을 겪으며, 이는 일관성 (consistency)과 확장성 (scalability)을 모두 저해합니다. 대화가 길어짐에 따라 필수적인 정보는 희소해지고 무관한 문맥 속에 묻히게 되며, 전체 대화 이력을 처리하는 것은 심각한 효율성 병목 현상을 초래합니다. 기존의 해결책들은 지연 시간 (latency)이 높은 외부 메모리에 의존하거나, 반복적인 요약 (summarization)을 통해 세밀한 세부 사항을 놓치곤 합니다.

본 논문에서는 다회차 대화에서의 장거리 문맥 의존성 (long-range contextual dependency)과 희소한 정보 신호 문제를 해결하기 위해 설계된 프레임워크인 Self-Recall Thinking (SRT)를 제안합니다. SRT는 도움이 되는 과거의 턴을 식별하고 이를 사용하여 문맥적으로 적절한 응답을 생성하며, 모델이 추론 (inference) 과정 중에 문맥을 선택적으로 회상 (recall)하고 추론 (reason)할 수 있도록 합니다. 이 과정은 외부 모듈 없이 해석 가능한 회상 단계를 통합하는 내생적 추론 (endogenous reasoning) 과정을 산출합니다.

SRT는 다음을 포함합니다: (1) 의존성 구축 (Dependency Construction): 의존성을 생성하고 이를 self-recall 체인으로 변환; (2) 능력 초기화 (Capability Initialization): 회상 토큰 (recall tokens) 능력을 갖춘 추론 체인을 활성화하기 위한 학습; (3) 추론 개선 (Reasoning Improvement): 올바른 정답을 위한 회상 및 추론을 최적화하기 위해 검증 가능한 보상 (verifiable rewards)을 통해 정확도를 정교화.

여러 데이터셋에 대한 실험 결과, SRT는 이전 방법들보다 F1 점수를 4.7% 향상시키고 엔드투엔드 지연 시간 (end-to-end latency)을 14.7% 감소시켜, 추론 지연 시간과 정확도 사이의 균형을 달성하였으며 최첨단 (state-of-the-art) 베이스라인들을 능가함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Self-Recall Thinking을 통한 다회차 대화 일관성 향상

요약

핵심 포인트

댓글