arXiv논문2026. 06. 15. 03:48

정보가 조각나서 전달될 때의 다회차 추론: 확장 가능한 샤딩(Sharding) 및 메모리 증강 강화학습 (Memory-Augmented RL)

요약

대화가 길어질 때 LLM의 정확도가 하락하는 'Lost in Conversation' 현상을 해결하기 위해 메모리 증강 강화학습과 샤딩 파이프라인을 제안합니다. 압축된 롤링 메모리를 유지하도록 학습함으로써 긴 문맥에서도 뛰어난 점진적 추론 성능을 확보했습니다.

핵심 포인트

대화 이력이 길어질 때 발생하는 LLM의 정확도 저하 문제 해결
저비용 샤딩 파이프라인을 통한 다회차 분절 정보 에피소드 생성
메모리 증강 정책을 통한 수학 문제 및 롱 컨텍스트 QA 제로샷 성능 향상
압축 학습이 전체 문맥 노출보다 강력한 점진적 추론을 유도함

사용자가 여러 대화 차례(conversation turns)에 걸쳐 작업에 중요한 정보를 공개할 때, 전체 문맥(full context)을 사용할 수 있음에도 불구하고 LLM의 정확도가 최대 65%까지 하락합니다. 우리는 이러한 '대화 중 손실(Lost in Conversation)' 현상이, 점점 늘어나는 이력(history) 전체에 주의(attention)를 기울이는 대신 압축된 롤링 메모리(rolling memory)를 유지하도록 모델을 학습시킴으로써 상당히 완화될 수 있음을 보여줍니다. 이러한 학습을 확장 가능하게 만들기 위해, 우리는 단일 차수 QA 데이터셋을 다회차 분절 정보 에피소드(multi-turn fragmented-information episodes)로 변환하는 저비용 샤딩(sharding) 파이프라인을 도입하여, 수 시간의 수동 주석(manual annotation) 필요성을 제거했습니다. 샤딩된 GSM8K 데이터로만 학습했을 때, 우리의 메모리 증강 정책(memory-augmented policy)은 다회차 정확도를 크게 향상시켰으며, 더 어려운 수학 문제와 도메인 외(out-of-domain) 롱 컨텍스트(long-context) QA로의 제로샷(zero-shot) 일반화 성능을 보여주었습니다. 더욱이, 메모리 학습된 모델은 테스트 시 전체 이력이 주어지는 경우에도 전체 이력 기반 베이스라인(full-history baselines)보다 뛰어난 성능을 보였으며, 이는 압축을 학습하는 것이 전체 문맥 노출만보다 더 강력한 점진적 추론(incremental reasoning)을 유도함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

정보가 조각나서 전달될 때의 다회차 추론: 확장 가능한 샤딩(Sharding) 및 메모리 증강 강화학습 (Memory-Augmented RL)

요약

핵심 포인트

댓글