arXiv논문2026. 06. 03. 12:13

HybridThinker: 압축된 메모리와 일시적 사고 단계(Transient Thought Steps)를 통한 효율적인 사고

요약

HybridThinker는 CoT 압축 시 발생하는 정보 손실 문제를 해결하기 위해 압축된 메모리 토큰과 일시적 사고 단계를 병행 사용하는 새로운 연구를 제안합니다. 하이브리드 학습 체계를 통해 모델이 메모리 토큰을 효과적으로 활용하도록 유도하며, 기존 압축 방식 대비 높은 정확도를 달성했습니다.

핵심 포인트

메모리 토큰과 일시적 사고 단계를 결합하여 정보 손실 최소화
하이브리드 학습 체계로 메모리 토큰 활용 능력 강제 학습
압축되지 않은 베이스라인과 대등한 추론 성능 확보
CoT 압축 분야에서 평균 정확도 5.8포인트 향상 달성

확장된 사고 사슬 (Chain-of-Thought, CoT) 추적은 거대언어모델 (LLM)의 추론 능력을 향상시키지만, 상당한 계산 및 메모리 비용을 발생시킵니다. 기존의 CoT 압축 방법들은 메모리 토큰 (memory tokens)을 통해 사고 단계 (thought steps)를 조밀한 표현 (representations)으로 응축하고 추론 시점에 이 표현들만을 유지함으로써 이러한 문제를 완화하지만, 세밀한 정보 (fine-grained information)의 손실로 인해 후속 단계에서 오류가 발생하기 쉬워집니다. 이를 완화하기 위해, 우리는 이러한 표현들을 보존할 뿐만 아니라 세밀한 세부 정보를 제공하기 위해 사고 단계들을 일시적으로도 유지하는 \textbf{HybridThinker}를 제안합니다. 그러나 우리는 학습 (training) 과정에서 사고 단계들을 후속 단계들이 접근할 수 있도록 단순히 유지할 경우, 모델이 메모리 토큰을 거치지 않고 이러한 단계들로부터 정보를 직접 검색함으로써 메모리 토큰을 통해 정보를 압축하고 검색하는 모델의 능력이 충분히 학습되지 않은 채 메모리 토큰을 우회하게 된다는 점을 관찰했습니다. 따라서 우리는 하이브리드 학습 (hybrid training) 체계를 도입합니다. 이 체계에서는 일부 사고 단계들만이 어텐션 (attention)을 통해 후속 단계들에서 직접 접근할 수 있는 반면, 나머지 사고 단계들은 마스킹 (masked) 처리되어 모델이 압축과 검색을 위해 메모리 토큰을 사용하도록 강제합니다. 4개의 추론 벤치마크 (reasoning benchmarks)에 걸쳐, HybridThinker는 압축되지 않은 베이스라인 (uncompressed baseline)과 대등한 성능을 보였으며, 유사한 추론 시간 (inference time) 내에 CoT 압축 분야에서 평균 정확도를 5.8포인트 향상시키며 최첨단 (state of the art) 성능을 달성했습니다. 절제 연구 (Ablation studies)를 통해 일시적인 사고 단계 유지와 하이브리드 학습 체계 모두가 이러한 성능 향상에 기여함을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

HybridThinker: 압축된 메모리와 일시적 사고 단계(Transient Thought Steps)를 통한 효율적인 사고

요약

핵심 포인트

댓글