신뢰할 수 있는 LLM 추론을 위한 은닉 상태(Hidden States) 정제 학습
요약
LLM의 은닉 상태 오류가 추론 불안정성을 초래하는 문제를 해결하기 위해 ReLAR 프레임워크를 제안합니다. 강화 학습을 통해 은닉 표현을 반복적으로 정제하여, 명시적인 사고 사슬(CoT) 없이도 효율적이고 정확한 추론을 가능하게 합니다.
핵심 포인트
- 강화 학습 기반의 잠재 정제 프레임워크 ReLAR 제안
- 명시적 CoT 생성 없이도 추론 정확도 및 안정성 향상
- 적응형 컨트롤러를 통한 추론 오버헤드 감소
- 의료, 수학, 멀티홉 추론 등 다양한 벤치마크에서 성능 입증
대규모 언어 모델(Large language models)은 강력한 추론 능력을 보여주지만, 초기 은닉 상태(hidden-state)의 오류가 잘못된 예측으로 전파될 수 있는 복잡한 다단계 설정에서는 내부 추론 과정이 불안정할 수 있습니다. 우리는 디코딩(decoding) 전 은닉 표현(hidden representations)을 반복적으로 업데이트하는 강화 학습 가이드 잠재 정제 프레임워크(reinforcement-guided latent refinement framework)인 ReLAR을 제안합니다. ReLAR은 압축된 잠재 추론 상태(latent reasoning state)를 유지하며, 학습된 깊이 및 액션 컨트롤러(depth and action controllers)를 사용하여 정제 단계의 수와 방향을 적응적으로 결정합니다. 컨트롤러는 단계별 가능도 개선(step-wise likelihood improvement)에 기반한 정책 경사(policy gradient) 목적 함수로 학습되어, 명시적인 사고 사슬(chain-of-thought) 생성 없이도 입력에 의존적인 효율적인 추론을 가능하게 합니다. 의료, 수학, 멀티홉 추론(multi-hop reasoning) 및 개방형 생성(open-ended generation) 벤치마크에 대한 실험 결과, ReLAR은 명시적 추론 베이스라인(reasoning baselines)보다 추론 오버헤드(inference overhead)를 실질적으로 낮추면서도 정확도, 생성 품질 및 추론 안정성을 향상시킴을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기