보상으로서의 메타인지: 지식 및 조절 신호를 통한 LLM 추론 강화
요약
LLM의 추론 능력을 강화하기 위해 메타인지적 지식과 조절 신호를 보상으로 활용하는 MaR 프레임워크를 제안합니다. 기존 RLVR 및 RaR 방식의 한계를 극복하여 추론 궤적 전반에 걸쳐 정교한 보상을 제공합니다. 실험 결과, Qwen3.5-9B 모델이 GPT-OSS-120B를 능가하는 등 뛰어난 성능 향상을 입증했습니다.
핵심 포인트
- 메타인지 기반의 MaR 프레임워크 제안
- 수작업 루브릭 없이도 추론 프로세스 가이드 가능
- 지식 커버리지 및 조절 충실도 기반의 궤적 보상 최적화
- 벤치마크 성능 최대 11% 향상 및 프런티어 모델 수준 도달
- 도메인 외 데이터셋에 대한 우수한 일반화 성능
최근의 강화학습 (RL) 방법론들은 LLM의 추론 능력을 실질적으로 향상시켜 왔습니다. 기존의 보상 설계는 주로 두 가지 패러다임을 따릅니다: (1) 검증 가능한 보상을 이용한 강화학습 (RLVR)은 실행 가능한 체크나 정답으로부터 결과 신호를 도출하지만, 중간 추론 행동에 대한 가이드는 제한적입니다. (2) 루브릭 기반 보상 (RaR)은 자연어 루브릭 (rubrics)을 사용하여 추론 품질과 작업 준수 여부를 평가함으로써 최종 정답 확인을 넘어선 방식을 취하지만, 종종 인스턴스별로 특화된 루브릭과 상당한 설계 노력을 요구합니다. 이러한 문제를 해결하기 위해, 우리는 두 가지 일반적인 프로세스 차원을 통해 LLM 추론을 가이드하는 메타인지 영감 기반의 RL 프레임워크인 Metacognition-as-Reward (MaR)를 소개합니다: i) 수작업으로 제작된 인스턴스별 루브릭 없이도 작업 관련 정보를 식별하는 메타인지적 지식 (metacognitive knowledge), 그리고 ii) 최종 정답 결과 이상의 보상 가이드를 제공하기 위해 추론 프로세스를 계획하고 조정하는 메타인지적 조절 (metacognitive regulation)입니다. MaR은 모델의 롤아웃 (rollouts)을 명시적인 메타인지 구성 요소로 구조화하며, 작업 지식 커버리지, 조절 충실도, 그리고 최종 정답 정확도에 대한 궤적 수준 (trajectory-level) 보상을 통해 이를 최적화합니다. 이러한 방식으로, MaR은 보상 신호를 일반적인 메타인지 차원에 근거하게 하면서 보상 피드백을 추론 궤적으로 확장합니다. 22개의 벤치마크에 대한 실험 결과, MaR은 모델 성능을 일관되게 향상시켜 베이스 모델 대비 최대 7.7%, vanilla DAPO 대비 최대 11.0%의 성능 향상을 달성했습니다. 특히, Qwen3.5-9B + MaR은 프런티어 모델과의 격차를 좁혔으며, 전체 평균에서 GPT-OSS-120B를 능가하고 여러 개별 벤치마크에서 더 강력한 모델들을 앞질렀습니다. 프로세스 수준의 분석은 추론 프로세스 품질의 상당한 개선을 추가로 보여줍니다. 또한 MaR은 도메인 외 (out-of-domain) 데이터셋에도 일반화되어, MaR로 학습된 모델들이 해당 베이스 모델들에 비해 평균적으로 성능이 향상됨을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기