피크 후 붕괴(Peak-Then-Collapse) 현상과 지식 그래프 도구 사용의 네 가지 인터페이스 채널
요약
지식 그래프 도구 사용 시 GRPO 학습 과정에서 발생하는 '피크 후 붕괴(Peak-Then-Collapse)' 현상을 분석한 연구입니다. 모델의 성능 저하가 보상 설계의 문제가 아닌, 인터페이스 피드백의 특성에서 기인함을 밝히고 자기 증류를 통한 완화 방안을 제시합니다.
핵심 포인트
- GRPO 학습 중 도구 사용 성능이 급격히 0%로 붕괴하는 패턴 발견
- 성능 저하의 주요 원인은 보상 설계가 아닌 인터페이스 피드백의 차이
- 모델 용량 증대보다 1회 반복 자기 증류가 성능 향상에 더 효과적
- 검색 의존적 오류의 95.4%는 답변 추출이 아닌 검색 구성 실패
우리는 의도적으로 최소화된 지식 그래프 (Knowledge-Graph) 도구 API인 Complex WebQuestions 데이터셋 상의 네 가지 Freebase 탐색 동사를 대상으로, 표준적인 RLVR (Reinforcement Learning from Verifiable Rewards) 도구 사용 레시피인 Qwen2.5-7B-Instruct 기반의 GRPO (Group Relative Policy Optimization)를 테스트합니다. 자기 검증 가능한 검색 보상 (Self-verifiable retrieval reward) 하에서, 정책의 도구 기반 답변율은 250단계에 걸쳐 $3.8%$에서 $9.6%$로 상승했다가, 단 50단계의 구간 내에서 $0%$로 붕괴합니다. 이는 네 개의 시드(seed) 전체에서 재현된 '피크 후 붕괴 (peak-then-collapse)' 패턴입니다. 일곱 가지 보상 설계에 걸쳐 우리는 네 가지 반복되는 실패 모드 (failure modes)를 발견했습니다: 더 밀도가 높거나 더 정밀한 대리 보상 (proxy rewards)을 추가하는 것은 실패 모드를 제거하기보다는 오히려 변화시킬 뿐입니다. 우리는 Python 인터프리터, 웹 검색, 그리고 JSON API와의 핵심적인 차이점이 인터페이스 피드백 (interface feedback)에 있다고 주장합니다: 이들의 실패는 모델이 사전 학습 (pretraining) 단계에서 보았던 자연어 신호를 노출하는 경우가 많습니다. Python의 트레이스백 (traceback)은 실패한 줄을 명시하지만, 빈 Freebase 결과인 \texttt{[]}는 그렇지 않습니다. 이러한 표면적 요소를 제거하면, 동일 계열의 보상 재설계로는 해결되지 않는 성능 저하 체제 (degradation regime)가 드러납니다. 직접적인 오라클 절제 실험 (oracle ablation)을 통해 관계 선택 (relation selection) 문제는 배제되었습니다: 모든 검색 호출 시 정답 관계 (gold relations)를 주입하더라도 정확도 (exact-match accuracy)는 $+0.20$~pp 상승에 그쳤으며, 검색 의존적 오류의 $95.4%$는 답변 추출 (answer-extraction) 실패가 아닌 검색 구성 (retrieval-composition) 실패였습니다. 완화 방안으로서, 1회 반복 자기 증류 (one-iteration self-distillation)는 7B 모델에서 $40.0%$의 EM (Exact Match)에 도달하며 이는 용량 불변적 (capacity-invariant)입니다: 용량을 14B로 두 배 늘려도 EM은 $0.25$pp만 향상되었으며, 초기화 (initialization)도 거의 영향을 미치지 않았습니다. 즉, 성능 한계는 테스트된 7B14B 범위 내에서 인터페이스에 의해 제한되는 것으로 보입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기