추론 흔적 붕괴 (Reasoning-Trace Collapse): 미세 조정 (Fine-Tuning) 중 명시적 추론의 손실 평가
요약
명시적 추론 모델을 미세 조정할 때, 추론 흔적이 없는 데이터로 학습하면 모델이 최종 답변은 잘 내놓더라도 내부 추론 과정을 상실하는 '추론 흔적 붕괴' 현상이 발생합니다. 연구팀은 이를 측정하기 위한 구조적 평가 프레임워크를 도입하여, 답변 성능 지표만으로는 이러한 성능 저하를 감지하기 어렵다는 점을 밝혀냈습니다. 또한, 교사 모델의 데이터 없이도 손실 마스킹(loss-masking) 전략을 통해 이 현상을 완화할 수 있음을 제안합니다.
핵심 포인트
- 미세 조정 데이터에 추론 흔적이 없을 경우, 모델의 구조적 추론 능력이 상실되는 '추론 흔적 붕괴'가 발생함
- 기존의 답변 전용 지표(answer-only metrics)는 모델의 추론 능력 상실을 제대로 포착하지 못함
- 유효한, 비어 있는, 누락된, 잘린 추론을 구분하여 측정하는 새로운 구조적 평가 프레임워크 제안
- 단순한 손실 마스킹(loss-masking) 전략만으로도 추론 흔적 붕괴를 효과적으로 완화 가능
명시적 추론 (Explicit reasoning) 모델은 최종 답변을 내놓기 전에 중간 추론 흔적 (reasoning traces)을 생성하도록 훈련되지만, 다운스트림 미세 조정 (fine-tuning)은 종종 이러한 흔적이 포함되지 않은 일반적인 지시어-응답 (instruction-response) 데이터로 수행됩니다. 우리는 이러한 불일치가 추론 흔적 붕괴 (reasoning-trace collapse)를 유발할 수 있음을 보여줍니다. 즉, 미세 조정된 모델은 그럴듯한 최종 답변은 계속 생성하지만, 애초에 해당 모델을 추론 모델로 만들었던 구조적으로 유효한 명시적 추론 흔적을 상실하게 됩니다. 우리는 답변의 정확도와 추론 흔적의 유효성을 분리하여, 추론 조건부 작업 성능 (reasoning-conditioned task performance)과 함께 유효한 (valid), 비어 있는 (empty), 누락된 (missing), 그리고 잘린 (truncated) 추론을 측정하는 구조적 평가 프레임워크를 도입합니다. 이 프레임워크를 사용하여 네 가지 오픈 웨이트 (open-weight) 추론 모델을 연구한 결과, 표준 지도 미세 조정 (supervised fine-tuning)이 유효한 추론 흔적을 빠르게 억제할 수 있으며, 답변 전용 지표 (answer-only metrics)가 이러한 실패를 상당히 가릴 수 있음을 발견했습니다. 여러 설정에서 유효한 추론을 조건으로 한 성능은 높게 유지되는 반면, 유효한 추론의 비율은 급격히 떨어지는 현상이 나타났습니다. 나아가 우리는 교사 생성 추론 흔적 (teacher-generated reasoning traces)을 필요로 하지 않고도 단순한 손실 마스킹 (loss-masking) 전략이 붕괴를 상당히 완화할 수 있음을 보여줍니다. 이러한 결과는 미세 조정된 추론 모델의 평가 시, 특히 적응 데이터 (adaptation data)에 명시적 추론 흔적이 포함되지 않은 경우, 최종 답변 성능 외에도 구조적 추론 신뢰도 지표를 보고해야 함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기