LLM 수학적 추론의 유해성 인지형 사후 교체를 위한 가드형 복구 (Guarded Repair)
요약
LLM의 수학적 추론 오류를 수정할 때 발생하는 '정답이 오답으로 변하는 위험'을 방지하기 위한 GuardedRepair 프레임워크를 제안합니다. 이 연구는 검증 가드를 통해 안전성이 확인된 경우에만 추론 경로를 교체하는 선택적 복구 방식을 다룹니다.
핵심 포인트
- 잘못된 추론은 수정하되 올바른 경로는 유지하는 선택적 교체 방식 제안
- GuardedRepair 프레임워크를 통해 GSM8K 정확도 향상 및 정답 파손 방지
- 심볼릭 체크와 의미론적 위험 진단을 결합한 결정론적 검증 가드 활용
- 단순 재생성(Direct regeneration) 대비 낮은 정답 파손율 입증
LLM (Large Language Model) 수학적 추론의 사후 복구 (Post-hoc repair)는 비대칭적 위험을 초래합니다. 즉, 잘못된 추론 경로 (reasoning trace)를 수정하는 것은 유용하지만, 이미 올바른 경로를 교체하는 것은 해로울 수 있습니다. 본 연구에서는 시스템이 복구된 후보가 기존에 캐싱된 경로를 유지하는 것보다 더 안전한지 여부를 결정해야 하는 선택적 교체 (selective replacement) 설정 하에서 이 문제를 연구합니다. 우리는 캐싱된 추론 경로를 진단하고, 선택적으로 복구를 트리거하며, 결정론적 검증 가드 (deterministic verification guards)가 교체를 지원할 때만 정답을 변경하는 후보를 수용하는 가드형 Best-of-N 복구 프레임워크인 GuardedRepair를 제안합니다. 이 프레임워크는 경량 심볼릭 체크 (symbolic checks), 표면적 의미론적 위험 진단 (surface semantic-risk diagnostics), 제한된 후보 생성 (bounded candidate generation), 그리고 보수적인 수용 정책 (conservative acceptance policies)을 결합합니다. 초기 추론기가 이미 95.60%의 정확도를 달성한 전체 GSM8K 테스트 세트에서, GuardedRepair는 최종 정확도를 96.89%로 향상시켰으며, 메인 실행 과정에서 측정된 '정답이 오답으로 변하는 사례 (broken-correct cases)' 없이 남은 58개의 오류 중 17개를 수정했습니다. 약한 추론기인 ASDiv 설정에서는 정확도가 78.40%에서 87.60%로 향상되었습니다. 직접 재생성 (Direct regeneration) 베이스라인은 이러한 이득이 단순히 더 강력한 모델을 통한 재해결 (re-solving)만으로 설명되지 않음을 보여줍니다. 모든 GSM8K 예제를 재해결할 경우 정확도는 93.03%로 떨어지며, 초기에 올바랐던 47개의 정답을 망가뜨립니다. 추가 분석 결과, 가드형 복구는 수정/파손 간의 트레이드오프 (fixed/broken tradeoff)를 실질적으로 개선하는 동시에, 교체 위험이 제거되기보다는 감소한다는 것을 보여줍니다. 이러한 결과는 사후 복구를 제약 없는 재해결이 아닌, 유해성을 인지하는 선택적 교체 (harm-aware selective replacement)로 바라보는 관점을 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기