arXiv논문2026. 05. 26. 13:23

LLM 수학적 추론의 유해성 인지형 사후 교체를 위한 가드형 복구 (Guarded Repair)

요약

LLM의 수학적 추론 오류를 수정할 때 발생하는 '정답이 오답으로 변하는 위험'을 방지하기 위한 GuardedRepair 프레임워크를 제안합니다. 이 연구는 검증 가드를 통해 안전성이 확인된 경우에만 추론 경로를 교체하는 선택적 복구 방식을 다룹니다.

핵심 포인트

잘못된 추론은 수정하되 올바른 경로는 유지하는 선택적 교체 방식 제안
GuardedRepair 프레임워크를 통해 GSM8K 정확도 향상 및 정답 파손 방지
심볼릭 체크와 의미론적 위험 진단을 결합한 결정론적 검증 가드 활용
단순 재생성(Direct regeneration) 대비 낮은 정답 파손율 입증

LLM (Large Language Model) 수학적 추론의 사후 복구 (Post-hoc repair)는 비대칭적 위험을 초래합니다. 즉, 잘못된 추론 경로 (reasoning trace)를 수정하는 것은 유용하지만, 이미 올바른 경로를 교체하는 것은 해로울 수 있습니다. 본 연구에서는 시스템이 복구된 후보가 기존에 캐싱된 경로를 유지하는 것보다 더 안전한지 여부를 결정해야 하는 선택적 교체 (selective replacement) 설정 하에서 이 문제를 연구합니다. 우리는 캐싱된 추론 경로를 진단하고, 선택적으로 복구를 트리거하며, 결정론적 검증 가드 (deterministic verification guards)가 교체를 지원할 때만 정답을 변경하는 후보를 수용하는 가드형 Best-of-N 복구 프레임워크인 GuardedRepair를 제안합니다. 이 프레임워크는 경량 심볼릭 체크 (symbolic checks), 표면적 의미론적 위험 진단 (surface semantic-risk diagnostics), 제한된 후보 생성 (bounded candidate generation), 그리고 보수적인 수용 정책 (conservative acceptance policies)을 결합합니다. 초기 추론기가 이미 95.60%의 정확도를 달성한 전체 GSM8K 테스트 세트에서, GuardedRepair는 최종 정확도를 96.89%로 향상시켰으며, 메인 실행 과정에서 측정된 '정답이 오답으로 변하는 사례 (broken-correct cases)' 없이 남은 58개의 오류 중 17개를 수정했습니다. 약한 추론기인 ASDiv 설정에서는 정확도가 78.40%에서 87.60%로 향상되었습니다. 직접 재생성 (Direct regeneration) 베이스라인은 이러한 이득이 단순히 더 강력한 모델을 통한 재해결 (re-solving)만으로 설명되지 않음을 보여줍니다. 모든 GSM8K 예제를 재해결할 경우 정확도는 93.03%로 떨어지며, 초기에 올바랐던 47개의 정답을 망가뜨립니다. 추가 분석 결과, 가드형 복구는 수정/파손 간의 트레이드오프 (fixed/broken tradeoff)를 실질적으로 개선하는 동시에, 교체 위험이 제거되기보다는 감소한다는 것을 보여줍니다. 이러한 결과는 사후 복구를 제약 없는 재해결이 아닌, 유해성을 인지하는 선택적 교체 (harm-aware selective replacement)로 바라보는 관점을 뒷받침합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 수학적 추론의 유해성 인지형 사후 교체를 위한 가드형 복구 (Guarded Repair)

요약

핵심 포인트

댓글