arXiv논문2026. 05. 15. 15:47

예측 가능한 실패를 통한 ML 모델 학습

요약

본 기사는 ML 모델의 배포 규모에서의 실패율을 정확하게 추정하는 방법을 다룹니다. 기존 방식은 평가 세트가 충분히 크지 않아 중요한 실패 사례를 관찰하기 어렵다는 한계가 있었습니다. 이를 해결하기 위해, 저자들은 '예측 가능성 손실(forecastability loss)'이라는 새로운 미세 조정 목적 함수를 제안합니다. 이 손실 함수는 모델이 주요 작업 능력을 유지하면서도 안전성을 높이고 예측 오차를 줄이는 데 효과적입니다.

핵심 포인트

ML 모델의 배포 규모 실패율 추정은 안전성 평가의 핵심 과제이다.
기존 방법론은 제한된 평가 세트 크기로 인해 중요한 실패 모드를 관찰하기 어렵다.
저자들은 '예측 가능성 손실(forecastability loss)'이라는 새로운 미세 조정 목적 함수를 제안했다.
이 손실 함수는 모델의 주요 작업 능력을 유지하면서도 안전성을 향상시키고 예측 오차를 감소시킨다.
언어 모델과 RL 그리드월드를 사용한 실험에서 그 효과가 입증되었다.

배포 규모 (deployment scale)에서 ML 모델이 얼마나 자주 실패할지 추정하는 것은 배포 전 안전성 평가 (safety assessment)의 핵심이지만, 실행 가능한 평가 세트 (evaluation set)가 중요한 실패를 관찰할 수 있을 만큼 충분히 큰 경우는 드뭅니다. Jones et al. (2025)은 평가 세트에서 가장 큰 k개의 실패 점수 (failure scores)를 외삽 (extrapolating)하여 배포 규모의 실패율을 예측함으로써 이 문제를 해결합니다. 우리는 이 추정치 (estimator)의 예측 오차 (forecast error)에 대한 유한-k 분해 (finite-k decomposition)를 제시하며, 이것이 일반적인 경우에 과잉 예측 (over-prediction)하는 내재된 편향 (bias)을 가지고 있음을 보여줍니다. 이는 안전성 측면에서 유리한 방향입니다. 이러한 편향은 평가 세트가 배포 세트에는 포함되어 있지만 평가 세트에는 누락된 희귀한 고실패 모드 (high-failure mode)를 놓칠 때 상쇄되어, 예측치가 배포 규모에서 과소 예측 (under-predict)되게 만듭니다. 우리는 이러한 실패 모드를 해결하는 미세 조정 (fine-tuning) 목적 함수인 예측 가능성 손실 (forecastability loss)을 제안합니다. 언어 모델 (language-model) 비밀번호 게임과 RL 그리드월드 (RL gridworld)를 이용한 두 가지 개념 증명 (proof-of-concept) 실험에서, 미세 조정은 주요 작업 능력 (primary-task capability)을 유지하면서도 지도 학습 베이스라인 (supervised baselines)과 유사한 안전성을 달성하는 동시에, 홀드아웃 예측 오차 (held-out forecast error)를 실질적으로 감소시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

예측 가능한 실패를 통한 ML 모델 학습

요약

핵심 포인트

댓글