arXiv논문2026. 06. 30. 11:23

EvalSafetyGap: LLM 평가-안전 실패에 관한 하이브리드 조사 및 개념적 프레임워크

요약

LLM의 평가 지표와 실제 안전성 사이의 간극을 분석한 연구입니다. 하이브리드 조사와 개념적 프레임워크인 EvalSafetyGap을 통해 벤치마크 타당성, 보상 해킹, 정렬 실패 등의 문제를 체계적으로 다룹니다.

핵심 포인트

평가 지표와 실제 모델 특성 간의 대리 실패(proxy failures) 분석
EvalSafetyGap 프레임워크 및 정렬 삼중난제 개념 제안
능력과 적대적 강건성 사이의 통계적 불확정성 확인
동적 평가 및 감사 가능한 정렬 관행을 위한 가이드라인 제공

LLM (Large Language Model) 평가와 AI 안전은 공통된 측정 문제에 직면해 있습니다. 즉, 벤치마크 점수, 보상 모델 (reward-model) 신호, 보고된 안전 지표는 개선될 수 있지만, 이들이 나타내고자 하는 잠재적 특성은 여전히 검증하기 어렵다는 점입니다. 본 논문은 체계적 검색과 서사적 합성(narrative synthesis), 그리고 별도로 추적된 회색 증거(grey evidence)를 결합한 하이브리드 조사와 개념적 프레임워크, 그리고 구조화된 10개 모델 감사(audit)를 결합합니다. 이 합성은 2018년부터 2026년까지의 평가-안전 측정 작업을 다루며, 벤치마크 타당성, 동적 평가, LLM-as-judge 신뢰성, 안전 평가, 탈옥/거부 강건성 (jailbreak/refusal robustness), 보상 해킹 (reward hacking), 기계론적 해석 가능성 (mechanistic interpretability), 거버넌스/감사 가능성 등 8가지 증거 스트림을 아우릅니다. 우리는 최적화 압력 하에서 평가 측면과 정렬(alignment) 측면의 대리 실패(proxy failures)를 비교하기 위한 조직적 가설로서 EvalSafetyGap을 소개하며, 테스트 가능한 비교를 생성하기 위한 도구로 굿하트의 법칙 (Goodhart's Law)과 우리가 여기서 개발한 두 가지 구성 요소인 불안정성 분해 (Instability Decomposition) 및 정렬 삼중난제 (Alignment Trilemma)를 사용합니다. 감사를 통해 능력 (capability), 행동 안전성 (behavioral safety), 거버넌스가 각각 별도로 측정될 때 결론이 어떻게 변하는지 보여줍니다. 이 샘플 (n = 10)에서, 능력과 지속적인 적대적 강건성 (adversarial robustness) 사이의 연관성은 표시된 표 3의 입력을 사용할 때 통계적으로 불확정적이며 (Pearson r = +0.232, p = 0.520), 겉으로 드러나는 오픈-클로즈 안전 격차 (open-closed safety gap)는 미미합니다. 이는 주로 행동적 강건성보다는 거버넌스와 공개 여부에 의해 주도되며, 단일 경계선 모델이 어떻게 분류되는지에 따라 민감하게 반응합니다. 시도 예산 (attempt-budget) 결과는 프로토콜에 따라 달라집니다. 공개된 증거는 이질적인 프로토콜을 사용하기 때문에, 이 감사는 순위를 생성하기보다는 진단적인 성격을 띱니다. 본 연구의 기여는 동적 평가, 투명한 출처 보고, 다중 시도 안전 측정, 그리고 감사 가능한 정렬 관행을 지원하기 위한 공유된 어휘와 증거 지도를 제공하는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

EvalSafetyGap: LLM 평가-안전 실패에 관한 하이브리드 조사 및 개념적 프레임워크

요약

핵심 포인트

댓글