arXiv논문2026. 05. 28. 12:08

확장 가능한 감독을 위한 보수성 보정 (Calibrating Conservatism for Scalable Oversight)

요약

인간의 능력을 초과하는 에이전트형 AI를 효과적으로 제어하기 위한 '보정된 집단 감독(CCO)' 방법론을 제안합니다. 공형 결정 이론을 활용해 통계적 보증을 제공하며, 감독자의 우려에 비례하여 페널티를 부여함으로써 안전성과 효용을 동시에 확보합니다.

핵심 포인트

보정된 집단 감독(CCO) 방법론 제안
공형 결정 이론을 통한 온라인 보수성 보정
분포 가정 없는 유한 시간 경계 내 안전 보장
SWE-bench 및 MACHIAVELLI 환경에서 성능 검증

자율적인 계획 수립과 확장된 환경 상호작용이 가능한 에이전트형 AI (Agentic AI) 시스템은 근본적인 제어 문제를 제기합니다. 즉, 인간이 자신의 능력을 초과할 수 있는 시스템에 대해 어떻게 의미 있는 감독 (Oversight)을 유지할 수 있는가 하는 점입니다. 기존의 확장 가능한 감독 (Scalable Oversight) 접근 방식은 복잡한 가정에 의존하거나, 대체로 휴리스틱 (Heuristic)에 머물러 있으며, 통계적 보증이 있는 순차적 설정 (Sequential settings)을 위한 실질적인 방법론이 부족합니다. 본 논문에서는 다양한 보조 점수 함수 (Auxiliary scoring functions)를 보수적인 기준선 (Conservative baseline)으로부터의 편차를 측정하는 페널티로 집계하는 보정된 집단 감독 (Calibrated Collective Oversight, CCO)을 소개합니다. 달성 가능한 효용 보존 (Attainable Utility Preservation)에서 영감을 얻은 CCO는 집단적 보수성 (Collective conservatism)을 가능하게 합니다. 즉, 행동은 감독자의 우려 (Concern)에 비례하는 페널티를 받게 되므로, 감독자가 해당 행동에 이의가 없다고 판단하면 높은 효용을 가진 행동이 여전히 선택되며, 우려가 누적될 때만 해당 행동이 차단됩니다. CCO는 공형 결정 이론 (Conformal Decision Theory)을 사용하여 이러한 보수성을 온라인으로 보정하며, 분포 가정 (Distributional assumptions) 없이 유한 시간 경계 (Finite-time bounds) 내에서 바람직하지 않은 결과가 사용자가 지정한 목표 임계값 미만으로 유지되도록 보장합니다. 수정된 SWE-bench 버전에서, 더 약한 감독자는 적대적으로 정렬되지 않은 (Adversarially misaligned) 더 강력한 에이전트를 성공적으로 제약했습니다. MACHIAVELLI 환경에서 CCO는 보상 (Reward)을 유지하면서도 윤리적 위반을 실질적으로 감소시켰습니다. 두 설정 모두에서 실증적인 위반율은 이론이 예측한 바와 같이 지정된 목표치와 밀접하게 일치했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

확장 가능한 감독을 위한 보수성 보정 (Calibrating Conservatism for Scalable Oversight)

요약

핵심 포인트

댓글