arXiv논문2026. 06. 24. 11:12

AutoSpec: 귀납 논리 프로그래밍 (ILP)을 통한 LLM 에이전트용 안전 규칙 진화

요약

AutoSpec은 귀납 논리 프로그래밍(ILP)과 반례 유도 합성(CEGIS)을 결합하여 LLM 에이전트용 안전 규칙을 자동으로 생성하는 프레임워크입니다. 기존 수작업 규칙의 취약점과 신경망 분류기의 낮은 해석 가능성을 극복하여, 정밀도와 재현율이 높은 해석 가능한 규칙을 진화시킵니다.

핵심 포인트

ILP를 활용해 규칙 편집의 탐색 공간을 획기적으로 가지치기함
거짓 양성과 거짓 음성을 최소화하는 해석 가능한 규칙 생성
코드 실행 및 체화된 에이전트 도메인에서 높은 F1 점수 달성
기존 휴리스틱 방식 대비 최대 4.8배 높은 성능 기록

대규모 언어 모델 (LLM) 에이전트는 언어 모델을 외부 도구 및 환경과 통합함으로써 복잡한 작업을 점점 더 자동화하고 있습니다. 그러나 이러한 자율성은 상당한 안전 위험을 초래합니다. 에이전트가 파괴적인 명령을 실행하거나, 민감한 데이터를 유출하거나, 도메인 제약 조건을 위반할 수 있기 때문입니다. 기존의 안전 접근 방식은 근본적인 트레이드오프 (tradeoff)에 직면해 있습니다. 수작업으로 제작된 규칙은 해석 가능하지만 취약하며, 지나치게 보수적인 규칙은 안전한 동작을 차단하고 (높은 거짓 양성, false positives), 허용적인 규칙은 안전하지 않은 동작을 놓칩니다 (높은 거짓 음성, false negatives). 신경망 분류기 (Neural classifiers)는 안전이 중요한 배포에 필요한 해석 가능성이 부족합니다.

우리는 귀납 논리 프로그래밍 (ILP)에 의해 가이드되는 반례 유도 합성 (CEGIS)을 통해, 사용자의 안전/불안전 주석으로부터 배포된 전문가 설계 안전 규칙을 자동으로 진화시키는 프레임워크인 AutoSpec을 제시합니다. 전문가 규칙과 주석이 달린 트레이스 (traces) 스트림에서 시작하여, AutoSpec은 규칙을 반복적으로 평가하고, 거짓 양성 및 거짓 음성 반례를 마이닝하며, ILP를 사용하여 어떤 술어 (predicates)가 이들을 구별하는지 학습하고, 후보 규칙 편집을 생성하며, 후보를 검증하여 최선의 수정안을 선택합니다. 핵심 통찰은 ILP가 거짓 음성에는 빈번하게 나타나지만 거짓 양성에는 거의 나타나지 않는 술어(또는 그 반대)를 효율적으로 식별하여, 규칙 편집의 지수적인 탐색 공간을 획기적으로 가지치기(pruning)한다는 점입니다. 이 과정은 수렴할 때까지 계속되어 정밀도 (precision)와 재현율 (recall)의 균형을 맞추는 해석 가능한 규칙을 생성합니다.

우리는 코드 실행 및 체화된 에이전트 (embodied agent) 도메인을 아우르는 291개의 실행 트레이스에 대해 AutoSpec을 평가합니다. AutoSpec은 두 도메인에서 규칙 F1 점수를 각각 0.98과 0.93으로 높였으며, 높은 재현율을 유지하면서 최대 94%의 거짓 양성 감소를 달성하였고, 4~5회 반복 내에 수렴합니다. ILP 가이드 방식은 휴리스틱 CEGIS보다 최대 4.8배 높은 F1을 달성합니다. 학습된 규칙은 사람이 읽을 수 있고, 감사가 가능하며, 보지 못한 시나리오에도 일반화됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

AutoSpec: 귀납 논리 프로그래밍 (ILP)을 통한 LLM 에이전트용 안전 규칙 진화

요약

핵심 포인트

댓글