arXiv논문2026. 06. 26. 11:46

AutoSpec: 귀납 논리 프로그래밍 (ILP)을 통한 LLM 에이전트용 안전 규칙 진화

요약

AutoSpec은 귀납 논리 프로그래밍(ILP)을 활용하여 LLM 에이전트의 안전 규칙을 자동으로 생성하고 진화시키는 프레임워크입니다. CEGIS 방식을 통해 해석 가능한 규칙을 도출하며, 기존 방식보다 높은 정밀도와 재현율을 보여줍니다.

핵심 포인트

ILP를 활용해 규칙 편집의 탐색 공간을 효율적으로 가지치기함
해석 가능하고 감사가 가능한 안전 규칙 자동 생성
코드 실행 및 체화된 에이전트 도메인에서 높은 F1 점수 달성
위양성을 최대 94%까지 감소시키며 높은 재현율 유지

대규모 언어 모델 (LLM) 에이전트는 언어 모델을 외부 도구 및 환경과 통합함으로써 복잡한 작업을 점점 더 자동화하고 있습니다. 그러나 이러한 자율성은 심각한 안전 위험을 초래합니다. 에이전트가 파괴적인 명령을 실행하거나, 민감한 데이터를 유출하거나, 도메인 제약 조건을 위반할 수 있기 때문입니다. 기존의 안전 접근 방식은 근본적인 트레이드오프(tradeoff)에 직면해 있습니다. 수작업으로 제작된 규칙은 해석 가능하지만 취약하며, 지나치게 보수적인 규칙은 안전한 동작을 차단하고 (높은 위양성, false positives), 허용적인 규칙은 안전하지 않은 동작을 놓칩니다 (높은 위음성, false negatives). 신경망 분류기(Neural classifiers)는 안전이 중요한 배포에 필요한 해석 가능성이 부족합니다.

우리는 귀납 논리 프로그래밍 (ILP)에 의해 가이드되는 반례 유도형 귀납적 합성 (CEGIS)을 통해, 사용자의 안전/불안전 주석으로부터 배포된 전문가 설계 안전 규칙을 자동으로 진화시키는 프레임워크인 AutoSpec을 제시합니다. 전문가 규칙과 주석이 달린 트레이스(traces) 스트림에서 시작하여, AutoSpec은 규칙을 반복적으로 평가하고, 위양성 및 위음성 반례를 채굴하며, ILP를 사용하여 어떤 술어(predicates)가 이들을 구별하는지 학습하고, 후보 규칙 편집을 생성하며, 후보를 검증하여 최선의 수정안을 선택합니다. 핵심 통찰은 ILP가 위음성에서는 빈번하게 나타나지만 위양성에서는 드물게 나타나는 술어(또는 그 반대)를 효율적으로 식별하여, 규칙 편집의 기하급수적인 탐색 공간을 획기적으로 가지치기(pruning)한다는 점입니다. 이 과정은 수렴할 때까지 계속되어 정밀도(precision)와 재현율(recall)의 균형을 맞추는 해석 가능한 규칙을 생성합니다.

우리는 코드 실행 및 체화된 에이전트 (embodied agent) 도메인에 걸친 291개의 실행 트레이스를 통해 AutoSpec을 평가합니다. AutoSpec은 두 도메인에서 규칙 F1 점수를 각각 0.98과 0.93으로 높였으며, 높은 재현율을 유지하면서 위양성을 최대 94%까지 감소시켰고, 4~5회 반복 내에 수렴합니다. ILP 가이드 접근 방식은 휴리스틱 CEGIS보다 최대 4.8배 높은 F1을 달성합니다. 학습된 규칙은 사람이 읽을 수 있고, 감사가 가능하며, 보지 못한 시나리오에도 일반화됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

AutoSpec: 귀납 논리 프로그래밍 (ILP)을 통한 LLM 에이전트용 안전 규칙 진화

요약

핵심 포인트

댓글