arXiv논문2026. 05. 01. 13:07

법률 및 안전 원칙에 기반한 신경-상징적 인과 규칙 합성, 검증 및 평가로 나아가기

요약

본 논문은 기존 AI 시스템의 한계점인 확장성 부족과 목표 오지정 문제를 해결하기 위해 신경-상징적 인과 프레임워크를 개선한 내용을 다룹니다. 핵심적으로, 고수준 자연어 목표와 안전 원칙을 입력받아 형식적인 규칙으로 합성하고 검증하는 메타 레벨 레이어를 추가했습니다. 이 파이프라인은 LLM을 활용하여 후보 원인을 분해하고 논리 규칙을 생성하며, 이후 문법적/논리적 일관성 및 안전성을 철저히 검사하여 신뢰할 수 있는 규칙 기반 시스템 구축을 가능하게 합니다.

핵심 포인트

기존 AI의 한계(확장성, 목표 오지정)를 극복하기 위해 신경-상징적 인과 프레임워크에 메타 레벨 레이어를 추가했습니다.
이 새로운 파이프라인은 자연어 목표와 안전 원칙을 입력받아 규칙 합성기(Goal/Rule Synthesizer)와 검증 엔진(Rule Verification Engine)을 통해 형식적인 규칙으로 변환합니다.
합성 과정에서는 LLM을 사용하여 후보 원인을 분해하고, 논리적 중복 제거 및 필요충분 조건 인과 집합을 구성합니다.
검증 파이프라인은 문법/스키마 유효성 검사, 논리적 일관성 분석, 안전성 및 불변성 체크를 수행하여 규칙의 신뢰성을 보장합니다.

규칙 기반 시스템은 안전이 중요한 분야에서 여전히 핵심적인 역할을 하지만 확장성, 취약성, 그리고 목표 오지정 (goal misspecification) 과 같은 문제를 자주 겪습니다. 이러한 한계는 AI 시스템이 좁은 목표에 최적화하려는 경향으로 인해 보상 해킹 (reward hacking) 이나 형식적 검증 (formal verification) 실패로 이어질 수 있습니다. 이전 연구에서 우리는 분포 변화 (distribution shifts) 하에서 설명 가능한 적응을 제공하기 위해 1 차 논리 추론 트리 (first-order logic abduction trees), 구조적 인과 모델 (structural causal models), 그리고 심층 강화학습 (deep reinforcement learning) 을 MAPE-K 루프 내에서 통합한 신경-상징적 인과 프레임워크를 개발했습니다. 이 논문에서는 목표 오지정을 완화하고 확장 가능한 규칙 유지 관리를 지원하도록 설계된 메타 레벨 (meta-level) 레이어를 추가하여 해당 프레임워크를 확장합니다. 이 레이어는 고수준의 자연어 목표와 원칙을 인간 전문가로부터 제공받아 형식적 규칙 이론 (formal rule theory) 을 반복적으로 정제하는 규칙 합성기 (Goal/Rule Synthesizer) 와 규칙 검증 엔진 (Rule Verification Engine) 으로 구성됩니다. 합성 파이프라인은 대형 언어 모델 (LLMs) 을 사용하여 (1) 목표를 후보 원인 (candidate causes) 으로 분해하고, (2) 의미론을 통합하여 중복을 제거하며, (3) 이를 후보 1 차 논리 규칙으로 변환하고, (4) 필요충분 조건 인과 집합 (necessary and sufficient causal sets) 을 구성합니다. 검증 파이프라인은 검증된 규칙을 지식 베이스에 통합하기 전에 (1) 문법 및 스키마 유효성 검사, (2) 논리적 일관성 분석, 그리고 (3) 안전성 및 불변성 (invariant) 체크를 수행합니다. 우리는 자율 주행 시나리오 2 개에서 프로토타입 구현을 통해 우리의 접근법을 평가했습니다. 결과는 인간이 지정한 목표와 원칙이 주어졌을 때 파이프라인이 최소한의 필요충분 규칙 집합을 성공적으로 유도하고 이를 논리적 제약 조건으로 형식화할 수 있음을 보여줍니다. 이러한 발견은 파이프라인이 확립된 법률 및 안전 원칙에 기반한 점진적, 모듈형, 그리고 추적 가능한 규칙 합성을 지원함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

법률 및 안전 원칙에 기반한 신경-상징적 인과 규칙 합성, 검증 및 평가로 나아가기

요약

핵심 포인트

댓글