arXiv논문2026. 05. 20. 10:56

PAVE: 생성형 에이전트 사회에서의 정당한 위반을 위한 인지 아키텍처 (Cognitive Architecture)

요약

LLM 기반 생성형 에이전트가 비상 상황 등에서 규칙을 정당하게 위반할 수 있도록 설계된 새로운 인지 아키텍처 PAVE를 제안합니다. PAVE는 지각, 평가, 판결, 모사의 4개 모듈을 통해 상황의 심각성을 판단하고, 권위를 존중하면서도 필요한 경우에만 제한된 범위 내에서 규칙을 위반하는 구조화된 의사결정을 수행합니다.

핵심 포인트

PAVE는 Perception, Assessment, Verdict, Emulation의 4단계 모듈로 구성된 엔드 투 엔드 인지 아키텍처입니다.
에이전트가 정당한 위반, 권위 존중, 제한된 범위, 상태 회복이라는 네 가지 핵심 속성을 동시에 만족하도록 설계되었습니다.
Voville 환경에서의 실험 결과, PAVE는 기존 바닐라 모델보다 더 구조화되고 해석 가능한 결정을 내리며 인간 평가자로부터 높은 신뢰를 얻었습니다.
정당성 게이트(Legitimacy gate)가 에이전트의 합리적인 규칙 위반을 결정짓는 핵심 요소임을 입증했습니다.

대규모 언어 모델 (LLM) 기반의 생성형 에이전트 (Generative agents)는 협력적인 환경에서 믿을 만한 인간의 행동을 재현하지만, 화재 대피나 권위가 감독하는 비상 상황과 같이 규칙 위반이 필요할 수 있는 상황에서 이들이 어떻게 추론해야 하는지는 여전히 제대로 규명되지 않았습니다. 우리는 이러한 간극을 엔드 투 엔드 (end to end)로 해결하는 새로운 4개 모듈 인지 아키텍처 (cognitive architecture)인 PAVE (Perception, Assessment, Verdict, Emulation)를 제안합니다: (i) Perception (지각)은 명시적인 권위 거리 (authority distance), 동료의 행동, 그리고 심각도가 태깅된 상황적 단서가 포함된 구조화된 컨텍스트 (context)를 추출합니다; (ii) Assessment (평가)는 필요성, 비례성, 그리고 대안의 부재를 확인하는 명시적인 정당성 판단을 포함하여 5개의 스칼라 (scalar) 값을 따라 컨텍스트를 점수화합니다; (iii) Verdict (판결)는 페르소나 (persona)로부터 유도된 에이전트별 임계값 (threshold)을 바탕으로, 엄격한 정당성 게이트 (legitimacy gate) 하에서 준수할지 또는 위반할지를 결정합니다; (iv) Emulation (모사)은 판결을 실행하며, 위반의 범위를 트리거 (trigger)가 정당화하는 규칙으로 제한합니다. 우리는 Smallville에서 파생된 타일 기반 교통 환경인 Voville에 PAVE를 구현하였으며, 세 가지 시나리오, 네 가지 LLM 백본 (backbone), 그리고 집중적인 어블레이션 (ablation) 연구를 통해 평가를 수행했습니다. PAVE 에이전트는 네 가지 속성을 동시에 만족합니다: 정당한 위반 (트리거가 정당화할 때만 발생), 권위 존중 (경찰의 지시가 높은 정당성보다 우선함), 제한된 범위 (위반이 대상 규칙에 국한됨), 그리고 회복 (트리거가 종료되면 기본 상태로 복구됨). PAVE 에이전트는 네 가지 속성 모두에서 바닐라 (vanilla) 모델보다 더 구조화되고 해석 가능한 결정을 내리며, 인간 평가자들은 이들이 더 그럴듯하다고 평가했습니다. 정당성 게이트를 제거하는 어블레이션 실험에서는 바닐라 모델과 유사한 실패가 재현되었습니다. 우리는 Voville, PAVE 프롬프트 및 코드, 그리고 평가 파이프라인을 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PAVE: 생성형 에이전트 사회에서의 정당한 위반을 위한 인지 아키텍처 (Cognitive Architecture)

요약

핵심 포인트

댓글