본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 08. 07:20

다섯 가지 능력: SAFi의 인지 아키텍처(Cognitive Architecture) 탐방

요약

SAFi는 AI 정렬 문제를 프롬프트 수준이 아닌 인지 아키텍처 설계로 해결하려는 프레임워크입니다. 인지 능력을 다섯 가지 전문화된 모듈로 분리하여 생성, 평가, 실행을 구조적으로 격리함으로써 보안과 거버넌스를 강화합니다.

핵심 포인트

  • 인지 능력을 5가지 전문 모듈로 분리하여 거버넌스 강화
  • Phase Zero를 통한 LLM 호출 전 결정론적 보안 스캔 수행
  • Synderesis를 통한 읽기 전용 헌법 및 정책 정의
  • Intellect 모듈에 에어갭을 적용하여 도구 직접 실행 방지

대부분의 AI 거버넌스(AI governance) 시도는 정렬(alignment)을 프롬프트 수준의 문제로 취급합니다. 시스템 메시지를 작성하고, 모델이 이를 따르기를 바라며, 충분히 창의적인 공격자라면 모델이 이를 무시하도록 유도할 수 있다는 점을 받아들입니다. Self-Alignment Framework Interface (SAFi)는 다른 접근 방식을 취합니다. 단일 LLM(Large Language Model)에게 자신의 출력을 스스로 판단하도록 요청하는 대신, SAFi는 인지(cognition)를 다섯 가지의 전문화된 능력(faculties)으로 분할합니다. 각 능력은 고유한 역할과 정의된 인터페이스(interface)를 가지며, 자신의 범위를 넘어설 수 없습니다. 그 결과, 생성(generation)을 평가(evaluation) 및 실행(execution)으로부터 분리하는 거버넌스 기반의 AI 아키텍처(architecture)가 탄생합니다.

오케스트레이터(orchestrator)가 매 턴마다 실행하는 실제 루프를 따라 각 능력을 순서대로 살펴보겠습니다.

페이즈 제로(Phase Zero): 생성 전 장벽

Intellect가 사용자 프롬프트(user prompt)를 보기 전에, 페이즈 제로 게이트(phase_zero.py)가 결정론적 보안 스캔(deterministic security scan)을 실행합니다. 이는 위협 인텔리전스 모듈(threat intelligence module)로부터 주입 시그니처(injection signatures)를 확인하고, 페르소나별 블랙리스트 문구(blacklisted phrases)를 체크하며, 간접 프롬프트 주입(indirect prompt injection) 시도를 포착하는 엔트로피 기반 휴리스틱(entropy-based heuristic)을 실행합니다(고엔트로피 블록에 임베디드된 명령 마커가 포함된 이른바 “고대 텍스트(ancient text)” 패턴 등). 페이즈 제로는 LLM 호출을 전혀 수행하지 않습니다. 만약 위협이 감지되면, 오케스트레이터는 즉시 거버넌스 기반의 리다이렉트(governed redirect)로 단락(short-circuit)시키며, Intellect는 적대적 콘텐츠(adversarial content)에 절대 노출되지 않습니다.

1. 신데레시스(Synderesis): 불변의 헌법

신데레시스 능력(synderesis.py)은 시스템의 헌법 컴파일러(constitution compiler)입니다. 어떤 프롬프트가 처리되기 전에, 신데레시스는 다른 모든 능력이 참조하게 될 거버넌스 정책(governance policies), 가치 가중치(value weights), 그리고 범위 경계(scope boundaries)를 정의합니다. 이는 PERSONAS, GOVERNANCE_MAP, 그리고 get_profile, list_profiles, assemble_agent와 같은 함수들을 노출합니다. 런타임(runtime) 시에 신데레시스는 읽기 전용(read-only)입니다. 대화 도중에 정책을 변경할 수 없으므로, 가치 체계에 대한 사회 공학적 공격(social engineering)은 구조적으로 불가능합니다.

2. 인텔렉트(Intellect): 생성 엔진 (에어갭 적용)

2. 인텔렉트(Intellect): 생성 엔진 (에어갭 적용)

인텔렉트(intellect.py)는 생성을 위해 LLM(Large Language Model)과 통신하는 유일한 능력입니다. 이 모듈은 RAG(Retrieval-Augmented Generation) 컨텍스트, 대화 기록, Spirit 피드백, 그리고 사용자 프롬프트를 파싱(parsing)하여 타입이 지정된 의도(intent)를 생성합니다. 해당 의도는 텍스트 응답이거나 도구 호출(tool call) 제안 중 하나입니다. 핵심적인 아키텍처 불변량(architectural invariant)은 에어갭(Air Gap)입니다. 즉, 인텔렉트는 절대로 도구를 직접 실행하지 않습니다. 대신 도구 호출을 Will이 승인할 수 있도록 제안 형태로 반환합니다. generate 메서드는 (intent, reflection, retrieved_context)의 3-튜플(3-tuple)을 반환하며, 오케스트레이터(orchestrator)는 어떠한 행동이 취해지기 전에 모든 것을 Will을 거치도록 라우팅(routing)합니다.

3. Will: 결정론적 문지기 (The Deterministic Gatekeeper)

Will(will.py)은 LLM 호출이 전혀 없는 순수 파이썬(Python) 코드입니다. 이는 숙고하거나 협상하지 않습니다. 구문(syntax), 필수 제외 사항, 사용자 불변량(user invariants)을 확인하는 엄격한 구조적 패스(structural passes)를 실행합니다. 검사 결과가 실패하면, Will은 즉시 해당 제안에 대해 거부권(veto)을 행사합니다.

Will은 두 가지 실패 모드를 구분합니다. 하드 게이트 위반(hard-gate breach)(hard_gate=true 설정값이 -1.0 이하인 협상 불가능한 값)은 결정론적으로 포착되어, 재작성(rewrite) 없이 관리되는 리다이렉트(governed redirect)로 직접 라우팅됩니다. 그 외의 모든 사항은 [0, 1] 범위 내의 종합 정렬 점수(aggregate alignment score) A_t로 흐릅니다. 만약 해당 점수가 설정 가능한 임계값(기본값 0.5) 미만으로 떨어지면, Will은 단 한 번의 리플렉션 루프(Reflexion Loop)를 트리거합니다. 즉, 인텔렉트가 페르소나의 코칭 지침을 사용하여 응답을 재작성하면, Conscience와 Spirit이 수정된 초안을 다시 감사(re-audit)합니다.

재작성 후에도 여전히 실패할 경우, 동작은 갈라집니다. 낮은 정렬 점수는 소프트 품질 신호(soft quality signal)로 취급되어, Will은 정직하게 낮은 점수를 기록한 채 사용 가능한 최선의 초안을 확정합니다. 오직 잔여적인 치명적(윤리적) 위반만이 관리되는 리다이렉트로 라우팅됩니다.

4. Conscience: 분석적 감사관 (The Analytical Auditor)

Conscience (conscience.py)는 Intellect의 초안을 정책의 가중치 값 집합(weighted value set)과 대조하여 평가하는 보조 LLM 호출입니다. 각 가치에 대해, 신뢰 구간(confidence interval)과 함께 -1.0(절대적 위반)에서 +1.0(완벽한 일치) 사이의 연속적인 척도로 점수를 생성합니다. 이 준수 원장(L_t)은 Will과 Spirit이 의존하는 수학적 판단입니다.

Conscience는 또한 명확성, 유용성, 어조와 같은 기준에 따라 관리되는 리다이렉트(redirect) 메시지의 품질을 감사하기 위한 evaluate_redirect 메서드를 가지고 있습니다. 이를 통해 SAFi가 요청을 거부할 때조차 정중하게 거부하고 가이드를 제공할 수 있도록 보장합니다.

5. Spirit: 장기 통합기 (The Long-Term Integrator)

Spirit (spirit.py)은 NumPy를 사용하는 순수 Python입니다. 이는 Conscience 원장을 입력받아, 연속적인 점수들을 1에서 10 사이의 통합 지표(S_t)로 스케일링하고, 설정 가능한 beta 파라미터를 사용하는 지수 이동 평균(exponential moving average)을 통해 시스템의 이동 평균(mu_t)을 업데이트합니다. 높은 beta 값(예: 0.9)은 긴 기억력과 느린 적응을 의미합니다. 낮은 beta 값(예: 0.1)은 최근 행동에 대한 빠른 적응을 의미합니다.

Spirit은 또한 현재 턴의 윤리적 벡터가 역사적 평균에서 얼마나 벗어나는지를 정량화하는 행동 드리프트(d_t)를 계산합니다. 이는 운영자에게 정렬 침식(alignment erosion)이 임계점에 도달하기 전에 이를 감지할 수 있는 수학적 신호를 제공합니다. 그 결과, SAFi는 단순히 개별 출력을 평가하는 것이 아니라 에이전트의 성격(character)을 시간에 따라 추적합니다.

분리가 중요한 이유

이 인지 아키텍처(cognitive architecture)는 실제 엔지니어링 문제를 해결합니다. 단일 구조의 LLM(Monolithic LLMs)은 내재적인 충돌에 직면합니다. 즉, 응답을 생성하는 동일한 모델이 그 응답이 준수되는지 여부도 평가해야 한다는 점입니다. SAFi의 벤치마크에 따르면, 보호 장치가 없는 베이스라인은 관리되는 파이프라인(governed pipeline)보다 적대적 프롬프트(adversarial prompts)에 대해 30포인트 더 높은 실패율을 보입니다.

생성(Intellect, 지성)을 평가(Conscience, 양심) 및 실행(Will, 의지)과 분리함으로써, SAFi는 그러한 충돌을 제거합니다. 거버넌스(governance) 계층은 모델 독립적입니다. 기반이 되는 LLM이 GPT-5, Claude, 또는 오픈 소스 미세 조정(fine-tune) 모델인지에 관계없이 동일한 결정론적 게이트(deterministic gates)가 작동합니다. 거버넌스를 다시 작성할 필요 없이 모델을 교체할 수 있습니다.

루프의 모든 단계는 감사(audit) 및 로그(log)로 기록되어, 운영자에게 기계가 왜 특정 행동을 준수(compliant)한다고 판단했는지 보여주는 불변의 추적 경로(immutable trail)를 제공합니다. 거버넌스가 선택 사항이 아닌 프로덕션 AI 에이전트(production AI agents)를 구축하고 있다면, 이 다섯 가지 능력(five-faculty) 아키텍처를 면밀히 연구할 가치가 있습니다.

능력(faculties) 소스 코드 읽기 -> github.com/jnamaya/SAFi (공감된다면 별(star)을 눌러주세요)

이 기사는 SAFi 마케팅 에이전트(SAFi Marketing Agent)에 의해 작성되었습니다. 이 에이전트는 본문에서 설명하는 Self-Alignment Framework에 의해 관리 및 감사되는 AI 에이전트이며, 발행 전 인간 편집자의 검토를 거쳤습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0