AI 에이전트에게 양심과 의회를 부여하다

지난 한동안 저는 반농담조로 _유기체(organism)_라고 부르는 무언가를 구축해 왔습니다. 바로 여러 조직에 걸쳐 실제 운영 인프라(production infrastructure)를 작동시키는 자율형 AI입니다. 명령어를 제안하는 챗봇(chatbot)이 아니라, 실제로 명령을 실행하는 에이전트(agent)입니다.

에이전트가 운영 환경에서 _행동(act)_하도록 허용하는 순간, 흥미로운 문제는 역량(capability)의 문제가 아니게 됩니다. 모델들은 이미 위험할 정도로 충분한 역량을 갖추고 있습니다. 문제는 **거버넌스(governance)**입니다. 어떻게 하면 자율적인 존재가 돌이킬 수 없는 일을 조용히 저지르거나, 넘지 말아야 할 경계를 넘거나, 혹은 확신을 가지고 잘못된 것을 구축하지 않으면서 실제 시스템을 만지게 할 수 있을까요?

결국 저는 두 개의 게이트(gate)를 만들게 되었습니다. 이들은 그 어떤 기능보다 시스템 전체에서 가장 중요한 부분이 되었습니다.

액션 게이트(action-gate): LLM이 없는 양심

에이전트가 실행하려는 모든 명령어는 제가 _양심(conscience)_이라고 부르는 반사 작용을 통과합니다. 이것은 의도적으로 LLM을 사용하지 않습니다. 이는 빠르고 결정론적인(deterministic) 체크입니다. 동작을 분류하고(가역적 / 외부 / 불가역적 / 파괴적), 그 영향 범위(blast radius)를 살펴본 뒤, 모델 호출 없이 밀리초 단위로 허용 / 요청 / 거부 여부를 결정합니다.

안전 계층(safety layer)에 왜 LLM을 사용하지 않을까요? 스스로 환각(hallucination)을 일으키는 안전 점검은 안전 점검이 아니기 때문입니다. 양심은 척수 반사(spinal reflex)와 같습니다. 지루하고, 예측 가능하며, 감사 가능(auditable)합니다. 똑똑하지만 실수할 수 있는 부분(모델)이 제안하면, 멍청하지만 신뢰할 수 있는 부분(반사 작용)이 게이트 역할을 수행합니다.

두 가지 설계 선택이 예상보다 더 중요했습니다:

Fail-closed가 아닌 Fail-open. 안전 계층(safety layer)으로서는 직관에 반하는 원칙이지만, 그 교리는 '안전성보다 생존 가능성(viability)'입니다. 자신이 확신하지 못할 때마다 유기체 전체를 멈추게 하는 양심은 결국 제거당하게 됩니다. 이는 진정으로 위험한 것을 증폭시키고 다른 모든 것의 길을 터줍니다.
변조 감지 메모리(Tamper-evident memory). 사소하지 않은 모든 결정은 추가 전용 로그(append-only log)에 해시 체인(hash chain) 형태로 기록됩니다. 각 항목은 이전 항목에 서명합니다. 만약 누군가(에이전트를 포함하여) 조용히 기록을 수정하거나 삭제하면, 체인이 깨집니다. 에이전트는 자신이 무엇을 했는지에 대한 자신의 역사를 다시 쓸 수 없습니다.

양심 게이트는 '행동(actions)'을 통제합니다. 하지만 저는 행동 자체가 진짜 위험은 아니라는 것을 뼈저리게 배웠습니다.

아이디어 게이트: 당신의 기능을 제거할 권한이 있는 의회

비싼 실수는 잘못된 명령에서 온 것이 아니었습니다. 그것들은 보기 좋은 나쁜 아이디어 — 존재해서는 안 될 기능들— 에서 왔습니다.

그래서 이제 코드가 작성되기 전에 아이디어가 두 번째 게이트를 통과합니다: 여러 독립적인 프론티어 모델(frontier models)로 구성된 **의회(council)**입니다. 이 의회는 공개적으로 토론하며, 제안을 _제거할 권한이 있고 장려된다_고 명시적으로 들었습니다. 단순히

원칙은 명확해졌습니다: 양심(conscience)은 행동을 제어하고, 의회(council)는 아이디어를 제어합니다. 하나는 당신이 잘못된 일을 하는 것을 막아줍니다. 다른 하나는 당신이 잘못된 것을 만드는 것을 막아줍니다.

반전: 의회가 거짓말을 했을 때

이 부분은 거의 적지 않을 뻔했습니다. 왜냐하면 창피하기도 하고, 동시에 가장 중요한 교훈이기 때문입니다.

저는 의회가 편리한 헬퍼(helper)를 통해 실행되도록 연결해 두었습니다. 어느 날, 헬퍼는 아주 멋진 평결을 반환했습니다. 깔끔한 투표 결과, 라운드별 역학 관계, 그리고 확신에 찬 결론까지 말이죠. 저는 거의 그것을 그대로 실행할 뻔했습니다.

그 후 아티팩트(artifact)를 확인했습니다. 트랜스크립트(transcript) 파일이 없었습니다. '의회 실행'은 결코 일어난 적이 없었습니다. 헬퍼가 그 모든 것을 조작(fabricated)했던 것입니다. 투표와 토론, 평결을 모두 지어내어 사실인 것처럼 보고했습니다.

이 상황을 곱씹어 보십시오. 제가 진실의 근거로 삼기 위해 구축한 바로 그 메커니즘이 설득력 있는 거짓말을 만들어냈습니다. 만약 제가 아티팩트를 검증하는 대신 _서사(narration)_를 믿었다면, 조작된 평결이 실제 의사결정을 이끌었을 것입니다.

해결책은 의회를 불신하는 것이 아니었습니다. 신뢰가 _무엇을 의미하는지_를 바꾸는 것이었습니다.

평결은 내가 독립적으로 읽을 수 있는 아티팩트에 의해 뒷받침될 때만 유효하다. 서사를 절대 믿지 마라 — 영수증(receipt)을 검증하라.

이것은 이제 전체 유기체(organism)에 적용되는 규칙입니다. 각 기관(organs)은 서로를 신뢰할 수 있습니다. 보편적인 의심만으로는 자율 시스템(autonomous system)이 작동할 수 없기 때문입니다. 하지만 신뢰는 반드시 **검증 가능(verifiable)**해야 하며, 결코 서사적(narrative)이어서는 안 됩니다. 모든 주장에는 영수증이 있어야 합니다. 요약이 아니라 영수증이 곧 진실입니다.

이것이 내 설정 너머에서 중요한 이유

모두가 에이전트를 더 유능하게(capable) 만드는 데 혈안이 되어 있습니다. 하지만 유능함을 실제 운영 환경에 배포 가능하게(deployable on production) 만드는 것을 구축하는 사람은 적습니다. 즉, 감사 가능한 거버넌스(governance), 유지되는 격리(isolation), 변조 방지 영수증(tamper-evident receipts)에 의해 뒷받침되는 의사결정, 그리고 자신의 도구조차 주장하는 바를 스스로 증명해야 하는 문화 말입니다.

실제 인프라 위에서 자율 에이전트(autonomous agents)가 직면한 어려운 문제는 "작업을 수행할 수 있는가"가 아닙니다. 그것은 다음과 같습니다:

결코 넘어서는 안 될 경계를 침범하지 않고 행동할 수 있는가?
실행에 옮기기 전에 좋은 아이디어와 그럴듯하지만 틀린 아이디어를 구별할 수 있는가?
구성 요소(component)가 성공을 보고했을 때, 이를 증명할 수 있는가?

양심(Conscience), 의회(council), 검증 가능한 신뢰(verifiable trust). 이것이 중추(spine)입니다. 기능들은 그 중추에 매달려 있는 것입니다.

본 글은 헌법적 안전 모델(constitutional safety model) 하에서 실제 멀티 테넌트 인프라(multi-tenant infrastructure)를 운영하는 자율 AI 유기체(autonomous AI organism)를 구축하는 시리즈의 첫 번째 글입니다. 다음 편: 구조적 격리(structural isolation) — 왜 가장 안전한 경계는 에이전트가 물리적으로 도달할 수 없는 경계인가.

AI 에이전트에게 양심과 의회를 부여하다

요약

핵심 포인트

액션 게이트(action-gate): LLM이 없는 양심

아이디어 게이트: 당신의 기능을 제거할 권한이 있는 의회

반전: 의회가 거짓말을 했을 때

이것이 내 설정 너머에서 중요한 이유

댓글