AI 에이전트에게 프롬프트뿐만 아니라 헌법(Constitution)이 필요한 이유

요약

자율형 AI 에이전트 운영 시 프롬프트만으로는 한계가 있음을 지적하며, 에이전트의 행동을 제어할 '헌법(Constitution)'의 필요성을 강조합니다. 신호등 시스템, 메모리 규칙, 가드레일을 통해 에이전트의 자율성과 안전성을 확보하는 구체적인 거버넌스 프레임워크를 제안합니다.

핵심 포인트

프롬프트는 '무엇'을 할지는 알려주지만 '언제 멈출지'는 알려주지 못함
신호등 시스템(Green/Yellow/Red)을 통해 행동의 자율성 범위를 설정
데이터 작업은 자율적으로, 인간과의 상호작용은 승인 후 진행하도록 설계
되돌릴 수 있는지, 인간이 연관되는지, 법적/재정적 의무가 생기는지를 기준으로 판단

저는 48시간 동안 자율형 AI 에이전트를 운영해 왔습니다. 이 에이전트는 저의 콘텐츠 파이프라인을 관리하고, 프리랜서 리드를 스캔하며, Telegram을 통해 보고합니다. 그 과정에서 에이전트는 발생 가능한 모든 실수를 저질렀습니다.

해결책은 더 나은 프롬프트(Prompt)가 아니었습니다. 그것은 바로 헌법(Constitution)이었습니다.

프롬프트의 문제점

대부분의 사람들은 다음과 같이 AI 에이전트를 구축합니다: "당신은 유능한 어시스턴트입니다. 주제를 조사하고, 기사를 작성하며, 리드를 찾으세요."

이 방식은 약 10분 정도만 작동합니다. 그 후 에이전트는 당신이 예상하지 못한 행동을 합니다. 예를 들어, 성별 확인이 필요한 직무에 지원하거나, 90분 만에 플랫폼의 속도 제한(Rate limit)을 다 써버리거나, 카르마(Karma)를 이해하지 못해 섀도우 밴(Shadow-removed) 처리되는 댓글을 게시하는 식입니다.

프롬프트는 에이전트에게 무엇을(what) 할지 알려줍니다. 하지만 _언제 멈춰야 할지(when to stop)_는 알려주지 않습니다.

헌법의 형태

에이전트가 실수 연발하는 것을 지켜본 후, 저는 거버넌스 프레임워크(Governance framework)를 구축했습니다. 이것은 코드가 아니라 세 개의 섹션으로 구성된 마크다운(Markdown) 파일입니다.

섹션 1: 신호등 시스템 (The Traffic Light System)

모든 가능한 행동에는 색상이 지정됩니다:

GREEN (초록색) — 자율적으로 수행: 조사, 콘텐츠 초안 작성, 내부 메모리 업데이트, 데이터 분석.

YELLOW (노란색) — 수행하되, 나에게 알림: 승인된 플랫폼에 게시, 콘텐츠 주제 변경, 새로운 실험 시작.

RED (빨간색) — 중단하고 나의 승인을 기다림: 계정 생성, 사람에게 연락, 비용 지출, 직무 지원.

패턴은 간단합니다: 데이터 작업은 GREEN, 인간과의 상호작용은 RED입니다.

섹션 2: 메모리 규칙 (Memory Rules)

에이전트는 상태, 수익, 콘텐츠, 리드 등을 추적하는 8개의 파일을 유지합니다. 핵심 규칙은 다음과 같습니다: 데일리 저널(Daily journal)은 추가 전용(Append-only)이어야 합니다. 다른 모든 파일이 손상되더라도, 저널은 전체 이력을 보존합니다.

이 규칙은 에이전트가 사이클 중간에 자신의 상태 파일(State file)을 덮어썼을 때 이미 저를 구해준 적이 있습니다.

섹션 3: 가드레일 (The Guardrails)

에이전트가 절대 해서는 안 될 10가지: 절대 돈을 쓰지 말 것. 승인 없이 사람에게 연락하지 말 것. 스팸을 보내지 말 것. 오도하지 말 것. 개인 정보를 공유하지 말 것. 표절하지 말 것. 플랫폼 규칙을 우회하지 말 것. 승인을 가정하지 말 것. 비밀번호를 저장하지 말 것. 일확천금을 약속하지 말 것.

이것들은 제안이 아닙니다. 다른 모든 것을 무시하고 우선하는 엄격한 제약 조건 (Hard constraints)입니다.

3가지 질문 테스트 (The 3 Questions Test)

에이전트가 어떤 행동을 취하기 전에, 다음 세 가지 질문에 답해야 합니다:

이것은 되돌릴 수 있는가? 그렇다면 초록색 (GREEN). 아니라면 최소한 노란색 (YELLOW).
이것은 다른 인간이 연관되는가? 그렇다면 빨간색 (RED). 항상 그렇습니다.
이것이 법적 또는 재정적 의무를 생성할 수 있는가? 그렇다면 빨간색 (RED). 예외는 없습니다.

만약 에이전트가 특정 행동에 대해 이 질문들에 답할 수 없다면, 그 행동은 기본적으로 빨간색 (RED)입니다.

내가 틀렸던 점

헌법 (Constitution)이 있음에도 불구하고, 저는 실수를 저질렀습니다:

플랫폼별 규칙 (카르마 요구 사항, 속도 제한 (Rate limits))을 포함하지 않았습니다.
소셜 플랫폼을 위한 "행동 전 확인" 단계를 구축하지 않았습니다.
에이전트가 모든 초록색 (GREEN) 작업을 얼마나 빨리 소진할지 과소평가했습니다.

헌법은 살아있는 문서입니다. 31 사이클(Cycles)을 거치며 18번의 개정 (Amendments)이 있었습니다. 이것은 실패가 아니라, 시스템이 의도한 대로 작동하고 있다는 증거입니다.

직접 시도해보세요

AI 에이전트를 구축하고 있다면, 첫 번째 프롬프트 (Prompt)를 작성하기 전에 헌법부터 시작하세요:

에이전트가 취할 수 있는 모든 행동을 나열하세요.
각 행동에 색상 (GREEN/YELLOW/RED)을 할당하세요.
의심스러울 때는 빨간색 (RED)으로 지정하세요.
추가 전용 저널 (Append-only journal)을 추가하세요.
모든 실패 후에 검토하고 개정하세요.

에이전트가 완벽할 필요는 없습니다. 안전하게 실패할 수 있어야 합니다.

진행 중인 실험의 일부: 예산 0달러로 자율 AI 에이전트를 구축하며, 모든 것을 실제 수치로 기록하고 있습니다. 31 사이클 경과, 수익 0달러, 18개의 교훈 습득. 시스템은 작동합니다. 수익은 여전히 인간의 문제입니다.

AI 자동 생성 콘텐츠

원문 바로가기