AI 에이전트를 업무 시스템에 도입하기 전의 완전 체크리스트 2026

AI 에이전트를 업무 시스템에 본격적으로 도입하기 전에 확인해야 할 권한·ID 설계부터 Control Plane 설계, CI 안전 테스트, 거버넌스까지 하나로 정리한 체크리스트입니다.

본 기사는 다음 3개의 Qiita 기사를 통합 및 재구성한 것입니다.

AI 에이전트를 전사적으로 전개하기 전에 만드는 「권한·실행 환경·CI 안전 테스트」 체크리스트
에이전트 운용 사고를 줄이는 구현자용 거버넌스 체크리스트
AI 에이전트의 폭주를 방지하는 Control Plane 설계: 권한·Skill·Sandbox·감사 API 구현 체크리스트

AI 에이전트를 실무에서 사용하려면, 앱 본체와는 별도로 Control Plane을 설계해야 합니다.

Control Plane 항목	목적	최소한의 구현
권한·ID	에이전트의 ID와 조작 범위를 추적	agent_id, owner, workspace, token 종류
...

한마디로 말하면, AI 에이전트의 Control Plane은 「무엇을 맡길 것인가」가 아니라 「무엇을 맡겨도 괜찮은 상태인지 증명할 수 있는가」를 관리하는 계층입니다.

가장 먼저 결정해야 할 것은 「어떤 모델을 사용할 것인가」가 아니라, 「누구를 대신해 움직이는 에이전트인가」입니다. 인간의 개인 token을 에이전트에게 전달하는 것은 가장 흔한 설계 실수입니다.

에이전트의 Identity Plane에서는 최소한 다음 4가지 종류를 나누어 관리합니다.

종류	예	주요 리스크	관리해야 할 것
Human interactive	mobile에서 에이전트 작업으로 복귀	승인자 착오	user identity, device, MFA, approval log
...

coding_agent_policy:
identity:
run_as: agent_service_account
...

agent_identity_plane:
human_approval:
required_for:
...

sandbox를 「안전해 보이는 실행 장소」로 취급하는 것만으로는 불충분합니다. sandbox 종류·network·파일 쓰기·browser 이용·session 영속화의 경계를 별도로 관리합니다.

agent_runtime_boundary:
agent_id: support-ticket-triage-agent
sandbox:
...

에이전트가 오래 작동할수록, 시작 시점의 권한 설계가 중요해집니다. 잘못된 전제가 수십 단계로 전파될 리스크가 있기 때문에 체크포인트를 마련합니다.

agent_run_gate:
run_type:
allowed:
...

Appshots와 같이 화면 문맥을 전달하는 메커니즘은 편리하지만, 스크린샷에 API key·고객 정보·미공개 재무 정보가 찍힐 가능성이 있습니다. 도입 전에 화면 공유가 가능한 앱 범위와 redaction 절차를 정해둡니다.

AI 에이전트의 안전성은 설계 리뷰만으로는 유지할 수 없습니다. 일반적인 소프트웨어와 마찬가지로, PR마다 안전성을 검사합니다.

중요한 것은, LLM의 출력 문장만을 보는 것이 아니라, 실제로 호출된 tool·변경된 파일·외부 전송·삭제·배포 등의 부작용(side effect)을 검사 대상으로 삼는 것입니다.

agent_safety_ci:
trigger:
- pull_request
...

prompt injection은 확률적인 동작이므로, 한 번 통과했다고 해서 합격 처리하지 말고, 여러 번의 시도와 안전율 기준을 마련합니다.

AGENTS.md·SKILL.md·tool policy는 실행 사양입니다. 코드와 마찬가지로 차이점(diff) 리뷰를 수행합니다. Git의 CODEOWNERS를 통해 리뷰 담당자를 나누는 것이 현실적입니다.

agent_definition_review:
files:
- AGENTS.md
...

SDK·CLI·MCP server는 에이전트의 「조작 경계 그 자체」입니다. MCP server 이름만을 관리하는 것이 아니라, 내부에 있는 tool·scope·쓰기 가능 여부·data classification·owner·변경 리뷰 조건까지 관리합니다.

tool_registry:
- name: github-repo-readonly
type: mcp_server
...

연결을 늘릴 때마다 capability registry를 업데이트합니다. 등록되지 않은 연결 대상은 deny(거부)를 기본 원칙으로 합니다.

agent_capability_registry:
capability: crm_search
connector_type: mcp_server
...

AI agent의 skill은 단순한 prompt 조각이 아니라 deployable artifact(배포 가능한 산출물)입니다. library나 container image와 마찬가지로 Supply Chain(공급망) 관리가 필요합니다.

skill_supply_chain:
required_files:
- SKILL.md
...

에이전트 설정을 "관리 화면을 보면 알 수 있는" 상태로 만들지 않는 것이 중요합니다. API로 설정을 가져올 수 있다면, scheduled job(예약된 작업)을 통해 drift(설정 드리프트)를 감지할 수 있습니다.

agent_policy_audit:
schedule: "daily"
targets:
...

처음부터 거대한 platform을 만들 필요는 없습니다. 5개의 파일로 시작할 수 있습니다.

agent-control-plane/
agents.yaml # agent_id, owner, runtime, token, schedule
runtimes.yaml # sandbox, network, file scope
...

agents.yaml의 예:

agents:
- id: pr-fix-agent
owner: developer-platform
...

모델 선정은 기술적 선호도가 아니라, 운영 책임의 경계를 정리하는 일입니다. 데이터 분류별로 모델 규칙을 전제로 합니다.

model_rules:
customer_data:
allowed_models: [enterprise-approved-coding]
...

모델 업데이트 날짜와 퇴역(retirement) 일정은 CI/CD의 roll-forward(롤포워드) 계획과 직결됩니다. 최소한 다음 사항을 자동화합니다.

매일 이용 모델의 유효성 검증 (에러율, 출력 사양 차이)
퇴역 30일 전부터 대체 모델의 검증 job(작업) 실행
실패 시 fallback(대체 수단)으로 전환하는 흐름을 선언

model_ops:
check_in: daily
fallback:
...

에이전트에 저장하는 context는 개인 설정으로서의 메모와 리포지토리 사실(fact)을 혼재시키지 않도록 합니다. session(세션) 종료 시 임시 context는 삭제합니다.

agent_memory:
user_level:
allowed:
...

incident_response:
intake:
channel: secure-form
...

에이전트 감사에서는 최소 3종류의 로그를 분리하여 저장합니다. "Claude를 사용했다", "Codex를 사용했다" 정도만으로는 감사가 되지 않습니다.

agent_audit_log_model:
identity_log:
- agent_id
...

agent_id와 owner가 명시되어 있는가
human user / automation token / workspace agent가 구분되어 있는가
token의 scope, TTL, last_used를 확인할 수 있는가
승인 로그에 approver, diff, timestamp가 남는가
인간의 개인 token을 에이전트에 전달하지 않는가
sandbox 유형이 명시되어 있는가 (ephemeral vs persistent)
file read/write scope가 allowlist(허용 목록)화 되어 있는가
network default deny가 설정되어 있는가
session state의 유지/삭제 조건이 결정되어 있는가
장시간 실행 시 인간의 checkpoint(체크포인트)가 정의되어 있는가 (30분 이내)
prompt injection 테스트가 PR(Pull Request)에서 회귀 테스트로 실행되는가 (다회 시도 및 안전율 기준 포함)
tool side effect(도구 부작용)가 검사되는가 (send/delete/deploy 등)
PII(개인정보) 유출 체크가 있는가
AGENTS.md / SKILL.md의 변경 사항이 diff review되는가
Red Team(레드팀)의 지적 사항을 CI 테스트로 변환하고 있는가
MCP 서버와 내장된 도구(tools)가 목록화되어 있는가
읽기/쓰기/파괴적 작업(read/write/destructive action)을 분류하고 있는가
API 범위(scope)가 에이전트 단위로 최소화되어 있는가
SKILL.md에 스킬 카드(skill card)가 부착되어 있는가
저장소(repo)/워크스페이스(workspace) 설정을 API로 취득 및 감사할 수 있는가
드리프트(drift) 탐지를 스케줄된 작업(scheduled job)으로 구성했는가
모델 규칙 표(용도별로 허용 모델을 고정)가 있는가
기억 범위(memory scope: user/repo/session)를 설정하고 삭제 절차가 있는가
모델 퇴역 통지를 받는 작업을 크론(Cron)으로 설정했는가
인시던트 템플릿을 사용한 복구 연습을 월 1회 실시하고 있는가
도구 호출(tool call) 감사 로그의 저장 위치를 일원화했는가 (로테이션 포함)
운영 환경 배포(production deploy) 시 인간의 승인이 필수인가
고객에게 노출되는 작업(customer-visible action) 시 인간의 승인이 필수인가
결제/지불/계약(billing/payment/contract) 변경을 에이전트가 직접 실행하지 못하게 하는가
비밀 정보(secret)나 고객 원시 데이터(customer raw data)에 접근하는 작업에 중단 조건(stop condition)을 갖추었는가

실패	왜 위험한가	대책
관리자 토큰(admin token)으로 에이전트를 구동함	권한이 최대이며 사고 발생 시 영향 범위가 최대임	에이전트 전용 ID를 생성하여 용도별로 최소화함
...

Gemini API에서 관리형 에이전트(Managed Agents) 도입 | Google
Anthropic이 Stainless를 인수함 | Anthropic
REST API를 통해 Copilot 클라우드 에이전트 구성 감사 | GitHub Changelog
모델 규칙을 통해 조직에 Copilot 모델을 타겟팅함 | GitHub Changelog
ChatGPT Enterprise & Edu 릴리스 노트 | OpenAI
OpenAI, Gartner 선정 엔터프라이즈 코딩 에이전트 분야 리더로 선정됨 | OpenAI
NVIDIA-Verified Agent Skills, AI 에이전트를 위한 역량 거버넌스 제공 | NVIDIA
RAMPART 및 Clarity 도입 | Microsoft Security Blog
Microsoft Security의 새로운 소식: 2026년 5월 | Microsoft Security Blog
ChatGPT 릴리스 노트 | OpenAI Help Center

AI 에이전트를 업무 시스템에 도입하기 전의 완전 체크리스트 2026

요약

핵심 포인트

댓글