AI 에이전트, 무엇을 맡기고 무엇을 남길 것인가 — 2026년 5월의 판단 기준 - Insights | Molayo

이전 기사(AI는 지금 무엇과 연결되는가)에서 AI와 기존 시스템을 연결하는 3가지 경로(MCP / Computer Use / ChatGPT Apps)를 정리했다.

연결 측면이 결정되었다면, 다음 논점은 "그 에이전트에게 무엇을 맡기고, 무엇을 아직 맡기지 않을 것인가"이다.

AI 에이전트는 2026년 5월 현재, **"똑똑한 채팅"에서 "업무의 인계"**로 명확하게 단계가 바뀌었다. 인계 가능한 업무와 아직 스스로 쥐고 있어야 할 업무의 경계선을 그을 수 있는지가 실무자의 차이를 만든다.

이 기사는 그 경계선을 어떻게 그을 것인지에 대해 기술한다.

"똑똑한 채팅"에서 "업무의 인계"로

숫자로 보면 변화의 속도를 알 수 있다.

Claude Code, Devin 2.0이 SWE-bench Verified에서 71-73% (구현 가능한 소프트웨어 엔지니어링 태스크의 정답률) 달성

OpenAI Codex CLI는 공개 1개월 만에 100만 developers 달성
**Anthropic은 Claude Code를 주축으로 연간 반복 매출(ARR) $14B(140억 달러)**에 도달

이것은 "AI가 대화 상대"였던 2024년과는 다른 세계다.

하지만, 2026년 5월 Anthropic의 "Code with Claude" 이벤트에서 발표된 5가지 신기능(Dreaming, Outcomes, multi-agent orchestration, Claude Finance, Add-ins)은 실제 운영 현장이 안고 있는 3가지 미해결 문제를 솔직하게 인정하고 있다:

메모리 (Memory)가 세션을 넘어가면 저하된다

아웃풋의 품질 보증 (Quality Assurance)이 인간의 리뷰 없이 어렵다

복잡한 업무는 복수 에이전트의 연계가 필요하다

즉, 성능이 올라가더라도 "전적으로 맡길 수 없는 영역"은 남아 있다. 경계선을 의식하지 않고 "전부 맡겨버리는" 운용은 아직 사고가 날 수 있다.

맡길 수 있는 업무 (4가지 분류)

내가 관찰한 범위 내에서, "현재 상태에서도 안심하고 맡길 수 있다"고 판단할 수 있는 업무는 다음 4가지다.

1. 코드 리뷰 및 리팩터링 (Refactoring) 초기 분석

SWE-bench 71-73%가 보여주는 것은 인간 수준의 코드 이해력이다.

버그의 초기 분류, 리팩터링 안 생성, 테스트 커버리지(Test Coverage) 확장은 인간의 리뷰를 전제로 한다면 맡겨도 좋다.

단, "최종 머지(Merge)는 인간"이라는 규칙은 어기지 않는 것이 좋다. AI가 자신 있게 틀리는 상황은 제로가 되지 않는다.

2. 문서 생성 및 업데이트

API 문서, README, 변경 이력 업데이트는 품질이 안정되기 쉽다.

특히 코드와 일치하는 형태의 자동 생성은 인간이 작성하는 것보다 실수가 적을 수도 있다 (인간은 업데이트를 잊어버리곤 한다).

3. 정형화된 법무 및 재무 리뷰

Anthropic이 2026년 5월에 출시한 "Claude Finance"의 10개 에이전트는 재무 분석, 컴플라이언스(Compliance) 체크, 리서치 요약을 업무로 포함하고 있다.

조항의 기계적인 대조나 정형화된 재무 보고서 분석은 인간보다 빠르고 정확도를 낼 수 있는 유스케이스다.

4. 영업 및 서포트의 초기 응대 (필터링)

완전 자동화가 아니라 "첫 30초"를 AI에게 맡기고, 판단이 필요한 안건만 인간에게 넘기는 형태다.

고객 만족도는 올라가지만, AI가 판단을 그르쳤을 때 **인간에게 원활하게 에스컬레이션 (Escalation)**할 수 있는 설계가 전제되어야 한다.

아직 맡기지 않는 것이 좋은 업무 (4가지 분류)

반대로, 2026년 5월 시점에서 맡기면 사고가 날 확률이 높은 영역이다.

1. 아키텍처 및 시스템 설계

"어떤 기술 스택을 선택할 것인가", "어디에 캐시를 둘 것인가", "마이크로서비스(Microservices)로 나눌 것인가"는 사업 요건과 기술적 트레이드오프 (Trade-off) 판단이 복잡하게 얽혀 있다.

AI는 제안할 수 있지만, 최종 결정은 인간이어야 한다. 결정한 사람의 책임이 명확하지 않으면, 반년 뒤에 "왜 이렇게 되었는지" 알 수 없게 된다.

2. 보안상 치명적인 (Security Critical) 구현

권한 관리, 인증, 암호화, 기밀 데이터 취급은 단 한 번의 실수가 초래하는 비용이 너무 크다.

Computer Use 계열에서 "화면 조작도 AI에게" 맡기는 경우, 특히 이 부분을 인간이 쥐고 있어야 한다. Anthropic이 2026년 5월에 CrowdStrike, Microsoft Purview 등의 보안 통합을 내놓은 것은 바로 이 영역을 보강하기 위함이다.

3. 고객과의 계약 및 약속

"언제까지 납품하겠습니다", "이 금액으로 진행하겠습니다"를 AI가 독단적으로 말해서는 안 된다.

취소 불가능한 약속은 인간의 판단이 필요하다. AI에게 초안을 쓰게 하는 것은 OK이지만, 전송 버튼은 인간이 누른다.

4. 윤리 판단 · 인사 판단

채용, 평가, 해고, 상벌, 괴롭힘(Harassment) 판정. 이것들은 AI가 분석 자료를 내놓는 것은 좋지만, 최종 결정을 맡기면 조직이 망가진다.

법적으로도 AI 단독의 판단은 설명 책임(Accountability)을 다하지 못하는 경우가 많다.

판단 축 (4가지 질문)

「맡길 것인가/맡기지 않을 것인가」를 결정할 때, 다음 4가지를 질문하면 정리하기 쉽다.

1. 실패 비용 × 실패 확률

기대 손실(Expected Loss)의 발상.

예를 들어 코드 리뷰에서 버그를 놓쳤을 때의 비용 ≦ 인간 리뷰를 추가하는 비용이라면 맡겨도 좋다. 반대라면 맡기지 않는다.

2. 가역성 (Reversibility)

그 판단은 나중에 취소할 수 있는가.

코드 커밋(Commit)은 거의 가역적이다 (revert 할 수 있다). 고객에게 보내는 메시지는 가역성이 낮다. 계약 서명은 거의 불가역적이다. 가역성이 낮을수록 인간이 쥐고 있어야 한다.

3. 감사 로그(Audit Log)의 기록 용이성

누가 어떤 이유로 승인했는지를 나중에 재구성할 수 있는가.

AI에게 맡기는 경우에도 조작 로그 · 판단 근거가 남는 설계가 아니면, 감사(Audit) · 규제 대응에서 막히게 된다.

4. 영향 범위

오작동했을 때의 파급 효과. 1명의 사용자에서 멈추는가, 모든 고객에게 도달하는가.

모든 고객에게 도달하는 조작 (일괄 메일, 모든 환경으로의 배포(Deploy), 운영 DB 업데이트)은 AI 단독 실행을 피한다.

결론: 경계선은 움직인다, 재평가가 업무다

「맡길 것인가/맡기지 않을 것인가」의 리스트는 6개월이면 바뀐다.

2025년 5월에는 「맡길 수 없다」라고 적었던 업무의 일부가, 2026년 5월에는 「맡겨도 좋다」가 되어 있다. 반대의 경우도 있다 (취약점이 발견되어 신중해지는 영역).

그러므로, 경계선을 한 번 긋고 끝내는 것이 아니라, 정기적으로 재평가하는 것이 실무자의 업무가 된다.

반년에 한 번, 자사의 업무 리스트를 나열하며 「이것은 AI에게 맡겨도 되는가」를 재검토하는 습관을 가진 팀이 결과적으로 잘 운영되는 케이스가 많다.

연결면 (지난 기사 004)과, 맡기는 방식의 경계선 (이 기사).

두 가지를 모두 의식하여 설계하면 에이전트 시대의 준비는 상당히 진척될 것이다.

AI 에이전트, 무엇을 맡기고 무엇을 남길 것인가 — 2026년 5월의 판단 기준

요약

핵심 포인트

"똑똑한 채팅"에서 "업무의 인계"로

메모리 (Memory)가 세션을 넘어가면 저하된다

아웃풋의 품질 보증 (Quality Assurance)이 인간의 리뷰 없이 어렵다

맡길 수 있는 업무 (4가지 분류)

1. 코드 리뷰 및 리팩터링 (Refactoring) 초기 분석

2. 문서 생성 및 업데이트

3. 정형화된 법무 및 재무 리뷰

4. 영업 및 서포트의 초기 응대 (필터링)

아직 맡기지 않는 것이 좋은 업무 (4가지 분류)

1. 아키텍처 및 시스템 설계

2. 보안상 치명적인 (Security Critical) 구현

3. 고객과의 계약 및 약속

4. 윤리 판단 · 인사 판단

판단 축 (4가지 질문)

1. 실패 비용 × 실패 확률

2. 가역성 (Reversibility)

3. 감사 로그(Audit Log)의 기록 용이성

4. 영향 범위

결론: 경계선은 움직인다, 재평가가 업무다

1차 소스

Discussion

댓글

AI 에이전트, 무엇을 맡기고 무엇을 남길 것인가 — 2026년 5월의 판단 기준

요약

핵심 포인트

"똑똑한 채팅"에서 "업무의 인계"로

**메모리 (Memory)**가 세션을 넘어가면 저하된다

**아웃풋의 품질 보증 (Quality Assurance)**이 인간의 리뷰 없이 어렵다

맡길 수 있는 업무 (4가지 분류)

1. 코드 리뷰 및 리팩터링 (Refactoring) 초기 분석

2. 문서 생성 및 업데이트

3. 정형화된 법무 및 재무 리뷰

4. 영업 및 서포트의 초기 응대 (필터링)

아직 맡기지 않는 것이 좋은 업무 (4가지 분류)

1. 아키텍처 및 시스템 설계

2. 보안상 치명적인 (Security Critical) 구현

3. 고객과의 계약 및 약속

4. 윤리 판단 · 인사 판단

판단 축 (4가지 질문)

1. 실패 비용 × 실패 확률

2. 가역성 (Reversibility)

3. 감사 로그(Audit Log)의 기록 용이성

4. 영향 범위

결론: 경계선은 움직인다, 재평가가 업무다

1차 소스

Discussion

댓글

메모리 (Memory)가 세션을 넘어가면 저하된다

아웃풋의 품질 보증 (Quality Assurance)이 인간의 리뷰 없이 어렵다