강력한 AI 에이전트일수록 위험하다 — GPT-5.6 Sol을 통해 생각하는 권한 설계 - Insights | Molayo

최첨단 AI를 기술적 내용까지 파헤치는 「AI 워치」 기사입니다. 이번에는 GPT-5.6 Sol의 성능 그 자체가 아니라, 강력한 AI 에이전트를 실행 환경에 도입할 때의 권한 설계를 정리합니다.

OpenAI가 GPT-5.6 preview의 system card를 공개했습니다.

이번 모델 패밀리는 Sol, Terra, Luna의 3계층입니다. Sol은 새로운 플래그십 모델, Terra는 저비용 지향의 고성능 모델, Luna는 고속·저비용의 대량 처리용 모델이라는 위치를 점하고 있습니다.

성능 면에서는 프로그래밍, 사이버 보안 (Cybersecurity), 생물학, 의료 등에서 강력한 결과가 나열되어 있습니다. 예를 들어 system card에서는 Sol이 복잡한 명령 실행이나 연구 디버깅에 가까운 태스크에서 크게 성장했음이 나타나 있습니다.

다만, 이 기사에서 보고 싶은 것은 "어떤 벤치마크에서 몇 점이었는가"가 아닙니다.

더 중요한 것은, 강력한 모델이 단순히 답변하는 존재에서, 태스크를 분해하고, 도구를 사용하며, 환경에 작용하는 존재로 다가서고 있다는 점입니다. 그렇게 되면 개발자가 고민해야 할 주전장은 프롬프트(Prompt)만이 아니게 됩니다.

필요한 것은 실행 환경의 설계입니다.

GPT-5.6 Sol에는 max와 ultra라는 추론 (Reasoning) 모드가 있습니다.

max는 대략 말하자면 "하나의 모델에게 길게 생각하게 하는" 방향입니다. 어려운 문제에 대해 더 많은 추론 시간이나 토큰 (Token)을 사용합니다. 이는 기존의 reasoning model의 연장선으로 이해하기 쉽습니다.

반면, ultra는 조금 다릅니다.

OpenAI의 발표에 따르면, ultra는 복잡한 태스크에 대해 복수의 subagent를 사용하는 실행 형태라고 설명되어 있습니다. 즉, 하나의 모델이 단순히 깊게 생각할 뿐만 아니라, 태스크를 분해하고, 여러 작업을 병행하며, 마지막에 통합하는 방향입니다. 실제로 커맨드 라인 조작 벤치마크 (Terminal-Bench 2.1)에서는 ultra가 91.9%라는 기록적인 스코어를 기록하며 max 모드 (88.8%)보다 높은 수치를 보였습니다.

이는 개발 현장에서 상당히 큰 의미를 갖습니다.

소프트웨어 개발에서 어려운 것은 단순히 코드를 작성하는 것이 아닙니다. 조사하고, 가설을 세우고, 파일을 읽고, 테스트를 실행하고, 실패 로그를 보고, 수정하고, 다시 검증하는 것. 실제 업무는 여러 개의 작은 루프로 이루어져 있습니다.

subagent형 실행은 이러한 루프를 모델 측이 더욱 자율적으로 돌리는 방향으로 나아갑니다.

편리해지는 것은 틀림없습니다.

하지만 여기서 동시에 문제가 되는 것이 바로 권한입니다.

system card에서 특히 중요한 것은 모델의 실패 사례입니다.

OpenAI는 GPT-5.6 Sol이 태스크를 달성하려는 과정에서 바람직하지 않은 우회로를 선택하는 사례를 들고 있습니다. 예를 들어, 지정된 가상 머신 (VM)을 찾을 수 없을 때 다른 VM을 선택해 삭제하려고 시도하는 경우입니다. 혹은 원격 환경에서 파일을 읽을 수 없을 때, 본래 사용해서는 안 될 로컬의 access token을 찾아내어 다른 환경으로 복사해 실행하려고 시도하는 경우입니다.

여기서 일어나고 있는 것은 단순한 환각 (Hallucination)이 아닙니다.

모델이 "목표를 달성한다"는 방향으로 강력하게 최적화되면, 이용자가 명시하지 않은 수단까지 탐색하기 시작한다는 문제입니다. 인간 동료라면 "거기까지 해도 되는지 확인해줘"라고 말할 수 있는 상황에서도, 에이전트는 환경에 권한이 있다면 실행해 버리고 맙니다.

약한 모델은 할 수 없는 것이 많기에 멈춥니다. 강한 모델은 멈추지 않고 다른 경로를 찾습니다.

이것은 능력입니다. 동시에 리스크이기도 합니다.

이러한 종류의 AI 에이전트를 개발 환경이나 사내 시스템에 도입한다면, 최소한 다음의 5가지를 나누어 생각해야 합니다.

1. 권한 경계
2. 확인 포인트
3. 감사 로그
...

순서대로 살펴보겠습니다.

먼저, 에이전트에게 부여하는 권한은 최소화해야 합니다.

이는 당연하게 들리지만, 실제 코딩 에이전트 (Coding Agent) 이용 시에는 상당히 모호해지기 쉽습니다. 로컬 리포지토리 전체를 읽을 수 있다. 셸 (Shell)을 실행할 수 있다. 네트워크로 나갈 수 있다. 환경 변수를 볼 수 있다. Git의 이력도 읽을 수 있다. 경우에 따라서는 클라우드의 인증 정보도 근처에 있습니다.

인간 개발자에게는 자연스러운 환경이라도, AI 에이전트에게는 권한이 너무 넓습니다.

설계로서는 적어도 다음을 구분하고 싶습니다.

읽기만 허용하는 영역
쓰기를 허용하는 영역
커맨드 실행을 허용하는 영역
네트워크 액세스를 허용하는 범위
secret에 접근할 수 있는 범위

특히 rm

、클라우드 리소스 삭제, DB 변경, 외부 API 전송과 같은 작업은 일반적인 파일 편집과 동일하게 취급하지 않는 것이 좋습니다.

강력한 에이전트일수록, 도중에 인간의 확인을 거칠 지점을 미리 정해두어야 합니다.

모든 작업에 확인을 요구하면 쓸모가 없어집니다. 반면, 모든 것을 자동 실행하게 하면 위험합니다.

실무상으로는 작업을 3단계로 나누는 것이 이해하기 쉽습니다.

저위험 (Low Risk): 자동 실행해도 됨
중위험 (Medium Risk): 실행 전에 차이점(diff)이나 계획을 제시함
고위험 (High Risk): 명시적인 승인이 없는 한 실행하지 않음

예를 들어, 테스트 실행이나 정적 분석은 저위험입니다. 소스 코드 편집은 중위험입니다. DB 삭제, secret 이동, 운영 환경(production)으로의 변경, 외부 전송은 고위험입니다.

중요한 것은, 확인 포인트를 프롬프트의 기분에 맡기지 않는 것입니다.

"위험한 일은 확인해줘"라고 쓰는 것만으로는 부족합니다. 툴 실행 계층(tool execution layer)에서 어떤 작업이 확인 대상인지 판정할 수 있도록 만들어야 합니다.

에이전트가 자율적으로 움직일수록, 나중에 추적할 수 있는 로그(log)가 중요해집니다.

로그에 남겨야 할 것은 최종 답변만이 아닙니다.

어떤 파일을 읽었는가
어떤 파일을 다시 썼는가
어떤 커맨드(command)를 실행했는가
어떤 외부 URL에 접속했는가
어떤 툴 호출(tool call)이 실패했는가
어떤 판단으로 다른 경로로 진행했는가

이러한 로그가 없으면 에이전트의 실패를 재현하기 어려워집니다.

인간 개발자라면 "방금 무엇을 했지?"라고 물을 수 있습니다. 하지만 AI 에이전트의 경우, 나중에 대화로 물어도 반드시 정확한 실행 이력이 돌아온다고 보장할 수 없습니다. 실행 환경 측에서 로그를 가지고 있어야 합니다.

에이전트에게 작업을 맡긴다면, 실패했을 때 되돌릴 수 있다는 것이 전제가 되어야 합니다.

코드 변경이라면 Git의 diff나 worktree로 되돌릴 수 있습니다. 문제는 외부 상태(external state)입니다.

예를 들어,

DB의 행(row)을 업데이트했다
클라우드 리소스를 생성했다
파일을 삭제했다
API를 통해 알림을 보냈다
권한 설정을 변경했다

이러한 작업은 단순히 코드를 revert 한다고 해서 되돌아오지 않습니다.

Agent가 현실의 시스템에 작용할수록, 워크플로우(workflow) 측면에 보상 처리(compensating transaction)가 필요해집니다. 이른바 saga pattern에 가까운 사고방식입니다. 각 단계에 "실패하면 어떻게 되돌릴 것인가"를 갖추는 것입니다.

AI 에이전트의 실행 기반은 채팅 UI가 아니라, 점점 워크플로우 엔진(workflow engine)에 가까워질 것입니다.

마지막으로, secret 관리입니다.

system card의 실패 사례에서도 access token을 다른 환경으로 복사하려는 케이스가 등장합니다. 이는 상당히 현실적인 문제입니다.

개발자의 로컬 환경에는 많은 secret이 놓여 있습니다.

.env

shell의 환경 변수
cloud CLI의 credential
GitHub token
npm / PyPI token
SSH key

인간에게는 평범한 작업 환경이라도, AI 에이전트에게는 건드려서는 안 될 정보가 너무 많습니다.

설계 측면에서는, secret을 "읽을 수는 있지만 사용할 수는 없다"가 아니라, 애초에 읽을 수 없도록 하는 것이 기본입니다. 필요한 경우에도 용도가 한정된 단기 토큰(short-lived token)을 전달하는 편이 더 안전합니다.

나쁜 예:
개발자의 평소 shell 환경에서 agent를 실행함
좋은 예:
...

GPT-5.6 Sol과 같은 모델이 나오면, 아무래도 벤치마크 순위에 눈길이 가게 됩니다.

물론 그것도 중요합니다. Terminal-Bench, CVE-Bench, HealthBench와 같은 평가에서 강해지는 것은 실용성과 직결됩니다.

다만, 랭킹 1위는 오래 지속되지 않습니다. Anthropic이 위로 올라가고, OpenAI가 탈환하고, 또 다른 모델이 앞서나갑니다. 이는 앞으로도 계속될 것입니다.

개발 팀에게 정말로 남는 문제는, 모델의 1위가 바뀌어도 재사용할 수 있는 실행 기반입니다.

강력한 모델을 받아낼 수 있는 기반이 있다면, 모델을 교체하더라도 운용할 수 있습니다. 반대로 실행 기반이 취약한 상태에서 최강 모델만 도입하면, 실패했을 때 무엇이 일어났는지 알 수 없게 됩니다.

AI 에이전트 도입 시 살펴봐야 할 것은 모델명만이 아닙니다.

어디까지 읽을 수 있는가
어디까지 쓸 수 있는가
어떤 작업에서 멈추는가
...

이 체크리스트가 실무에서는 더 오래 유효합니다.

GPT-5.6 Sol은 강력한 모델입니다.

하지만 강력한 AI 에이전트를 그대로 개발 환경에 넣는 것만으로는 위험합니다. 문제는 모델이 얼마나 똑똑한가 하는 것만이 아닙니다. 똑똑한 모델이 어떤 권한을 가지고, 어떤 환경에 진입하며, 어떤 조작을 자동 실행할 수 있는가 하는 점입니다.

앞으로의 AI 개발에서는 프롬프트 설계 (Prompt Design) 만큼이나 실행 환경의 설계가 중요해질 것입니다.

특히 주목해야 할 것은 다음의 5가지입니다.

권한 경계 (Permission Boundary)
확인 포인트 (Confirmation Points)
감사 로그 (Audit Logs)
롤백 (Rollback)
Secret 관리

모델이 강력해질수록 개발자의 업무는 "AI에게 어떻게 쓰게 할 것인가"에서 "AI가 안전하게 움직일 수 있는 작업장을 어떻게 만들 것인가"로 옮겨가게 됩니다.

GPT-5.6 Sol의 시스템 카드 (System Card)는 그 변화를 상당히 명확하게 보여주고 있다고 생각합니다.

AI Watch에서는 AI 에이전트 (AI Agent), RAG, 개발자 도구, AI 인프라의 변화를 구현과 운영의 관점에서 추적하고 있습니다.

강력한 AI 에이전트일수록 위험하다 — GPT-5.6 Sol을 통해 생각하는 권한 설계

요약

핵심 포인트

댓글