Codex Goal Mode 및 원격 컴퓨터 사용: OpenAI의 에이전트가 며칠 동안 코딩할 수 있는 방법

요약 (TL;DR)

2026년 5월 21일, OpenAI는 두 가지 Codex 기능을 일반 사용 가능(General Availability) 상태로 전환했습니다: Goal Mode (세션 중단 및 예산 재설정 후에도 유지되는 지속적인 /goal 지시어)와 Locked Computer Use (화면 잠금 후에도 데스크톱 에이전트가 Mac 앱을 계속 제어함)입니다. gpt-5.3-codex 및 검증 가능한 성공 기준과 결합하여, 엔지니어는 "벤치마크를 통과하며 v2 체크아웃 엔드포인트를 배포하라"와 같은 실제 목표를 위임하고 자리를 비울 수 있습니다. 이 돌파구는 더 긴 프롬프트(Prompt) 덕분이 아닙니다. 이제 코딩 에이전트는 시간을 지속적인 감독이 필요한 대상이 아닌, 예산화할 수 있는 자원(Resource)으로 취급합니다.

두 기능 모두 Codex CLI 0.133.0 및 이에 대응하는 IDE 및 데스크톱 빌드에 포함되었습니다. 프로덕션 저장소(Repository)를 대상으로 Goal Mode를 일주일간 실행해 본 결과, 데모와 실제 유용성 사이의 격차는 인내심의 수준이 아니라 목표가 어떻게 구조화되었는지에 달려 있습니다.

Goal Mode가 프롬프트(Prompt)를 실제로 어떻게 바꾸는가

Goal Mode는 매 턴마다 주어지는 지시사항을 Codex가 매 사이클마다 재평가하는 지속적인 목표(Objective)로 대체합니다. 명령 인터페이스는 최소한으로 구성됩니다:

# 활성 목표를 설정하거나 교체합니다
/goal 체크아웃 벤치마크의 p95 체크아웃 지연 시간을 120ms 미만으로 줄이되,
      정확성 테스트 스위트(Correctness suite)를 통과(Green) 상태로 유지할 것
...

목표의 문구보다 구조가 더 중요합니다. OpenAI 쿡북(Cookbook)은 다음과 같은 형식을 권장합니다: <원하는 최종 상태>를 <특정 증거>로 검증하며, <제약 조건>을 유지할 것 — 이 세 가지 필수 슬롯은 해당 순서대로 작성되어야 합니다.

실패하는 사례 vs 성공하는 사례

비효과적:

/goal 코드를 더 우아하게 만드세요

효과적:

/goal 이 코드베이스를 Pydantic v1에서 v2로 마이그레이션하되,
      `pytest -q`가 0을 반환하고 `mypy --strict src/`가 0을 반환함으로써 검증하며,
      ...에 나열된 모든 공개 API 시그니처(Public API signatures)를 유지할 것

두 번째 버전은 Codex에 측정 가능한 목표를 부여합니다. 에이전트는 코드를 작성하고, 테스트 스위트(suite)를 실행하며, 예상 결과와 실제 결과 사이의 차이(diffs)를 읽고, 수정하며, 두 명령이 모두 0을 반환하며 종료될 때 — 또는 극복할 수 없는 차단 요소(blockers)를 드러낼 때 — 중단합니다.

중단 조건은 명시적입니다: 성공, /goal pause, /goal clear, 사용자 중단, 반복되는 해결 불가능한 차단 요소, 또는 사용량 제한 소진입니다. 그 외의 어떤 것도 루프(loop)를 종료시키지 않으므로, 검증 가능한 성공 기준이 이전보다 더 중요해졌습니다. 이러한 기준이 없다면 루프는 비용 제약 조건에 도달했을 때만 중단됩니다.

"며칠 동안 코딩한다"는 것은 구체적인 의미를 갖습니다

"며칠 동안 코딩한다(code for days)\

화면 잠금 후에도 지속되는 동작 (Continued operation after screen lock): Goal Mode 루프가 데스크톱 앱을 구동할 때, 화면 보호기(screensaver)가 활성화되어도 중단되지 않습니다.
모바일 트리거링 (Mobile triggering): 책상에 놓아둔 Mac을 제어하도록 휴대폰에서 에이전트에게 작업을 전달할 수 있습니다.

안전 모델 (Safety Model)

Locked Use를 활성화하면 macOS 잠금 해제 흐름에 참여하는 Apple 인증 플러그인(Apple authorization plugin)이 설치됩니다:

Mac은 일시적으로 잠금 해제되지만, 디스플레이는 가려진 상태를 유지합니다. Codex가 백그라운드에서 작동하는 동안 잠금 화면은 계속 표시됩니다.
인증 창은 수명이 짧으며 현재의 잠금 해제 시도로 범위가 제한됩니다. 상시 허용되는 권한은 존재하지 않습니다.
키보드, 트랙패드 또는 마우스 접촉 시 즉시 Mac이 다시 잠기며, 수동 잠금 해제를 하기 전까지 자동 잠금 해제가 비활성화됩니다.
Codex는 새로운 앱을 작동하기 전에 요청합니다. 자주 사용하는 앱은 "항상 허용(Always allow)"으로 표시하십시오.
Terminal 앱, Codex 자체, 또는 시스템 관리자 프롬프트(system admin prompts)는 제어할 수 없습니다. GUI 자동화(GUI automation)를 통한 권한 상승(privilege escalation)을 방지하기 위해 하드코딩된 제외 항목이 적용되어 있습니다.

출시 가용성 및 제한 사항 (Launch Availability & Restrictions)

이 기능은 출시 시점에 EEA(유럽 경제 지역), 영국 및 스위스에서는 사용할 수 없습니다. Apple의 자동화 정책은 사용자 설정과 관계없이 여러 앱 카테고리를 차단합니다.

일반적인 Computer Use가 활성화되어 있지 않다면, 먼저 시스템 설정(System Settings)을 통해 Codex에 화면 기록(Screen Recording) 및 접근성(Accessibility) 권한을 부여하십시오. 플러그인 설치는 잠금 화면 레이어(locked-screen layer)만 추가합니다.

실제 Goal Mode 루프, 엔드 투 엔드 (End to End)

프로젝트 루트에서 시작합니다:

$ cd ~/work/orders-service
$ codex
# TUI 내부:
...

Codex는 목표를 확인하고, 초기 스캔을 실행하며, 계획을 제안합니다. 여기서부터 다음과 같은 작업을 할 수 있습니다:

자리를 비웁니다 — 루프는 성공, 차단 요소 발생, 또는 예산 소진 시까지 실행됩니다.
GUI 단계(마이그레이션 마법사, CI 대시보드 스크린샷 등)를 위해 Locked Computer Use로 작업을 넘기고 Mac을 잠급니다.
노트북을 떠나 있는 동안 Codex Mobile을 통해 상태 확인을 트리거합니다.

나중에 돌아와서 /goal을 입력하면 현재 상태(검증된 사항, 대기 중인 사항, 마지막 차단 요소)를 확인할 수 있습니다. /goal pause를 사용하면 컨텍스트(context)를 잃지 않고 개입할 수 있습니다.

권장 시작 설정

~/.codex/config.toml에 다음을 추가하세요:

model = "gpt-5.3-codex"
model_provider = "ofox"      # 직접 연결할 경우 "openai"

...

Goal Mode는 config.toml 내에서 세션당 토큰(token)이나 반복(iteration) 제한을 두지 않습니다. 문서화된 중단 제어 장치는 슬래시 명령어(/goal pause, /goal clear), 감지된 반복적 차단 요소(blockers), 그리고 계획된 사용 한도(usage limit)입니다. 실질적인 제어 수단은 선택한 제공업체(provider)의 사용 한도입니다. gpt-5.3-codex의 요율인 백만 토큰당 입력 $1.75 / 출력 $14를 기준으로 할 때, 출력이 주를 이루는 단일 멀티아워(multi-hour) 세션은 쉽게 $30~$80를 소모하므로, 계정 한도가 실제 예산 가드레일(guardrail) 역할을 하게 됩니다.

왜 ofox.ai를 통해 Codex를 라우팅해야 하는가

Goal Mode는 모델을 혹사시킵니다. 며칠에 걸친 목표는 수백 번의 추론 단계(reasoning turns)를 거치며, 비용은 백만 토큰당 $14인 gpt-5.3-codex 출력 토큰이 대부분을 차지합니다. OpenAI로 직접 연결하는 대신 통합 게이트웨이를 통해 요청을 전달해야 하는 세 가지 이유는 다음과 같습니다.

보조 모델을 위한 단일 키: Goal 루프는 일반적으로 저렴한 하위 작업(요약, 분류, 정규 표현식(regex) 생성)을 더 작은 모델에 위임합니다. 하나의 ofox.ai 키를 사용하면 자격 증명(credentials)을 번거롭게 관리할 필요 없이, 주요 경로(hot path)는 gpt-5.3-codex로, 보조 경로(cold path)는 gpt-5.4-mini 또는 deepseek-v4-flash로 라우팅할 수 있습니다.
목표별 지출 가시성: 세션에 커스텀 헤더(custom headers)를 태깅하세요. 대시보드는 일일 비용이 아닌 목표별 비용을 보여줍니다. 이는 Pydantic 마이그레이션이 그 비용만큼의 가치가 있었는지 판단할 때 유용합니다.
장애 발생 시 페일오버(Failover): 장기적인 목표(Long-horizon goals)는 제공업체의 짧은 서비스 중단으로 인해 실패할 수 있습니다. ofox는 자동으로 폴백(fallback)을 수행하지만, OpenAI 직접 연결 키는 오류를 발생시키며 복구될 때까지 /goal pause를 강제합니다.

Goal Mode를 사용하지 말아야 할 때

세 가지 부적격 사유:

검증 명령을 작성할 수 없는 경우 (Cannot write verification commands): 성공의 기준이 "느낌이 좋다" 또는 "더 우아하다"라면, Goal Mode는 성급한 승리를 선언하거나 무한히 루프를 돌게 됩니다. 대신 원샷 프롬프트 (one-shot prompts)를 사용하세요.
빈번한 인간의 판단이 필요한 작업: 목표 (Goals)는 자율성을 지향합니다. 모든 변경 사항에 승인이 필요하다면, 사용하지 않는 컨텍스트 (context) 비용을 지불하게 됩니다. 대신 원샷 세션 (one-shot sessions)을 실행하세요. 더 저렴하고 빠릅니다.
대규모 파괴적 작업: 데이터베이스 마이그레이션 (Database migrations), git push --force, 운영 환경 (production) 수정 작업 등입니다. Goal Mode는 무인 수렴 (unattended convergence)에는 뛰어나지만, 언제 행동하지 말아야 하는지에 대한 판단력은 부족합니다. 에이전트를 워크트리 (worktrees)로 샌드박스화하고, 셸 명령 승인을 요구하는 approval_policy를 설정하며, 실제 변형 (live mutations)보다는 드라이 런 (dry-run) 검증을 포함하는 목표를 선호하세요.

향후 1년의 모습

Goal Mode와 잠금 상태의 컴퓨터 사용 (Locked Computer Use)의 결합은 실제 운영 환경에서 사용할 수 있는 최초의 신뢰할 만한 "목표를 설정하고, 노트북을 덮은 뒤, 내일 확인하는" 코딩 루프를 나타냅니다. 에이전트가 지난달보다 더 똑똑해진 것은 아닙니다. 단지 마찰 (friction)이 사라졌을 뿐이며, 이로 인해 어떤 엔지니어링 작업이 모델에 위임할 가치가 있는지가 바뀌었습니다. 화면 잠금, 예산 재설정, 저녁 식사 시간을 견뎌내는 코딩 에이전트는 지속적인 감독이 필요한 에이전트와 근본적으로 다릅니다.

중요한 주의 사항: 감독 하의 Goal Mode 작업은 오늘날 신뢰할 수 있음을 증명했지만, 완전히 무인으로 진행되는 며칠간의 작업은 여전히 목표의 검증 가능성 (goal verifiability)에 달려 있습니다. 실제 증거를 바탕으로 목표를 작성하는 규율이 이제 단일 턴 프롬프트 (single-turn prompt) 제작 기술을 대체하는 핵심 기술로 떠오르고 있습니다.

출처 및 추가 읽을거리

Codex Changelog — May 2026 — Goal Mode GA(General Availability) 및 Locked Computer Use(잠금 상태에서의 컴퓨터 사용)에 대한 공식 릴리스 노트
Using Goals in Codex — 목표 구문 (goal syntax) 및 작동 예시가 포함된 쿡북 (cookbook)
Computer Use — Codex App — 공식 안전 모델 (safety model) 및 플랫폼 제약 사항
MacRumors: Codex Can Use Your Mac When Locked — 잠금 해제 흐름 (unlock flow)에 대한 독립적인 분석 기사
GPT-5.3-Codex on OpenRouter — 가격 및 컨텍스트 윈도우 (context window) 참조

원문은 ofox.ai/blog에 게시되었습니다.

Insights

Codex Goal Mode 및 원격 컴퓨터 사용: OpenAI의 에이전트가 며칠 동안 코딩할 수 있는 방법

요약

핵심 포인트

Codex Goal Mode 및 원격 컴퓨터 사용: OpenAI의 에이전트가 며칠 동안 코딩할 수 있는 방법

요약 (TL;DR)

Goal Mode가 프롬프트(Prompt)를 실제로 어떻게 바꾸는가

실패하는 사례 vs 성공하는 사례

"며칠 동안 코딩한다"는 것은 구체적인 의미를 갖습니다

안전 모델 (Safety Model)

출시 가용성 및 제한 사항 (Launch Availability & Restrictions)

실제 Goal Mode 루프, 엔드 투 엔드 (End to End)

권장 시작 설정

왜 ofox.ai를 통해 Codex를 라우팅해야 하는가

Goal Mode를 사용하지 말아야 할 때

향후 1년의 모습

출처 및 추가 읽을거리

댓글

AMD, 개발자를 위한 AI 기반 플랫폼 ROCm.AI 발표

Pinnacle Financial Partners (PNFP) 2026년 2분기 실적 발표 통찰

에이전트보다 먼저 MCP 서버를 구축해야 하는 이유: 기업이 필요로 하는 AI 팀의 변화

새로운 반도체 기업 TYLsemi 공개, 4,300만 달러 규모의 초기 단계 투자 유치 — 고객에게 저렴한 비용으로 맞춤형 실리콘을 제공하는

AMD, 개발자를 위한 AI 기반 플랫폼 ROCm.AI 발표

Pinnacle Financial Partners (PNFP) 2026년 2분기 실적 발표 통찰

에이전트보다 먼저 MCP 서버를 구축해야 하는 이유: 기업이 필요로 하는 AI 팀의 변화

새로운 반도체 기업 TYLsemi 공개, 4,300만 달러 규모의 초기 단계 투자 유치 — 고객에게 저렴한 비용으로 맞춤형 실리콘을 제공하는