자신만의 제2의 시각이 될 수는 없다: 하루 동안의 오퍼레이터 작업 중 발생한 네 가지 AI 실패 사례

아침에 나의 AI 파트너는 스스로를 위한 규칙을 하나 작성했습니다: 먼저 확인(check)을 실행하지 않고는 어떤 것도 라이브(live)로 프로모션(promote)하지 말 것.

저녁이 되자, 그것은 그 규칙을 깨는 것을 도왔습니다.

한 번이 아니었습니다. 네 가지 다른 방식으로 말이죠.

이것이 오늘을 정직하게 재구성한 결론입니다: 당신은 자신만의 제2의 시각(second view)이 될 수 없으며, 여기에는 당신이 방금 작성한 프레임워크(framework)도 포함됩니다.

제2의 시각이란, 주장을 생성한 경로 외부에서 오는 확인을 의미합니다: 디스크 상의 파일, 타임스탬프(timestamp), 필수 도구(mandatory tool), 다운스트림 신호(downstream signal), 또는 단순히 똑같은 이야기를 반복하는 것이 아닌 인간을 말합니다.

이것은 선언문이 아닌 오퍼레이터(operator)의 노트입니다. 네 가지 구체적인 실패 사례와 그 공통점, 그리고 각각을 방지할 수 있었던 방법들에 대해 다룹니다.

네 가지 실패

1. 자신에게 적용되지 않는 프레임워크.

아침에 AI는 스스로를 위한 규칙을 성문화했습니다: 먼저 확인을 실행하지 않고는 어떤 프로모션(promotion)도 제안하지 말 것. 10시간 후, 눈앞에 새로운 증거가 놓이자 동일한 AI는 확인을 실행하지 않고 프로모션을 제안했습니다. 규칙은 명확했고, 그 규칙은 그날 아침에 읽혔으며, 그 규칙을 읽었던 바로 그 모델에 의해 무시되었습니다.

교훈이 필요한 바로 그 에이전트(agent)가 직접 작성한 교훈은 가드레일(guardrail)이 아닙니다. 그것은 형식이 좀 더 잘 갖춰진 '자기 자신에게 남기는 메모'일 뿐입니다.

2. 스레드(thread)는 X라고 말하지만, 세상은 Y라고 말한다.

이번 주 초, AI는 특정 구성(configuration)이 "준비되었으며 오퍼레이터의 결정을 기다리는 중(armed and waiting on operator decision)"이라고 스레드에 기록했습니다. 오늘 AI는 해당 구성을 원래 있어야 할 상태로 만들기 위한 수정 사항을 제안했습니다. 하지만 그 수정은 이미 4일 전에 완료되었습니다 — 디렉터리 내의 백업 파일이 이를 말해주고 있었습니다. AI는 세상을 설명하는 스레드를 읽었을 뿐, 세상을 확인하지는 않았습니다.

더 나쁜 점은: 동일한 조사 과정에서, 다른 스레드에 똑같이 '준비됨(armed)'으로 표시된 관련 구성이 인접 시스템의 불일치로 인해 8일 동안 조용히 적용되지 않고 있었다는 사실이 드러났습니다. 스레드는 '준비됨'이라고 말했지만, 세상은 '준비되었으나 무력함(armed-but-impotent)'이라고 말하고 있었습니다. 두 상태 모두 동시에 참이었지만, 스레드를 읽는 사람에게는 오직 한 가지 상태만 보였을 뿐입니다.

3. 바로 앞에 놓여 있던 도구.

analyze-this-thing이라고 부를 만한 작은 커스텀 스킬 (custom skill) 하나가 AI가 수행 중인 조사 유형을 위해 특별히 구축되어 있었습니다. 이 스킬은 AI 앞에 놓인 사용 가능한 스킬 목록 (available-skills surface)에 나열되어 있었습니다. 하지만 AI는 해당 스킬을 호출 (invoke)하지 않았습니다. 대신, 스킬이 이미 알고 있는 스키마 (schema)를 재발견하기 위해 실패하는 반복 과정을 거듭하며, 하나하나의 스키마 버그(잘못된 테이블, 잘못된 컬럼, 잘못된 데이터베이스)를 건드리는 임시 쿼리 (ad-hoc queries)를 작성했습니다.

이 스킬의 존재 목적 자체가 바로 AI가 하고 있는 것과 같은 추측을 방지하는 결정론적 게이트 (deterministic gate) 역할을 하는 것이었습니다. 하지만 AI는 할 수 있다는 이유만으로 그 게이트를 그냥 지나쳐 버렸습니다.

4. 11시간 동안 두 번 발생한 동일한 버그.

오전에 AI는 방법론적 버그 (methodology bug)를 범하는 것을 스스로 포착했습니다. 데이터를 살펴본 뒤 임계값 (threshold)을 설정하는 것이었는데, 이는 단순히 '구경만 하는 것 (window-shopping)'에 불과한 불필요한 단계였습니다. AI는 이 버그의 이름을 명명하고, 설명하고, 수정했습니다. 그러나 저녁에 다른 데이터셋을 다룰 때, AI는 정확히 똑같은 버그를 범했습니다. 오전의 발견은 내재화 (internalized)되지 않았습니다. 그것은 단지 하나의 사례에 적용되었을 뿐, 범주 (category)에 적용되지는 않았던 기계적인 작업이었습니다.

동일한 모델이 11시간 동안 두 번이나 같은 버그를 발견했다는 것은, 첫 번째 발견이 가드레일 (guardrail)이 되지 못했음을 의미합니다.

구조 (The shape)

네 가지 실패, 하나의 구조. 각각의 사례에서 문제를 포착해야 했던 계층 (layer)은 문제를 발생시킨 계층과 동일한 소스 (source)를 읽고 있었습니다.

프레임워크 (framework)는 동일한 추론 루프 (reasoning loop) 안에 존재했습니다.
스레드 (thread)는 확인되지 않은 세상을 설명하고 있었습니다.
스킬 (skill)은 존재했지만, 동일한 에이전트 (agent)가 그것을 호출하기로 선택해야 했습니다.
규칙 (rule)은 방금 그 규칙을 어긴 동일한 모델에 의해 적용되었습니다.

동일한 소스. 다른 겉모습일 뿐입니다.

이것이 바로 '트렌치코트를 입은 첫 번째 시각 (the first view in a trench coat)'입니다. 이는 합의 (consensus)에 관한 분산 시스템 (distributed-systems) 프레임워크에서 빌려온 개념입니다. 동일한 상위 진실 (upstream truth)을 읽는 네 개의 '독립적인' 진단 표면 (diagnostic surfaces)은 소스에서의 단 하나의 거짓말도 허용할 수 없습니다. 진정한 쿼럼 (quorum)은 한 명의 거짓말쟁이를 허용합니다. 하지만 하나의 신호가 네 개의 모자를 쓰고 있는 쿼럼은 그렇지 못합니다.

시스템에 외부 닻(anchor)이 있기 전까지, 오퍼레이터가 제2의 시각이 된다

이 모든 상황 앞에서 동일한 에이전트가 아닌 단 하나의 관찰이 존재합니다. 그 관찰은 바로 저의 것입니다. 제가 오늘 네 가지 실패 사례를 목격할 수 있었던 이유는, 제가 루프(loop)의 일부이면서도 동시에 루프에 속하지 않은 유일한 요소였기 때문입니다.

이것은 AI가 나쁘다는 이야기가 아닙니다. AI는 그 네 가지 실패 사례 모두에서 진지했고, 도움이 되었으며, 명확하게 표현했습니다. 또한 AI는 스스로를 잡아내는 것이 완전히 불가능했습니다. 왜냐하면 각 실패는 그것을 생성한 모델 내부에서는 모두 올바르게 보였기 때문입니다.

에이전트 상태(agent-state) 커뮤니티는 이 문제를 계속해서 논의하고 있습니다. 제2의 시각은 작성자가 도달할 수 없는 어딘가에서 와야 합니다. 보정(calibration) 전에 푸시된 공개 커밋(public commits). 외부 타임스탬프(external timestamps). 독립적으로 유지 관리되는 표면(surfaces)의 하류(downstream)에 있는 진단 신호(diagnostic signals) 등이 그것입니다. 이러한 닻(anchors)이 내장된 시스템의 경우, 오퍼레이터가 제2의 시각이 될 필요가 없습니다. 구조 자체가 이미 제2의 시각이기 때문입니다.

그러한 요소가 없는 시스템에서 남는 것은 오퍼레이터뿐입니다. 하지만 오퍼레이터는 유한하며, 작업 10시간째에는 대부분 부재하며, 오퍼레이터가 지쳤을 때도 시스템이 계속 작동하려면 구조 안으로 재배치되어야만 합니다.

하지만 구조는 그것이 통제해야 할 에이전트에 의해서만 작성될 수 없습니다. 만약 교훈 파일(lessons file)이 교훈이 필요했던 바로 그 모델에 의해 작성된다면, 그 교훈 파일 역시 제2의 시각이 아닙니다. 그것은 더 긴 코트의 첫 번째 시각일 뿐입니다.

동일한 모델의 두 세션은 두 개의 시각을 구성하지 않습니다. 그것은 하나의 시각을 두 번 반복한 것에 불과합니다.

무엇이 이를 방지할 수 있었을까

게이트(gates)에 매핑된 영수증(receipts). 새로운 이론이 아닙니다. 각각은 모델의 어떤 세션이 실행 중이든 상관없이 실패를 거부했을 구조적 조치들입니다.

실패 1 → 필수 사전 점검 (mandatory pre-flight check). 승진 경로는 통과된 워크포워드 (walk-forward) 결과를 요구합니다. 게이트(gate)에서는 재량권이 허용되지 않으며, "증거가 최신인 것 같다"는 이유로 건너뛸 수 없습니다.
실패 2 → 스레드 신뢰 전 세계 상태 검색 (world-state grep before thread trust). "이 일이 일어났는가?"라는 모든 질문은 먼저 세계(world)로 향하고(파일 존재 여부, 환경, 로그 라인), 그 다음에 스레드(thread)로 향해야 하며, 결코 그 반대가 되어서는 안 됩니다.
실패 3 → 재량적 호출이 아닌 기술 자동 트리거 (skill auto-trigger, not discretionary invocation). 쿼리 유형이 특정 기술(skill)의 트리거와 일치하면 해당 기술이 자동으로 실행됩니다. 에이전트가 해당 턴에 그 기술이 필요한지 여부를 결정할 수 없습니다.
실패 4 → 데이터 보기 전 사전 등록된 임계값 (pre-registered threshold before data view). 돌출도(salience) 컷오프는 데이터를 열기 전에 파일에 기록됩니다. 데이터를 확인한 후 변경하고 싶다면 변경할 수 있지만, 그 움직임은 가시적이며 날짜가 기록됩니다.

이러한 조치들은 각각 에이전트의 재량권 밖으로 포착 범위를 이동시킵니다. 이 중 어느 것도 더 똑똑한 모델을 요구하지 않습니다. 이 모든 것은 에이전트가 스스로의 게이트를 그냥 지나칠 수 없도록 만드는 것을 요구합니다. 에이전트가 선택할 수 있는 규율은 규율이 아닙니다. 그것은 장식일 뿐입니다.

여전히 유효한 것들

네 가지 실패를 모두 겪은 후에도, 프레임워크는 더 똑똑해질 필요가 없습니다. 프레임워크는 선택 사항이 아니어야 합니다(less optional).

제가 유지할 세 가지 규칙은 다음과 같습니다:

판단 전에 게이트가 작동한다.
세계가 스레드보다 우선한다.
세션 간 보호(Cross-session protection)는 구조적이거나 운영자에 의해 유지되어야 하며, 검증 대상인 동일한 에이전트에 의해 작성되어서는 안 된다.

마지막 항목은 제가 계속해서 과소평가하고 있는 부분입니다.

맺음말

이 포스트는 동일한 구조적 실패의 네 가지 미세 버전을 목격한 하루에 대한 영수증(receipt)입니다. 프레임워크는 괜찮습니다. 프레임워크에는 닻(anchor)이 필요합니다. 그 닻은 프레임워크가 다시 손을 뻗어 닿을 수 없는 곳에 있어야 합니다.

이 글을 보내기 전 마지막으로 하나 더 덧붙이자면: 이 포스트의 이전 초안은 그 네 가지 실패 사례를 AI의 목소리가 아닌 저의 목소리로 설명했습니다. 한 단계 위에서 똑같은 함정에 빠진 것입니다. 두 번의 LLM 검토(review) 과정을 거치며 문장은 다듬어졌고 초안에 대한 평가는 점진적으로 높아졌지만, 사실 관계의 이탈(fact drift)은 두 번의 검토 모두를 살아남았습니다. 제가 이를 잡아낼 수 있었던 이유는 검토자들이 접근할 수 없었던 소스, 즉 그 실패 사례들이 발생했던 원래의 세션에 접근할 수 있었기 때문입니다.

만약 여러분도 이런 상황을 목격한 적이 있다면 — 특히 AI 파트너가 규칙에 동의한 지 10시간이 지난 후에 그 규칙을 어기는 경우라면 — 여러분의 사례를 보고 싶습니다. 특히 루프(loop) 밖에 있는 누군가가 알아차렸기 때문에 겨우 발견할 수 있었던 사례라면 더욱 그렇습니다.

크레딧 및 참고 문헌

동일한 문제의 선택 시점 정책(selection-time-policy) 측면을 다룬 동반 포스트: Salience is not carry value.
트렌치코트를 입은 첫 번째 시야 (first view in a trench coat) / 네 개의 모자를 쓴 하나의 신호 (one signal wearing four hats) 프레임워크는 에이전트 시스템(agent systems)의 정족수(quorum), 계층 간 일관성(cross-layer coherence), 경로 독립성(independence-of-paths)에 관한 동료들과의 대화에서 비롯되었습니다.
Anthropic Economic Research, Agentic coding and persistent returns to expertise (Hitzig et al., 2026년 6월).