본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 06. 15. 15:30

AI/LLM 연표와 보론 2026.06

요약

AI 에이전트 및 LLM 애플리케이션 개발의 핵심 개념과 기술적 진화 과정을 2017년부터 2026년까지 정리한 연표입니다. 연구 선행기부터 매니지드화 및 하네스 엔지니어링기에 이르기까지의 흐름을 통해 기술의 원전과 발전 단계를 분석합니다.

핵심 포인트

  • AI 에이전트 기술의 4단계 국면(연구-표준화-체계화-매니지드화) 제시
  • Prompt에서 Context, Harness, Loop로 이어지는 최적화 단위의 진화 설명
  • 주요 논문, 프레임워크, 프로토콜의 출처와 타임라인 통합 제공
  • Harness Engineering이 독립된 엔지니어링 영역으로 확립되는 과정 기술

이 기사는 AI로 작성되었습니다.

서론

생성형 AI (Generative AI) 에이전트 영역은 논문, 프레임워크 (Framework), 제품, 기사, 표준이 단기간에 쌓이면서 이제 각 개념의 '출처'를 추적하기가 어려워지고 있습니다. "context engineering은 언제, 누가 처음 말했는가", "harness engineering과 loop engineering은 무엇이 다른가" —— 본 기사는 이러한 질문에 답하기 위한 연표입니다.

대상 독자: AI 에이전트 / LLM 애플리케이션 개발에 종사하는 엔지니어. 각 개념이 "언제, 누구에 의해, 어떤 유형으로 태어났는지"를 한눈에 파악하고 싶은 분.
얻을 수 있는 것: ① 2017–2026년을 하나의 표로 통합한 타임라인 (획기적인 원전은 ★로 명시), ② prompt → context → harness → loop라는 "최적화 단위"의 진화 축, ③ 개념 → 원전 대응표

"논문 → 제1세대 프레임워크 → 표준화 → 제2세대 프레임워크 → 체계화 → 매니지드화·하네스 엔지니어링 (Harness Engineering)"이라는 흐름을 축으로, 각 개념의 원전을 정리한 연표입니다.

★ = 개념의 원전으로서 특히 중요함.

개요: 4가지 국면

연구 선행기 (2020~2023 전반) — RAG, ReAct, Toolformer, LLM-as-judge, MemGPT 등의 원전 논문이 집중됨. LangChain이 논문 패턴을 즉시 구현화함. Lilian Weng이 에이전트의 표준 프레임워크를 언어화함.
표준화기 (2023 중반~2024) — function calling, MCP가 어휘와 프로토콜을, 벤치마크 (HumanEval → SWE-bench → τ-bench)가 평가를 표준화함. Mastra 등 제2세대 FW가 등장함.
체계화기 (2024 말~2025) — 교과서, 방법론, 공식 가이드가 집중됨. 각 사의 공식 SDK가 모두 출시되었으며, 멀티 에이전트 논쟁과 context engineering의 결정화가 일어남. 이와 병행하여, 프롬프트 to 앱 제품 (Bolt, Lovable)이 vibe coding의 명명 (2025.02)에 앞서 비엔지니어 계층으로의 대중화를 추진하며, 이에 대한 대항 운동으로서 사양 주도 개발 (Kiro, Spec Kit)도 2025년에 등장함.
매니지드화·대중화·하네스 엔지니어링기 (2025 말~2026) — OpenClaw의 폭발과 Managed Agents의 등장과 더불어, "harness engineering"이 Anthropic, OpenAI, LangChain으로부터 잇따라 체계화되어 독립된 엔지니어링 영역으로 확립됨. 연구 측면에서도 하네스의 자동 생성 및 최적화 (Meta-Harness / AutoHarness)가 등장함. 2026년 중반에는 능력의 계층화 (Mythos급·승인제 액세스)와 평가 축의 품질 측면으로의 이동 (FrontierCode)이 병행하여 진행됨.

유형 범례 (6개 분류)

연구 — 학술 논문·프리프린트 (Preprint) / 벤치마크·측정 프레임워크
기사 — 블로그·에세이·공식 엔지니어링 기사·정기 관측 리포트·용어의 명명
서적 — 상업 출판물
구현 — 프레임워크·SDK·제품·기능 통합·OSS·매니지드 기반
표준 — 프로토콜 사양·사실상의 표준(de facto standard)·개발 방법론
사건 — 업계를 움직인 사건

타임라인 (통합)

선정 기준: ① 개념·용어를 최초로 정의했거나, ② 업계의 설계 판단을 바꾸었거나 (논쟁 포함), ③ 후속 공식 문서·프레임워크가 반복적으로 인용하는 —— 중 하나를 충족하는 것에 ★를 붙였습니다. 단, 응용 카테고리의 제품 계보 (프롬프트 to 앱)와 가중치 측면의 커스텀 기법은 타임라인 본체에 두지 않고 "개념 → 원전" 계보 행에 날짜와 함께 집약했습니다. 타임라인은 중추 (최적화 단위·평가·보안/권한)에 집중하기 위해서입니다. 시각 → 행동·음성의 계보는 보론에서 다루는 "하네스의 가치 하락"이 가장 빠르게 진행되는 영역이기 때문에 예외적으로 본체에도 남겨두었습니다. 또한, 모델 단독 릴리스는 "업계의 설계 판단을 바꾼 전환점" (추론 패러다임, agentic coding의 실용화, 오픈 웨이트(Open Weights) × 증류(Distillation), 능력 계층 × 액세스 제어 등)에 해당하는 것만 수록했습니다. 아울러 멀티모달 중 이미지·영상 생성의 주류 (DALL·E 2, Midjourney, Sora 등)는 본 연표의 스코프 외로 하며, 에이전트 설계에 직결되는 계보 (시각 → 행동, 음성)만을 수록했습니다.

年월종별명칭주체비고 (정의한 것·출처)
2017.06연구Attention Is All You Need (Transformer)이후 모든 것의 기점
...

읽는 법 (4가지 축)

주제의 전이: 설계 패턴 (2024.12) → 아키텍처 선택 (2025.06 논쟁) → 컨텍스트 운용 (2025.06–09 CE) → 하네스 엔지니어링 (Harness Engineering, 2025.11–2026.03). "무엇을 만들 것인가" → "어떻게 구성할 것인가" → "무엇을 보여줄 것인가" → "어떻게 계속 실행시킬 것인가". 또한 loop는 harness의 상위 단계에 위치한다——Osmani의 정의에 따르면, harness는 단일 에이전트가 실행되는 환경이며, loop는 해당 harness를 스케줄에 따라 기동하고, 서브 에이전트(Sub-agent)를 생성하며, 결과를 자기 공급(Self-supply)하는 제어계(Control system)를 가리킨다. 2025년 6월의 특이성: 6/12 Cognition의 기사를 통한 용어 도입부터 6/30 Schmid에 의한 표준 정의까지, 논쟁의 발발·통합·용어 확립이 약 3주 만에 완결되었다. LangChain (6/16)이 대립을 "read vs write"라는 설계 기준으로 변환한 것이 수렴을 앞당겼다. 사상의 기저: Bitter Lesson (2019) → Era of Experience (2025.04)로 이어지는 Sutton 계보가 "harness에 대한 투자는 모델에 의해 잠식될 것이다"라는 긴장감을 항상 공급한다. 자세한 내용은 보론을 참조할 것. 병행 계보의 합류: 시각 (CLIP → GPT-4V → Set-of-Mark)과 음성 (Whisper → Realtime API)의 계보는 텍스트 계보와 병행하며, computer use (2024.10)와 Operator (2025.01)에서 에이전트 본류로 합류했다. 합류 후에는 외장형 시각 그라운딩 (SoM·스크린 파서)을 네이티브 훈련 모델 (UI-TARS·Gemini 2.5 Computer Use)이 대체하는 움직임이 진행되고 있으며, 2026년에는 음성 측에서도 STT → LLM → TTS 파이프라인을 단일한 speech-to-speech 모델로 통합하는 움직임 (Realtime-2, 2026.05)이 병행된다. 시각·음성 모두 "파이프라인에서 모델로"라는 동일한 형태의 흡수이며, 보론에서 다루는 "harness의 감가"가 가장 빠른 속도로 진행되고 있는 영역이기도 하다.

개념 → 원전의 대응

시간축과는 별개로, 개념별 원전을 찾아볼 수 있도록 만든 보충 표입니다.

개념원전성질
RAGLewis et al. 2020학술 논문 (용어 제창). 실무 RAG는 구현이 괴리됨
...

요점: 원전은 크게 6개 층으로 나뉜다——① 학술 논문, ② 벤치마크·측정 프레임워크, ③ 벤더 사양·API, ④ 기사 (공식 정리·논쟁·개인 블로그), ⑤ 용어·에세이, ⑥ 제품. 에이전트 영역에서는 ④번 기사가 논문과 동등하거나 그 이상의 위상을 가지며, context engineering이나 harness engineering처럼 단일 원전을 갖지 않고 "기사의 연쇄"를 통해 확립된 개념도 있다. 반대로 vibe coding처럼 제품 (Bolt·Lovable, 2024Q4)이 현상을 먼저 만들고, 명명 (2025.02)이 뒤따른 사례도 있다 (loop engineering도 동일한 형태이며, /loop·/goal의 기능화가 명명에 선행함)——개념 형성은 "기사 → 구현"의 일방향이 아니다.

보론: harness의 감가와 잔존

본 절은 연표의 사실을 넘어, 그로부터 도출할 수 있는 하나의 관점——해석과 예측——을 포함합니다.

이 연표에서 가장 실무적인 함의를 갖는 것은, "harness에 대한 투자는 시간이 흐름에 따라 모델에 의해 잠식되지 않을까" 하는 긴장감입니다. 결론부터 말하자면, harness는 일률적으로 감가되지 않습니다. 기구(Mechanism)의 향방은 세 가지로 나뉘며, 자산의 종류에 따라 운명이 갈립니다. 이하에서는 ① 관찰 (기구는 어디로 갔는가), ② 사상 (잠식되는 파와 남는 파), ③ 감가의 측면 (실증·속도·층을 올라가는 흡수), ④ 잔존의 측면 (3가지 자산과 1가지 비대칭), ⑤ 평가계의 반전, ⑥ 회의론에 대한 응답——의 순서로 살펴봅니다.

1. 관찰——harness 기구는 어디로 갔는가

먼저, 대표적인 기구들이 실제로 어디로 갔는지 일람합니다.

Harness 기구 (왜 필요했는가)무슨 일이 일어났는가행선지
ReAct 출력 텍스트 파싱 (도구 호출을 직접 추출, 2022–23)function calling (2023.06)이 API 사양으로 흡수플랫폼
...

패턴은 세 가지로 나뉩니다. 모델에 먹히는 것 (능력 부족을 우회하는 workaround), 플랫폼에 가라앉는 것 (API·SDK의 표준 기능이 되어 직접 구현의 필요성만 사라짐), 잔존하는 것 (평가·환경·권한). Bitter Lesson이 지적하는 것은 첫 번째뿐이며, 두 번째는 가치 하락이라기보다 정착에 가깝고, 세 번째는 오히려 역방향입니다. 실무적인 귀결을 먼저 말하자면——'모델에 먹히는 것'과 '플랫폼에 가라앉는 것' 카테고리는 직접 구현을 얇게 혹은 떼어낼 수 있다는 전제하에 작성하고, '잔존' 카테고리에야말로 영구적인 투자를 한다는 자산 배분이 됩니다. 이하, 이 세 가지 분류가 왜 발생하며 어디까지 신뢰할 수 있는지 추적합니다.

2. 사상——Big Model 대 Big Harness

'먹히는' 쪽의 사상은 Bitter Lesson (2019)으로 거슬러 올라갑니다. 인간이 만들어낸 구조보다 계산량에 따라 스케일링되는 범용 기법이 장기적으로 승리한다——이 주장은 Era of Experience (2025.04)에서 '경험으로부터의 학습'으로 업데이트되었으며, Harness 공학에 대한 기저음(continuo)으로 계속 이어지고 있습니다. 2026년에는 이 긴장이 'Big Model 대 Big Harness'라는 진영론으로 현상화되었습니다.

Big Model 측의 대표는 Claude Code 팀과 OpenAI의 Noam Brown입니다. Claude Code를 만든 Boris Cherny는 Latent Space의 팟캐스트 (2025.06)에서, 비결은 모두 모델 측에 있으며 Claude Code는 '모델 위의 가능한 한 얇은 래퍼 (wrapper)'라고 언급했습니다. 팀의 집무 구역에는 Bitter Lesson 액자가 걸려 있으며, '오늘의 모델이 아니라 6개월 뒤의 모델을 향해 만든다'(앞서 나간 스캐폴딩(scaffolding)은 기술 부채가 된다)를 설계 원칙으로 삼고 있습니다. Noam Brown은 harness engineering이라는 용어가 확립되기 반년 전(Latent Space, 2025.06), 추론 모델 등장 전에 비추론 모델을 수없이 호출하여 추론적 동작을 만들어내던 agentic system에 투입된 막대한 공수가 추론 모델의 등장으로 불필요해진 것을 넘어 오히려 유해해졌던 경험을 들며, '지금의 harness 역시 마찬가지로 스케일에 의해 씻겨 내려갈 것'이라고 예측했습니다.

Big Harness 측에는 'The Model Harness is Everything' (2026)을 내세우는 Jerry Liu (LlamaIndex)——AI의 가치 실현에 있어 최대 장벽은 모델이 아니라 사용자 측의 context/workflow 설계 능력이다——와, Cursor의 높은 기업 가치로 체현되는 Agent Labs론이 있습니다. 방증으로는 모델을 보유하지 않고 교체 가능한 상태로 환경·배포·통합을 통해 가치를 세운 prompt-to-app 제품군(Bolt·Lovable——후자는 랩(lab) 제작 코딩 도구의 부상 속에서도 2026.02에 $400M ARR로 성장을 가속함)이 있으며, 이는 모델을 수직 통합한 Cursor와는 별개의 논거를 제공합니다.

다만, Bitter Lesson이 harness의 어디까지 적용될지는 자명하지 않습니다. 평가계나 환경 설계는 '인간 지식의 구축'이라기보다 '모델이 작동하기 위한 환경 정비'에 가까우며, The Anatomy of an Agent Harness (2026.03) 역시 harness는 모델 결함의 패치인 동시에 모델의 지능을 활성화하는 시스템이기도 하다는 양면성을 지적합니다. 실무 측의 타협점을 가장 먼저 언어화한 것은 Schmid (2026.01)로, Bitter Lesson을 명시적인 전제로 하여 '어제 작성한 로직을 떼어낼 수 있는 경량 harness'를 설계 원칙으로 번역했습니다——서두에서 언급한 자산 배분의 1차 사료 측 표현입니다.

3. 가치 하락의 측면——실증·속도·층을 타고 올라가는 흡수

「모델에게 먹히는 것」의 실증적 대표 사례는 표에서도 언급한 Anthropic의 2026.03 기사 2건입니다. 첫째, Sonnet 4.5의 context anxiety(문맥 불안)에 대한 대처로서 2025.11 기사에서 필수 기제로 규정되었던 context resets(문맥 리셋)는, Opus 4.5가 해당 동작을 해소함에 따라 불필요해졌습니다. 둘째, Opus 4.5에서는 필요했던 스프린트 분해(task decomposition, 태스크 사전 분할)는 Opus 4.6에서 불필요해졌습니다. 2세대 연속으로 서로 다른 하네스(harness) 기제가 감가된 기록입니다. 중요한 점은, 해당 기사가 이를 운용 원칙으로 명문화하고 있다는 것입니다. 의역하자면 "하네스의 모든 컴포넌트는 모델이 단독으로는 할 수 없는 것에 대한 가설을 인코딩(encode)하고 있으며, 그 가설은 틀렸을 수도 있고 모델의 개선에 따라 급격히 진부화될 수 있다"는 것입니다. 감가는 사후적인 관측이 아니라, 새로운 모델이 나올 때마다 하중을 견디지 않는(load-bearing이 아닌) 부품을 제거한다는 설계 프로세스에 내재된 전제가 되었습니다. OpenAI의 harness engineering(하네스 엔지니어링) 기사(2026.02)가 AGENTS.md를 "백과사전이 아닌 목차"로 정의한 설계 판단에서도 동일한 전제를 읽을 수 있습니다.

속도감의 단서는 METR의 태스크 시간 지평(task time horizon, 2025.03)입니다. 다만 METR이 측정하는 것은 모델이 완수할 수 있는 태스크의 길이이지, 하네스 기제의 진부화 속도 그 자체는 아닙니다. "태스크 길이가 약 7개월 만에 두 배로 늘어난다면, 모델 능력의 부족을 보완하는 workaround(임시 방편)형 하네스의 유효 기간도 동일한 오더(order)로 추산해야 한다"는 것은 직접적인 증거라기보다, 감가 속도의 규모감을 제공하는 아날로지(analogy, 유추)로 읽어야 합니다.

「플랫폼에 침잠하는」 측면에서는, 2026년에 들어서며 흡수가 한 단계 높은 층위에서 재연되었습니다. 개인 차원의 지속 루프(Ralph Wiggum, 2025년 초)와 OpenClaw의 heartbeat(하트비트)는 2026년 봄까지 "정기 실행"(Claude Code /loop, 2026.03)과 "검증 가능한 완료 조건으로의 반복"(Codex /goal 2026.04 · Claude Code /goal 2026.05——OpenAI는 내부적으로 이 루프를 공식적으로 "Ralph Loop"라고 부름)으로 분해되어 주요 CLI의 표준 기능으로 흡수되었습니다. function calling(함수 호출)이 ReAct의 텍텍스트 파싱(text parsing)을 흡수한 것과 동일한 역학이, 한 단계 높은 루프(loop) 층위에서 약 1년에 걸쳐 두 회사에서 병행적으로 반복된 형태입니다. 그리고 주목할 만한 점은, goal(목표)형 프리미티브(primitive)의 인터페이스가 양측 구현 모두 "검증 가능한 완료 조건"으로 수렴했다는 점입니다(Codex는 완료 조건 + 예산 + 감사의 묶음, Claude Code는 독립된 소형 checker 모델의 매 턴 판정). 루프를 제품화했을 때 인간에게 남은 업무는 done(완료)의 정의, 즉 평가였습니다. 감가의 서사를 끝까지 따라가면, 남는 쪽의 정체가 먼저 모습을 드러냅니다. 다음 절에서 이를 해부하겠습니다.

4. 잔존의 측면——3가지 자산과 1가지 비대칭

감가되기 어려운 자산은 평가·검증, 환경, 기계 판독 가능한 도메인 지식(machine-readable domain knowledge)의 세 가지로 나뉩니다. 여기에 성격이 다른 네 번째 카테고리로 권한·승인 계통이 추가됩니다.

평가·검증. Verifiability(2025.11)가 "검증할 수 있는 것이 자동화된다"라고 언급한 것과 같은 유형으로, 하네스(Harness) 투자 또한 "모델이 강해져도 가치가 남는 것은 검증과 환경"으로 수렴하고 있습니다. 실무 측의 대표적인 사례는 Stripe의 "Minions"입니다. 해당 기업의 엔지니어링 블로그 보고(2026.02, InfoQ 보도)에 따르면, 자율 에이전트(Autonomous Agent)가 주당 1,300건 이상의 PR(Pull Request)을 생성하고 있으며(전수 인간 리뷰를 거치지만 인간이 작성한 코드는 제로), 이를 성립시키고 있는 것은 약 300만 건의 테스트 자산 중 변경 사항과 관련된 것만을 선택하여 실행하는 CI, push 전의 로컬 linter·hook, CI 실패 시 재시도를 2회로 제한하는 캡(cap)이라는 검증 인프라입니다. 검증 자산이 자율성의 전제 조건이 된다—테스트가 에이전트에 선행한다—는 순서를 보여주는 사례로, Spotify가 QCon London 2026에서 보고한 코드베이스 전체를 지속적으로 이관하는 에이전트 Honk도 같은 유형입니다. Anthropic의 2026.03 기사는 이를 evaluator로 실증하기도 했습니다. Opus 4.6으로의 세대 교체로 인해 evaluator가 불필요해지는 태스크는 늘어난 반면, 모델의 단독 능력의 한계(edge)에 있는 태스크에서는 가치가 계속 남았습니다. 즉, 가치 하락은 기구 단위로 일률적으로 발생하는 것이 아니라, 태스크와 모델 능력의 경계에서 결정됩니다. 해당 기사의 결론인 "모델이 개선되어도 흥미로운 하네스의 조합 공간은 '축소되지 않고 이동한다'"는 것은, 이 보론의 주장을 1차 자료 측면에서 다시 표현한 것입니다. 이동의 실례는 평가 축 그 자체에 나타나 있습니다. FrontierCode(2026.06)는 평가 축을 "작동하는가"에서 "머지(Merge) 가능한가(유지보수성·품질)"로 옮겼는데, 이는 GitClear(2024–25)의 유지보수성 저하 정량화, DORA(2024–25)의 조직 수준 안정성 측정, SlopCodeBench(2026.03)의 품질 궤적 메트릭스(Quality Trajectory Metrics), METR의 "SWE-bench 합격 패치의 약 절반은 유지보수자라면 머지하지 않을 것이다"라는 측정(2026.03)으로 이어지는 계보의 도달점입니다. 한편, Verifiability 축에는 한 가지 보충할 점이 있습니다. 평가 체계를 거의 갖추지 않은 프롬프트-to-앱(Prompt-to-App) 제품(v0→Bolt→Lovable)이 가장 빠르게 대중화된 것은 반례가 아니라, 프로토타입=실패 비용이 낮고 검증 요구사항이 최소인 영역이기 때문에 먼저 자동화되었다고 읽어야 합니다. 자동화는 "검증 가능성이 높은 영역"과 "검증 요구사항이 낮은 영역"의 양 끝단에서 진행되며, FrontierCode가 조준하는 "머지 가능한 프로덕션 코드"라는, 검증이 어렵고 실패 비용이 높은 중간 지대가 마지막에 남게 됩니다.

환경. SWE-agent/ACI(2024)가 정식화한 환경 설계의 지견—구조화된 편집 도구(Structured Editing Tools)나 에이전트용 인터페이스—은 모델이 몇 세대가 바뀌더라도 2026년의 주요 코딩 하네스에 그대로 잔존하고 있습니다. 새로운 구현 사례는 vault 환경 변수(2026.06)로, 실제 키(key)를 모델의 컨텍스트에 전혀 싣지 않고 네트워크 경계에서 부여하는 설계입니다. 이는 Willison의 명명(2022.09) → Greshake et al.의 간접 인젝션(Indirect Injection, 2023.02) → OWASP의 표준화(2023.08) → lethal trifecta(2025.06)로 이어져 온 프롬프트 인젝션(Prompt Injection) 계보에 대한 응답이, 프롬프트 측의 방어에서 환경 측의 설계로 옮겨갔음을 보여줍니다. lethal trifecta가 보여준 것은 바로 "LLM 스스로 방어하게 할 수는 없으며, 3가지 조건 중 하나를 환경 측에서 차단할 수밖에 없다"는 설계 지침이었습니다.

**기계 가독화된 도메인 지식 (Domain Knowledge). 구체적인 사례로는 CLAUDE.md/AGENTS.md 및 Agent Skills가 있습니다. Anthropic 사내에서는 각 팀이 git으로 관리하는 CLAUDE.md에 코딩 규약, 설계 지침, 과거의 실수를 축적하고, PR 리뷰를 통해 얻은 학습 내용을 @.claude 태그로 추가하여 에이전트의 실패를 조직의 자산으로 전환하는 운영 방식(이른바 compounding engineering)을 보고하고 있습니다 (InfoQ, 2026.01). Agent Skills (2025.10)는 이러한 "절차적 지식의 기계 가독화"를 폴더 + Markdown 형식으로 제품화한 것으로, 그 계보는 Voyager (2023)의 skill library로 거슬러 올라갑니다. 이것들이 잔존 자산이 될 수 있는 이유는, 축적되는 내용이 모델의 능력이 아니라 조직의 사실——자사의 규약, 도메인 특유의 제약, 과거의 의사결정——이며, 모델을 교체하더라도 계속 가져갈 수 있기 때문입니다. 다만 단일한 형태는 아닙니다. 앞 절에서 언급한 "백과사전이 아닌 목차"라는 판단이 보여주듯, 모델이 이미 알고 있는 것 또는 추론으로 도출할 수 있는 것을 기록해 둔 부분은 세대교체와 함께 사라집니다. 즉, 이 자산의 감가상각 내구성은 "기계 가독성이 있는가"가 아니라 "조직 고유인가"에서 기인하며, CLAUDE.md 안에도 감가상각되는 행과 남는 행이 혼재합니다. 이러한 구도는 시각 계통에서도 나타납니다. 브라우저 조작 하네스(harness)인 browser-harness (browser-use, 2026.05)는 에이전트 스스로가 실행 중에 학습한 사이트 특유의 지식——안정적인 셀렉터(selector), 비공개 API, 로그인 경계, 나아가 "이 사이트는 브라우저보다 API를 사용하는 것이 좋다"라는 판단——을 domain skills 파일로 기록하여, 다음 실행 시나 커뮤니티로 인계하는 메커니즘을 가지고 있습니다. 스킬은 인간이 아니라 하네스(에이전트) 스스로가 집필하며, 방침은 "지도를 그려라, 일지를 쓰지 마라"입니다. 레이아웃 변경으로 깨지는 좌표가 아니라, 사이트의 영구적인 구조만을 남깁니다. 시각적 그라운딩 (Visual Grounding) 자체가 모델에 흡수된 후에도 "사이트 특유·조직 고유의 지식"만이 기계 가독 자산으로 남으며, 심지어 그 축적 자체를 에이전트가 담당한다는, 잔존론과 자동화론의 교차점에 있는 구현 사례입니다.

권한——역방향의 감가상각 곡선. 안전·권한 계통의 하네스——on-the-loop 감독으로의 설계 전환 (2025.10), Managed Agents의 승인 플로우 (2026.04), 능력 계층과 분류기에 의한 액세스 제어 (Fable/Mythos, 2026.06)——는 감가상각 곡선이 역방향입니다. 모델이 강해질수록 불필요해지는 것이 아니라, 강해질수록 load-bearing(하중을 견디는 핵심 요소)이 됩니다. 즉, 감가상각되는 것은 "능력의 부족을 보완하는" 하네스이며, "능력의 과잉을 제어하는" 하네스는 오히려 능력에 비례하여 두꺼워진다는 비대칭성이 존재합니다. 다만, 이 잔존은 평가 계통의 잔존과는 그 기원이 다릅니다. 평가 계통이 최적화의 목적 함수로서 기술적으로 필수적이라면, 권한·승인 계통은 조직과 사회가 지속적으로 통제를 요구한다는 수요 측면의 필연성입니다. 레이어로서의 잔존은 견고한 반면, 개별 구현(승인 UI, 분류기, 능력 계층 설계)은 능력과 규제의 움직임에 맞춰 계속 교체될 것입니다.

5. 평가 계통의 반전——남는 것을 넘어, 무엇이 되는가

잔존론의 핵심인 평가 계통에는 2026년까지 세 가지 움직임이 겹쳐 있습니다.

첫째는, 하네스 설계의 자동화입니다. 2026.03의 Meta-Harness/AutoHarness는 하네스 설계 자체를 모델이 탐색 및 합성할 수 있음을 보여주었습니다. 공개된 아티팩트(artifact)에 따르면, 탐색된 하네스가 Opus 4.6에서 Terminal-Bench 2.0의 76.4%에 도달하여 사람이 설계한 하네스를 상회하고 있습니다. 최적화 대상을 프로그래밍 방식으로 탐색한다는 발상 자체는 DSPy (2023)가 프롬프트/파이프라인 계층에서 선행했으며, 그 대상이 한 단계 높은 하네스 계층으로 옮겨간 것으로 위치 지을 수 있습니다. 얼핏 보면 이것은 감가의 최종 형태——하네스 설계라는 행위 자체가 모델에 먹히는 것——처럼 보이지만, 오히려 하네스라는 레이어가 최적화 대상으로 형식화되었다고 읽어야 합니다. 사람이 작성한 개별 하네스는 감가상각되어도, "좋은 하네스를 탐색한다"라는 문제와 그 탐색을 구동하는 평가 계통은 남습니다. "남는 것은 평가 계통이다"라는 잔존론의 가장 강력한 증거입니다.

둘째, 평가 계통(evaluation system) 내부에도 가치 감쇄 경사(depreciation gradient)가 존재한다는 점입니다. 테스트, 타입(type), 린터(linter)와 같은 검증 가능한 보상(verifiable reward)에 기반한 계층은 가치 감쇄 저항성이 가장 높은 반면, LLM-as-judge 방식의 평가는 모델의 자기 검증 능력 향상과 함께 모델 측으로 흡수될 수 있습니다. Anthropic의 2026.03 기사에서 evaluator 분리의 근거로 드는 '자기 평가의 안이함' 자체가 '모델이 단독으로 할 수 없는 것에 대한 가설'이며, 본 보론의 논리를 자기 적용한다면 이 또한 미래의 감쇄 후보입니다. 잔존론이 최종적으로 걸고 있는 것은 평가 계통 일반이 아니라, 모델 외부에 있는 검증 가능한 근거——실행 결과, 테스트, 실세계로부터의 피드백——라고 바꿔 말하는 것이 정확할 것입니다.

셋째, 훈련의 생산 수단으로의 승격입니다. RLVR(2024.11)이 검증 가능한 보상을 통한 강화학습(RL)을 정식화하고, R1(2025.01)이 이를 대규모로 입증했으며, Environments Hub(2025.08)는 "RL 환경이야말로 다음 진보의 병목이다"라고 선언하며 RL 훈련과 평가를 동일한 환경 자산으로서 공유하는 기반을 공개했습니다. 이러한 관점에서 보면, 오늘의 평가·검증 하네스(harness)는 내일의 훈련 환경이며, 모레의 모델 능력입니다. 최적화의 단위가 prompt → context → harness → loop로 한 단계씩 올라갈 때마다, 그 한 단계 아래가 차세대 모델의 훈련 데이터가 됩니다. 이는 "축소되지 않고 이동한다"는 메커니즘적 설명이며, Era of Experience(2025.04)의 구현 측면이기도 합니다. 이 흐름이 이어진다면, 조직 고유의 평가·환경 자산에 대한 투자는 컨텍스트 자산(CLAUDE.md, Skills)과 마찬가지로 "모델을 교체해도 가져갈 수 있는" 수준을 넘어, "자사 특화 모델을 만드는 원료가 될" 가능성을 가집니다.

6. 결어——회의론에 대한 응답

harness engineering이라는 영역 설정 자체에 대한 회의론도 동시대에 존재합니다 (Latent Space의 「Is Harness Engineering Real?」 2026.03 등. 해당 기사는 Big Model/Big Harness 양 진영을 검토한 후, Bitter Lesson을 존중하면서도 하네스 엔지니어링의 실질적 가치를 인정하는 중간 지점에 도달해 있습니다). 이 회의론이 묻는 것은 "하네스는 영구적인 전문 영역인가, 아니면 과도기적인 workaround(임시 방편)들의 집합인가"이며, 본 보론은 이에 대해 "자산의 종류에 따라 답이 갈린다"라고 응답합니다. 서두의 표로 말하자면, "모델에 먹히는" 행만 본다면 과도기론이 옳고, "잔존"하는 행만 본다면 영구 영역론이 옳습니다. harness engineering과 loop engineering이 2026년에 독립 영역으로 확립된 것은, 이 "남는 쪽"에 대한 투자가 언어화되었기 때문이라고 읽을 수 있습니다.

마치며

이 연표를 관통하는 척추는 최적화의 단위가 prompt → context → harness → loop로 한 단계씩 올라온 하나의 선입니다. 각 용어가 확립되는 데 걸리는 기간도 단축되고 있으며 (context engineering은 약 3.5개월의 기사 연쇄, loop engineering은 트윗에서 정의 기사까지 약 48시간), 개념 형성의 사이클 자체가 가속화되고 있습니다.

망라성보다는 "원전의 식별"을 우선하여 편집했습니다. 오류, 누락, 혹은 "이 1차 자료도 추가해야 한다"라는 지적이 있다면 댓글로 알려주시면 감사하겠습니다.

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0