AI/LLM 연표와 보론 2026.06

이 기사는 AI로 작성되었습니다.

생성형 AI (Generative AI)의 에이전트 영역은 논문, 프레임워크, 프로덕트, 기사, 표준이 단기간에 쌓이면서, 이제는 각 개념의 '기원'을 추적하기가 어려워지고 있습니다. "context engineering은 언제, 누가 처음 말했는가", "harness engineering과 loop engineering은 무엇이 다른가" —— 본 기사는 이러한 질문에 답하기 위한 연표입니다.

대상 독자: AI 에이전트 / LLM 애플리케이션 개발에 관련된 엔지니어. 각 개념이 "언제, 누구에 의해, 어떤 유형으로 태어났는지"를 한눈에 파악하고 싶은 분.
얻을 수 있는 것: ① 2017–2026을 하나의 표로 통합한 타임라인 (획기적인 원전은 ★로 명시), ② prompt → context → harness → loop라는 "최적화 단위"의 진화 축, ③ 개념 → 원전 대응표

"논문 → 제1세대 프레임워크 → 표준화 → 제2세대 프레임워크 → 체계화 → 매니지드화·하네스 엔지니어링 (Harness Engineering)"이라는 흐름을 축으로, 각 개념의 원전을 정리한 연표입니다.

★ = 개념의 원전으로서 특히 중요함.

연구 선행기 (2020~2023 전반) — RAG, ReAct, Toolformer, LLM-as-judge, MemGPT 등의 원전 논문이 집중됨. LangChain이 논문 패턴을 즉시 구현화함. Lilian Weng이 에이전트의 표준 프레임워크를 언어화함.
표준화기 (2023 중반~2024) — function calling, MCP가 어휘와 프로토콜을, 벤치마크 (HumanEval → SWE-bench → τ-bench)가 평가를 표준화함. Mastra 등의 제2세대 FW가 등장함.
체계화기 (2024 말~2025) — 교과서, 방법론, 공식 가이드가 집중됨. 각 사의 공식 SDK가 모두 갖춰지고, 멀티 에이전트 논쟁과 context engineering의 결정화가 일어남.
매니지드화·대중화·하네스 엔지니어링기 (2025 말~2026) — OpenClaw의 폭발과 Managed Agents의 등장과 더불어, "harness engineering"이 Anthropic, OpenAI, LangChain으로부터 잇따라 체계화되어 독립된 엔지니어링 영역으로 확립됨. 연구 면에서도 하네스의 자동 생성·최적화 (Meta-Harness / AutoHarness)가 등장함. 2026년 중반에는 능력의 계층화 (Mythos급·승인제 액세스)와 평가 축의 품질 측면으로의 이동 (FrontierCode)이 병행하여 진행됨.

연구 — 학술 논문·프리프린트 / 벤치마크·측정 프레임워크
기사 — 블로그·에세이·공식 엔지니어링 기사·정점 관측 리포트·용어 명명
서적 — 상업 출판물
구현 — 프레임워크·SDK·제품·기능 통합·OSS·매니지드 기반
표준 — 프로토콜 사양·사실상의 표준·개발 방법론
사건 — 업계를 움직인 사건

선정 기준: ① 개념·용어를 최초로 정의한 것, ② 업계의 설계 판단을 바꾼 것 (논쟁 포함), ③ 후속 공식 문서·프레임워크가 반복적으로 인용하는 것 —— 중 하나를 만족하는 것에 ★를 붙였습니다. 또한, 모델 단독의 릴리스는 "업계의 설계 판단을 바꾼 전환점" (추론 패러다임, agentic coding의 실용화, 오픈 웨이트 × 증류, 능력 계층 × 액세스 제어 등)에 해당하는 것만 수록하였습니다.

년월	종별	명칭	주체
2017.06	연구	Attention Is All You Need (Transformer)	이후 모든 것의 기점
...
읽는 법 (3가지 축)

주제의 전이: 설계 패턴 (2024.12) → 아키텍처 선택 (2025.06 논쟁) → 컨텍스트 운용 (2025.06–09 CE) → 하네스 엔지니어링 (Harness Engineering, 2025.11–2026.03). 「무엇을 만들 것인가」 → 「어떻게 구성할 것인가」 → 「무엇을 보여줄 것인가」 → 「어떻게 계속 실행시킬 것인가」. 또한 loop는 harness의 상위 계층에 위치한다——Osmani의 정의에 따르면, harness는 단일 에이전트가 실행되는 환경이며, loop는 해당 harness를 스케줄에 따라 기동하고, 서브 에이전트를 생성하며, 결과를 자기 공급(self-supply)하는 제어계를 의미한다. 2025년 6월의 특이성: 6/12 Cognition의 기사를 통한 용어 도입부터 6/30 Schmid에 의한 표준 정의까지, 논쟁의 발발·통합·용어 확립이 약 3주 만에 완료되었다. LangChain (6/16)이 대립을 「read vs write」라는 설계 기준으로 변환한 것이 수렴을 앞당겼다. 사상의 통주저음: Bitter Lesson (2019) → Era of Experience (2025.04)로 이어지는 Sutton 계보가 「하네스에 대한 투자는 모델에 의해 잠식될 것이다」라는 긴장감을 지속적으로 공급한다. 자세한 내용은 보론을 참조한다.

시간축과는 별개로, 개념별 원전을 확인할 수 있도록 만든 보충 표입니다.

개념	원전	성질
RAG	Lewis et al. 2020	학술 논문 (용어 제창). 실무 RAG는 구현과 괴리가 있음
...

요점: 원전은 크게 6개 층으로 나뉜다——① 학술 논문, ② 벤치마크·측정 프레임워크, ③ 벤더 사양·API, ④ 기사 (공식 정리·논쟁·개인 블로그), ⑤ 용어·에세이, ⑥ 제품. 에이전트 영역에서는 ④번 기사가 논문과 동등하거나 그 이상의 위상을 가지며, context engineering이나 harness engineering처럼 단일 원전을 갖지 않고 「기사의 연쇄」를 통해 확립된 개념도 존재한다.

본 절은 연표의 사실을 넘어, 그로부터 도출할 수 있는 하나의 관점——해석과 예측——을 포함합니다.

이 연표에서 가장 실무적인 함의를 갖는 것은, 「하네스에 대한 투자는 시간이 흐름에 따라 모델에 의해 잠식되지 않을까」라는 긴장감입니다. 결론부터 말씀드리면, 하네스는 일률적으로 가치가 하락하지 않습니다. 우선 대표적인 기제들이 실제로 어디로 갔는지 목록을 살펴본 후, 사상·실증·속도감·잔존·자동화의 5단계로 추적합니다.

구체적 사례: 하네스 기제는 어디로 갔는가

하네스 기제 (필요했던 이유)	발생한 일	행선지
ReAct 출력의 텍스트 파싱 (도구 호출을 자체적으로 추출, 2022–23)	function calling (2023.06)이 API 사양으로 흡수	플랫폼
...

패턴은 세 가지로 나뉩니다. 모델에 의해 잠식됨 (능력 부족을 우회하기 위한 workaround), 플랫폼으로 침잠함 (API·SDK의 표준 기능이 되어 자체 구현의 필요성만 사라짐), 잔존함 (평가·환경·권한). Bitter Lesson이 지적하는 것은 첫 번째뿐이며, 두 번째는 가치 하락이라기보다 정착에 가깝고, 세 번째는 오히려 반대 방향입니다. 이하에서는 이 세 가지 분류가 왜 발생하는지 추적합니다.

사상은 Bitter Lesson (2019)으로 거슬러 올라갑니다. 인간이 만들어낸 구조보다 계산량에 따라 스케일링(scale)되는 범용적 방법론이 장기적으로 승리한다—이 주장은 Era of Experience (2025.04)에서 "경험으로부터의 학습"으로 업데이트되었으며, 하네스 공학 (harness engineering)에 대한 통주저음(basso continuo)으로 계속되고 있습니다. 2026년에는 이 긴장이 "Big Model 대 Big Harness"라는 진영론으로 현상화되었습니다. Big Model 측의 대표는 Claude Code 팀과 OpenAI의 Noam Brown입니다. Claude Code를 만든 Boris Cherny는 Latent Space의 팟캐스트 (2025.06)에서, 비결은 모두 모델 측에 있으며 Claude Code는 "모델 위의 가능한 한 얇은 래퍼 (wrapper)"라고 언급했습니다. 팀의 집무 구역에는 Bitter Lesson 액자가 걸려 있으며, "오늘의 모델이 아니라 6개월 후의 모델을 향해 만든다" (앞서 나가는 스캐폴딩 (scaffolding)은 기술적 부채가 된다)를 설계 원칙으로 삼고 있습니다. Noam Brown은 harness engineering이라는 용어가 확립되기 반년 전 (Latent Space, 2025.06), 추론 모델 등장 전에 비추론 모델을 수없이 호출하여 추론적 행동을 만들어내던 에이전틱 시스템 (agentic system)에 투입된 막대한 공수가, 추론 모델의 등장으로 불필요해진 것을 넘어 오히려 유해해졌던 경험을 들며, "지금의 하네스도 마찬가지로 스케일링에 의해 씻겨 내려갈 것"이라고 예측하고 있습니다. Big Harness 측에는 "The Model Harness is Everything" (2026)을 내세우는 Jerry Liu (LlamaIndex) — AI의 가치 실현에 있어 최대 장벽은 모델이 아니라 사용자 측의 컨텍스트 (context) / 워크플로우 (workflow) 설계 능력이라는 주장 — 와, Cursor의 높은 기업 가치로 체현되는 Agent Labs론이 있습니다. 다만, Bitter Lesson이 하네스의 어디까지 적용될지는 자명하지 않습니다. 평가 체계나 환경 설계는 "인간의 지식 구축"이라기보다 "모델이 작동하기 위한 환경 정비"에 가까우며, The Anatomy of an Agent Harness (2026.03) 또한 하네스는 모델 결함에 대한 패치 (patch)인 동시에 모델의 지능을 활성화하는 시스템이기도 하다는 양면성을 지적하고 있습니다. 실무 측에서도 Schmid (2026.01)가 Bitter Lesson을 명시적인 전제로 삼아, "어제 작성한 로직을 떼어낼 수 있는 가벼운 하네스"를 설계 원칙으로 번역하고 있습니다.

실증의 대표 사례는 표에도 언급된 Anthropic의 2026.03 기사 2건입니다. 첫째, Sonnet 4.5의 컨텍스트 불안 (context anxiety)에 대응하기 위해 2025.11 기사에서 필수 기제로 간주되었던 컨텍스트 리셋 (context resets)은, Opus 4.5가 해당 동작을 해소함에 따라 불필요해졌습니다. 둘째, Opus 4.5에서는 필요했던 스프린트 분해 (task decomposition, 작업 사전 분할)는 Opus 4.6에서 불필요해졌습니다. 2세대 연속으로 서로 다른 하네스 기제들이 가치 하락(depreciation)을 기록한 것입니다. 중요한 점은, 해당 기사가 이를 운영 원칙으로 명문화하고 있다는 것입니다. 의역하자면 "하네스의 모든 컴포넌트 (component)는 모델이 단독으로는 할 수 없는 것에 대한 가설을 인코딩 (encode)하고 있으며, 그 가설은 틀렸을 수도 있고 모델의 개선으로 인해 급격히 구식이 될 수 있다"는 것입니다. 가치 하락은 사후적인 관측이 아니라, 새 모델이 나올 때마다 하중을 견디지 않는 (non-load-bearing) 부품을 제거한다는 설계 프로세스에 내재된 전제가 되어 있습니다. OpenAI의 harness engineering 기사 (2026.02)가 AGENTS.md를 "백과사전이 아닌 목차"로 정의한 설계 판단에서도 동일한 전제를 읽을 수 있습니다.

속도감의 단서는 METR의 태스크 시간 지평 (task time horizon, 2025.03)입니다. 다만 METR가 측정하는 것은 모델이 완수할 수 있는 태스크의 길이이지, 하네스 기제의 노후화 속도 그 자체는 아닙니다. "태스크 길이가 약 7개월 만에 두 배로 늘어난다면, 모델 능력의 부족을 보완하는 워크어라운드 (workaround)형 하네스의 유효 기간도 같은 차수 (order)로 추정해야 한다"는 것은 직접적인 증거라기보다, 가치 하락 속도의 규모감을 제공하는 유추(analogy)로 읽어야 합니다.

잔존. 여기서 도출되는 실무적인 구분은, 감가상각이 빠른 자산(컨텍스트 압축(context compression) 기법, 모델의 약점을 우회하는 프롬프트 기술, 능력 부족을 전제로 한 태스크 분할)과, 감가상각이 잘 되지 않는 자산(평가 체계 및 검증 파이프라인, 샌드박스나 권한 등의 환경 설계, 기계 가독화된 도메인 지식)을 나누는 것입니다. Verifiability (2025.11)가 "검증할 수 있는 것이 자동화된다"라고 언급한 것과 같은 맥락으로, 하네스(harness) 투자 또한 "모델이 강해져도 가치가 남는 것은 검증과 환경"으로 수렴하고 있습니다. 실무 측의 사례로는 Stripe의 "Minions"가 있습니다. 해당 기업의 엔지니어링 블로그 보고(2026.02, InfoQ 보도)에 따르면, 자율 에이전트가 주당 1,300건 이상의 PR을 생성하고 있으며(전수 인간 리뷰를 거치지만 인간이 작성한 코드는 제로), 이를 성립시키고 있는 것은 약 300만 건의 테스트 자산 중 변경 사항과 관련된 것만 선택하여 실행하는 CI, push 전의 로컬 linter·hook, CI 실패 시 재시도를 2회로 제한하는 캡(cap)이라는 검증 인프라입니다. 검증 자산이 자율성의 전제 조건이 된다—테스트가 에이전트에 선행한다—는 순서를 보여주는 사례로, Spotify가 QCon London 2026에서 보고한 코드베이스 전체를 지속적으로 이관하는 에이전트 Honk도 같은 유형입니다. Anthropic의 해당 기사는 이를 evaluator로 실증하기도 했습니다. Opus 4.6으로의 세대 교체로 인해 evaluator가 불필요해지는 태스크는 늘어난 반면, 모델의 단독 능력의 경계에 있는 태스크에서는 가치가 계속 남았습니다. 즉, 감가는 기구 단위로 일률적으로 발생하는 것이 아니라, 태스크와 모델 능력의 경계에서 결정됩니다. 해당 기사의 결론인 "모델이 개선되어도 흥미로운 하네스의 조합 공간은 축소되지 않고 이동한다"는 것은, 이 보론의 주장을 1차 자료 측면에서 다시 표현한 것이라고 할 수 있습니다.

이 중 "기계 가독화된 도메인 지식"에는 보충 설명이 필요합니다. 구체적인 예시는 CLAUDE.md／AGENTS.md 및 Agent Skills입니다. Anthropic 사내에서는 각 팀이 git으로 관리되는 CLAUDE.md에 코딩 규약, 설계 지침, 과거의 실수를 축적하고, PR 리뷰에서 얻은 학습 내용을 @.claude 태그로 추가하여 에이전트의 실패를 조직의 자산으로 변환하는 운영(이른바 compounding engineering)이 보고되었습니다 (InfoQ, 2026.01). Agent Skills (2025.10)는 이러한 "절차적 지식의 기계 가독화"를 폴더 + Markdown 형식으로 제품화한 것으로, 그 계보는 Voyager (2023)의 skill library로 거슬러 올라갑니다. 이것들이 잔존 자산이 될 수 있는 이유는, 축적되는 내용이 모델의 능력이 아니라 조직의 사실—자사의 규약, 도메인 특유의 제약, 과거의 의사결정—이며, 모델을 교체하더라도 그대로 가져갈 수 있기 때문입니다. 다만 단일한 형태는 아닙니다. OpenAI가 AGENTS.md를 "백과사전이 아닌 목차"로 한정한 판단이 보여주듯, 모델이 이미 알고 있는 것 또는 추론으로 도출할 수 있는 것을 적어둔 부분은 세대 교체와 함께 사라집니다. 즉, 이 자산의 감가 내성은 "기계 가독성"이 아니라 "조직 고유성"에서 유래하며, CLAUDE.md 안에도 감가되는 행과 남는 행이 혼재합니다.

이러한 구분은 2026년 중반의 움직임과도 일치합니다. vault 환경 변수(2026.06)는 실제 키를 모델의 문맥(context)에 전혀 싣지 않고 네트워크 경계에서 부여하는 설계로, "환경 설계는 남는 쪽"이라는 제품 구현 사례입니다. 이는 Willison(2022.09) → Greshake et al.(2023.02) → OWASP LLM Top 10(2023.08)으로 이어져 온 프롬프트 인젝션 (prompt injection)의 계보에 대한 응답이, 프롬프트 측의 방어에서 환경 측의 설계로 옮겨갔음을 보여줍니다. 평가 측면에서는 FrontierCode(2026.06)가 평가 축을 "작동하는가"에서 "머지(merge)할 수 있는가(유지보수성·품질)"로 옮기고 있으며, 이는 평가계가 축소되는 것이 아니라 이동하고 있다는 사례를 입증합니다. 이 이동 또한 갑작스러운 것이 아니라, GitClear(2024–25)에 의한 유지보수성 저하의 정량화, DORA(2024–25)의 조직 수준 안정성 측정, SlopCodeBench(2026.03)의 품질 궤적 메트릭스(quality trajectory metrics)라는 계보의 도달점으로 읽을 수 있습니다. 나아가 안전·권한 계통의 하네스(harness)——on-the-loop 감독으로의 설계 전환(2025.10), Managed Agents의 승인 플로우(2026.04), 능력 계층과 분류기에 의한 액세스 제어(Fable/Mythos, 2026.06)——는 감가 곡선이 반대 방향입니다. 이것들은 모델이 강해질수록 불필요해지는 것이 아니라, 강해질수록 하중을 견디는(load-bearing) 역할을 하게 됩니다. 즉, 감가되는 것은 "능력의 부족을 보완하는" 하네스이며, "능력의 과잉을 제어하는" 하네스는 오히려 능력에 비례하여 두꺼워진다는 비대칭성이 존재합니다.

자동화는 언뜻 보면 감가의 최종 형태——하네스 설계라는 행위 자체가 모델에 의해 먹히는 것——처럼 보이지만, 실제로는 잔존의 또 다른 형태로 읽어야 할 현상입니다. 2026.03의 Meta-Harness/AutoHarness는 하네스 설계 자체를 모델이 탐색·합성할 수 있음을 보여주었습니다. 공개된 아티팩트(artifact)에 따르면, 탐색된 하네스가 Opus 4.6에서 Terminal-Bench 2.0의 76.4%에 도달하여 수작업으로 설계된 하네스를 상회하고 있습니다. 참고로 최적화 대상을 프로그래밍적으로 탐색한다는 발상 자체는 DSPy(2023)가 프롬프트/파이프라인 층에서 선행했으며, Meta-Harness/AutoHarness는 그 최적화 대상이 한 단계 위인 하네스 층으로 옮겨간 것으로 위치 지을 수 있습니다. 이는 "하네스가 사라짐"을 의미하지 않습니다. 오히려 하네스라는 레이어가 최적화 대상으로 형식화되었다——사람이 작성한 개별 하네스는 감가되어도, "좋은 하네스를 탐색하는" 문제와 그 탐색을 구동하는 평가계는 남는다——고 읽을 수 있습니다. "남는 것은 평가계이다"라는 잔존론의 가장 강력한 증거입니다.

또한, harness engineering이라는 영역 설정 자체에 대한 회의론도 동시대에 존재합니다(Latent Space의 「Is Harness Engineering Real?」 2026.03 등. 해당 기사는 Big Model/Big Harness 양 진영을 검토한 후, Bitter Lesson을 존중하면서도 하네스 엔지니어링의 실질적 가치를 인정하는 중간 지점에 안착하고 있습니다). 이 회의론이 묻는 것은 "하네스는 영구적인 전문 영역인가, 아니면 과도기적인 workaround 집합인가"이며, 본 보론의 해석은 이에 대해 "자산의 종류에 따라 답이 갈린다"라고 응답합니다. 서두의 표로 말하자면, "모델에 먹히는" 행만 보면 과도기론이 옳고, "잔존"하는 행만 보면 영구 영역론이 옳습니다. harness engineering과 loop engineering이 2026년에 독립 영역으로 확립된 것은, 이 "남는 쪽"에 대한 투자가 언어화되었기 때문이라고 읽을 수 있습니다.

이 연표를 관통하는 척추는 최적화의 단위가 prompt → context → harness → loop로 한 단계씩 올라온 하나의 선입니다. 각 용어의 확립에 소요되는 기간도 단축되고 있으며(context engineering은 약 3.5개월의 기사 연쇄, loop engineering은 트윗에서 정의 기사까지 약 48시간), 개념 형성의 사이클 자체가 가속화되고 있습니다.

망라성보다는 "원전의 동일성"을 우선하여 편찬했습니다. 오류, 누락, 혹은 "이 1차 자료도 추가해야 한다"는 지적이 있다면 댓글로 알려주시면 감사하겠습니다.

AI/LLM 연표와 보론 2026.06

요약

핵심 포인트

댓글