자기 개선 AI의 핵심은 '가중치'인가 '하네스'인가 ― 검증기의 경계선에서 읽는 SIA

서론

최근 몇 주 동안 AI 에이전트 업계에서는 SIA (Self-Improving AI with Harness & Weight Updates, Hebbar et al., Hexo Labs 외, arXiv:2605.27276v2, 2026년 5월)라는 논문과 그 오픈 소스 구현이 화제가 되고 있습니다.

결론부터 말하자면, SIA는 모델 자체를 태스크에 최적화하여 정밀도와 품질을 끌어올리는 강력한 메커니즘 —— acquisition(획득)의 이상적인 형태——입니다. 다만, 그 위력을 그대로 거둘 수 있을지는 태스크에 달려 있습니다. 현장의 많은 태스크는 우선 elicitation(잠재 능력 인출)만으로도 충분히 큰 성과를 얻을 수 있으며, acquisition을 통한 추가적인 향상은 깨끗한 검증기(verifier)를 준비할 수 있는 영역에서야 비로소 본령을 발휘합니다. 반대로 이를 만들 수 없는 고가치 태스크에서는, 향상이 존재하더라도 사실상 손에 닿지 않습니다.

본고에서는 먼저 SIA를 AI 엔지니어의 관점에서 해설하고, 이어서 "실제로 우리 현장에 도입할 수 있는가"를 비판적으로 검토합니다. 이 전체를 하나의 축으로 관통합니다. 바로 elicitation(잠재 능력 인출)과 acquisition(능력 획득) 이라는 구분입니다. 결론을 먼저 말하자면, SIA는 acquisition의 이상적인 형태이지만, 현장의 많은 태스크는 애초에 acquisition을 필요로 하지 않습니다. 그리고 "그렇다면 현장은 어디에서 앞으로 나아갈 수 있는가"를 가르는 것이 본고의 부제로 내건 검증기(verifier)의 경계선입니다. 이 경계선은 최근 RLVR(검증 가능한 보상에 의한 강화학습)의 기업 전개를 통해 실제로 움직이고 있습니다. 마지막으로, 그 경계선이 극한까지 전진한 끝에 있는 "완전 자동의 이상형"을 전망하며 마무리하겠습니다.

수치 및 용어의 출처에 대하여: 본고의 수치 및 기구에 대한 기술은 논문 본문(arXiv:2605.27276v2)에 근거합니다. 반면, "MIT 라이선스 구현체인 github.com/hexo-ai/sia가 공개되어 pip로 실행할 수 있다"와 같은 기술은 논문 본문에 적혀 있지 않습니다. 이는 리포지토리나 공개 보도(MarkTechPost 등, 2026년 5월)에 기반한 별도의 소스이므로 출처를 나누어 다룹니다. 공개 당시의 홍보에는 논문에 나타나지 않는 과장이 섞여 있습니다. "OpenAI 설계의 벤치마크에서 초지능으로 가는 길을 350배 가속", "MLE-Bench에서 MLEvolve나 Karpathy의 autoresearcher를 능가", "하네스(harness)·가중치(weight)·메모리(memory) 3가지를 편집", "LawBench 56.6%·denoising 502% 개선" —— 이들은 모두 베이스라인 대비 화려해 보이지만, 논문의 "3개 태스크·2개 레버·SOTA 대비(25.1%·20.4%)"라는 실제 주장과는 별개의 것입니다. 본고가 평가하는 것은 논문 본문의 주장에 한합니다.

1. SIA란 무엇인가 ― 두 개의 사이로(Silo)를 하나의 루프로

1.1 출발점: "인간이 병목이다"와 두 개의 사이로

SIA의 문제의식은 심플합니다. 지금의 AI는 모델도 그 위의 에이전트도 모두 인간이 작성하고, 조정하고, 디버깅합니다. "스스로 자신을 개선하는 AI"라는 장기 목표에서 보면, 인간이야말로 율속 단계(bottleneck)다 —— 이것이 출발점입니다.

그 위에서 논문은 자기 개선 연구가 **두 개의 사이로(silo)**로 분단되어 있다고 정리합니다. 이 부분은 본고에서 가장 많이 재사용할 개념 장치입니다.

사이로 1: 하네스/스캐폴드(Harness/Scaffold) 자기 개선. 메타 에이전트가 스캐폴드(시스템 프롬프트, 툴 디스패치, 재시도 방침, 답변 추출 코드)를 세대를 거쳐 다시 씁니다. 단, 모델의 가중치(weight)는 동결된 상태입니다. 대표적인 예로는 Darwin Gödel Machine, Meta-Harness, Hyperagents가 있습니다. 이 진영의 경험칙으로서 논문은 "스캐폴드 편집은 파싱(parsing)·재시도(retry)·디스패치(dispatch)와 같은 소프트웨어 공학적인 개선에 집중하기 쉬우며, 베이스 모델이 어떤 프롬프트로도 내놓을 수 없는 종류의 도메인 추론은 좀처럼 태어나지 않는다"라고 지적합니다.

사이로 2: 테스트 타임 훈련(test-time training). 수작업으로 만든 RL 파이프라인이, 하네스를 고정한 채로 모델의 가중치를 태스크의 피드백으로 업데이트합니다(TTRL 등). 내부의 정책(policy) 변화로부터 이득(gain)을 얻지만, 그것을 전달하는 파이프라인 자체는 인간이 설계합니다.

하네스 (Harness) 연구는 모델을 고정하고, 테스트 타임 훈련 (Test-time training)은 하네스를 고정합니다. 이 두 가지를 하나의 루프에서 동시에 작동시키는 것 —— 이것이 SIA의 목표입니다.

1.2 아키텍처: 3개의 에이전트

SIA는 에이전트를 「LLM (가중치 θ) / 시스템 프롬프트 / 툴 디스패치 (Tool dispatch) / 답변 추출 / grader (검증기)」로 분해하며, **가중치 이외의 고정된 코드 부분을 통칭하여 「스캐폴드 (Scaffold, 즉 하네스)」**라고 부릅니다. 루프를 구동하는 것은 3개의 LLM 컴포넌트입니다.

Meta-Agent ― 태스크 사양과 참조 구현으로부터 초기 스캐폴드를 생성합니다.
Task-Specific Agent ― 샌드박스 내에서 태스크를 실행하고, 모든 단계의 로그 (궤적, Trajectory)를 남깁니다.
Feedback-Agent ― 이전 세대의 스캐폴드, 그 실행 궤적 자체, 성능 지표를 읽고 다음 수를 결정합니다.

핵심은 Feedback-Agent가 집계 지표 (정답률 등)뿐만 아니라 전체 궤적 (모든 프롬프트 · 모든 응답 · 모든 툴 호출 · 모든 결과)을 받는다는 점입니다. "평균 점수가 떨어졌다"라는 거친 반응이 아니라, "이 입력에서 이 파싱 (Parsing)에 실패하고 있다"라는 개별적인 실패 모드 (Failure mode)의 진단이 가능합니다.

구현은 베이스 모델로 gpt-oss-120b (LoRA rank 32, lr 4×10⁻⁴)를 사용하며, 가중치 업데이트는 Modal 상의 H100에서 실행합니다. Meta-Agent와 Feedback-Agent에는 Claude Sonnet 4.6을 사용하고 있습니다.

1.3 본질은 "둘 다 건드리는 것"보다 "동적으로 선택하는 것"

SIA에서 가장 놓치기 쉬운 핵심이 바로 여기입니다. Feedback-Agent는 고정된 RL 절차를 단순히 돌리는 것이 아닙니다. 각 단계에서 "하네스 업데이트"인지 "가중치 업데이트"인지를 동적으로 선택하며, 가중치 업데이트를 선택한 경우에는 관측된 보상 랜드스케이프 (Reward landscape)에 조건 지어 RL 알고리즘 자체까지 선택합니다.

다만, 이 점은 정확히 구분할 필요가 있습니다. 논문 §7.3에서 명시하듯, 보고된 3가지 태스크에서 실제로 관측된 것은 3가지 수법뿐이며, 나머지는 "여기에 포함되지 않은 더 넓은 실험군에서 관측된 공통 패턴"입니다. 아래 표의 상단 3행은 이 논문에서 실증된 구분법이며, 하단 3행은 보고되지 않은 런 (Run)으로부터의 주장으로, 보고된 실험에서의 뒷받침은 없습니다.

선택되는 수법	발화 조건	본 논문에서의 취급
PPO + GAE	단계별 보상이 조밀하고, 훈련의 안정성이 병목인 경우 (긴 코드 생성 등)	실증 (LawBench)
Entropic advantage weighting	보상 분포가 오른쪽으로 강하게 왜곡됨 (정답은 드물지만 신호는 높음). 그래디언트 질량을 재배분하여 단일 궤적으로의 붕괴를 방지	실증 (TriMul)
GRPO	롤아웃 (Rollout) 비용이 저렴하고, 검증기가 에피소드 종료 시점에 발화함 (분류 · 단답 · 유닛 테스트 계열). 가치 함수 (Value function)가 불필요	실증 (denoising)
REINFORCE + KL-to-base	보상이 조밀하고, 주요 리스크가 분산이 아닌 능력 퇴행임. 베이스 모델이 이미 거의 유능하여 크게 움직이고 싶지 않음	주장일 뿐 (미보고)
Best-of-N 행동 클로닝 (Behavior cloning)	보상이 너무 희소하여 기대값이 거의 0임. 상위 롤아웃을 증류(Distillation)하여 콜드 스타트 해결	주장일 뿐 (미보고)
DPO	검증기가 절대 점수는 낼 수 없지만 순위는 매길 수 있음. 서수 신호 (Ordinal signal)는 신뢰할 수 있으나 기수 보상 (Cardinal reward)은 불확실함	주장일 뿐 (미보고)

덧붙여, 이 선택은 학습된 정책 (Policy)이 아닙니다. 논문 §9에서 인정하듯, 현재의 선택기는 "동결된 LLM의 사전 분포" —— 즉, Claude Sonnet 4.6이 궤적을 살펴보고 휴리스틱하게 결정하고 있을 뿐입니다. "RL 수법의 라우터 (Router)"라는 비유는 기능을 실제보다 체계적으로 보이게 만듭니다. 보고된 3가지 수법도 "그것이 사용되었다"라는 기록일 뿐, "다른 수법이었다면 열등했을 것이다"라는 반사실적 가정까지는 보여주지 않습니다.

그럼에도 불구하고, "두 개의 레버를 가진 것"보다 "신호를 보고 가장 적합한 레버와 수법을 조건부로 선택한다"라는 발상이야말로 SIA의 새로움의 중심이라는 해석은 변함이 없습니다 (논문도 EUREKA와의 차이점을 이 "폐루프에서의 동적 선택"에 두고 있습니다). 다만 현시점에서는 그것이 체계적인 라우터가 아니라 휴리스틱한 선택이라는 제한을 두고 받아들이는 것이 정확합니다.

1.4 지금까지의 요약

한마디로 말하자면, SIA는 "AI가 자신이 사용하는 도구(Harness)와 자신의 머리 그 자체(Weights) 모두를 스스로 연마하는" 메커니즘입니다. 3개의 에이전트(초기화/실행/개선)가 회전하는 루프 속에서, 개선 역할이 전체 궤적을 보고 "스캐폴드(Scaffold)를 다시 쓸 것인가" 아니면 "LoRA로 파인튜닝(Fine-tuning)할 것인가"를 매 스텝 선택하며, 정체를 감지하면 레버를 전환합니다. 기술적으로 주목해야 할 점은 (a) 보상 밀도·롤아웃 비용·능력 퇴행 리스크에 조건화된 휴리스틱한 (Heuristic) 알고리즘 선택, (b) 후술할 결합 Goodhart (Coupled Goodhart), (c) 3개 태스크 중 2개에는 train/test 분리가 없어 평가 인스턴스 자체에 최적화하고 있다는 점, 이 세 가지입니다.

2. 무엇이 혁신적인가 ― 그리고 본고의 축

2.1 혁신성: 약한 오픈 모델을 자율 루프로 기존 에이전트를 능가하는 전문가로 변모시키다

SIA의 성과를 먼저 솔직하게 평가하겠습니다. 출발점은 gpt-oss-120b입니다. 단독으로는 3개 태스크 모두에서 Codex나 Claude Code에 미치지 못하는 오픈 웨이트(Open-weight) 모델입니다 (Baseline: LawBench 13.5%, TriMul 1.00×, denoising 0.048). SIA의 루프는 이 약한 베이스에서 출발하여, 대상 태스크에서는 기성 프론티어 코딩 에이전트를 상회하는 전문 에이전트를 만들어냈습니다.

태스크	gpt-oss-120b 단독	Codex	Claude Code	SIA-W+H	기존 SOTA
LawBench (top-1)	13.5%	19.3%	17.3%	70.1%	45.0%
TriMul (속도비)	1.00×	1.10×	1.50×	14.02×	1.29×
Denoising (mse norm)	0.048	0.218	0.232	0.289	0.240

이 표가 보여주는 것은 모델의 "천장" 그 자체를 사람의 개입 없이 자율 루프로 끌어올렸다는 사실입니다. 가장 상징적인 것이 CUDA 커널 최적화(TriMul)일 것입니다. 베이스 모델이 스캐폴드의 품질과 관계없이 단 한 번도 생성하지 않았던 H100 고유의 설계 패턴(공유 메모리 타이링, fp32 레지스터 누적, 블록 사이즈 선택)을, 가중치 업데이트가 내재화하여 보여주었습니다. 프롬프트로도 스캐폴드로도 심어줄 수 없는 도메인 직관을 모델 내부에 구축할 수 있다—이것이 SIA 혁신의 핵심, 즉 "acquisition(획득)의 자동화"입니다. 비교적 약한 오픈 모델이라도 하네스와 가중치의 공진화를 통해 태스크 특화시킨다면, 훨씬 강력한 범용 에이전트와 대상 태스크에서 대등하거나 이를 능가할 수 있습니다. 저렴한 베이스로부터 전문 에이전트를 만들어낼 수 있다는, 실무적으로도 시사하는 바가 큰 결과입니다.

다만, 이 수치를 "범용적인 모델 능력의 향상"으로 읽는 것은 위험하며, 일반화 가능성에는 유보가 필요합니다. 자세한 내용은 §3.5에서 다루겠지만, 요점만 먼저 말하자면 3개 태스크 중 홀드아웃 테스트(held-out split)로 일반화를 확인한 것은 LawBench뿐입니다. TriMul과 denoising은 train/test 분리가 없어 평가 인스턴스 자체에 대한 최적화이므로, "기존 에이전트를 상회했다"는 것은 해당 대상 인스턴스 상에서의 결과라고 읽는 것이 정확합니다. 반대로 LawBench는 913건의 홀드아웃 테스트에서 70.1%를 기록하며 (Claude Code 17.3%·기존 SOTA 45.0% 대비) 일반화를 동반한 신뢰할 수 있는 우위라고 읽을 수 있습니다.

또한, 동일한 도표에는 다른 시사점도 포함되어 있습니다. TriMul의 SIA-H(자동 하네스만 사용·1.14×)는 기성 Claude Code 단독(1.50×)에 미치지 못합니다. denoising에서도 SIA-H(0.241)는 Claude Code(0.232)와 거의 비슷한 수준입니다. 이것이 가중치 업데이트의 가치를 훼손하는 것은 아닙니다. 가중치는 거기서부터 14배까지 확장했으니까요. 오히려 SIA의 자동 하네스 탐색(Silo 1)이 양질의 frozen 에이전트를 수동으로 사용하는 경우보다 뒤처질 수 있음을 보여주는 자료이며, 이 점은 제4절에서 "지금 현장에서 무엇을 해야 하는가"를 고민할 때 유효하게 작용할 것입니다.

2.2 본고의 축: elicitation인가 acquisition인가 (그리고 2×2로의 정밀화)

본고에서 사용할 구분을 설명하겠습니다. 이는 필자의 조어(造語)가 아니라, AI 능력 평가 연구에서 확립된 구분입니다 ("Quantifying Elicitation of Latent Capabilities", NeurIPS 2025; "The Elicitation Game", ICML 2025 등). 태스크에는 두 가지 레지임(regime)이 있습니다.

acquisition (능력 획득 / 천장 높이기): 성공을 위해 베이스 모델이 애초에 가지고 있지 않은 능력이 필요함. 컨텍스트(context)에 사실을 실어도 전달되지 않으며, 어떤 프롬프트로도 도달할 수 없음.

elicitation (잠재 능력의 인출): 필요한 능력이 모델에 잠재되어 있음. 병목(rate-limiting step)은 "인출 방법 및 오케스트레이션(orchestration)"에 있음.

여기서 무심코 "acquisition = 가중치 / elicitation = 하네스"라고 1대 1로 대응시키고 싶어지지만, 이는 지나치게 단순화된 것입니다. 정확하게는 다음의 2×2로 파악해야 합니다.

하네스는 elicitation만 할 수 있습니다. "RAG로 외부 지식을 추가할 수 있다면 acquisition이 가능한 것 아니냐"라는 반론은 acquisition의 내용을 오해한 것입니다. RAG가 공급하는 것은 컨텍스트에 실을 수 있는 사실이며, 모델은 그것을 사용하는 추론 능력을 이미 가지고 있습니다. RAG는 입력을 정돈하는 elicitation의 일종입니다. acquisition이 가리키는 것은 컨텍스트에 실어도 전달되지 않는, 절차적인 능력 및 도메인 직관입니다. §2.1의 H100 커널의 경우, CUDA 최적화 문헌을 아무리 집어넣어도 베이스 모델이 공유 메모리 타이링(tiling)을 작성할 수 있게 되지는 않습니다. "검색해서 가져올 수 있는 사실"이 아니라 "직접 해보며 몸에 익히는 절차"이기 때문입니다.

가중치는 elicitation과 acquisition 둘 다 할 수 있습니다. acquisition은 가중치로만 채울 수 있는 반면, 가중치 업데이트는 잠재 능력의 인출에도, 그것도 저렴하게 효과를 발휘합니다. "Quantifying Elicitation"은 무작위로 선택한 저차원(low-rank) 가중치를 단 수십~~수만 개만 움직여도 제로샷(zero-shot)과 풀 파인튜닝(full fine-tuning)의 성능 차이 중 50~~95%를 회수할 수 있다고 보고합니다. "The Elicitation Game"은 다지선다형 문제라면 프롬프트로 인출할 수 있는 잠재 능력이, 개방형 코드 생성에서는 파인튜닝(fine-tuning)만이 인출할 수 있는 경우가 있다고 보고합니다.

즉, 가중치는 acquisition의 유일한 레버(lever)인 동시에, elicitation의 유력한 레버이기도 합니다. 이 비대칭성—하네스는 한쪽만, 가중치는 양쪽 모두—이 후반부 논의의 토대입니다.

이 축으로 다시 말하자면, SIA가 새로운 이유는 acquisition을 자동화했다는 점입니다. 기존의 하네스 자기 개선(사일로 1)은 본질적으로 elicitation에 머물러 있었습니다. SIA는 거기에 "천장을 높이는" 가중치 레버를 추가한 것입니다. 직관적으로 보면, 가중치 업데이트로 얻을 수 있는 이득(gain) 중 하네스로는 결코 도달할 수 없는 고유한 몫은, acquisition 갭(베이스에 없는 지식의 양)이 클수록 커집니다. 반대로 elicitation이 병목인 태스크에서는 frozen 천장과 현 상태의 차이가 작아, 가중치를 더해도 가중치로만 잡을 수 있는 것은 거의 남아 있지 않습니다. 참고로 acquisition은 정의상 천장 그 자체를 움직이는 조작이므로, 여기서는 엄격한 비례 법칙이 아닌 단조로운 지표로 이해해 주시기 바랍니다.

이후 혁신성, 한계, 보급 예측 모두 이 2×2 구조 위에서 논의하겠습니다.

3. 실운용에 적용하면 ― 장벽의 구조

SIA를 실운용에 적용하면 성격이 다른 장벽에 부딪힙니다. 중요한 점은, 일부는 시간이 해결해주지만, 일부는 시간만으로는 해결할 수 없다는 것입니다.

3.1 비용·기반층 (결국 완화될 부분)

가중치 업데이트에는 그래디언트(gradient)를 돌릴 GPU와 RL 기반이 필요합니다. SIA는 H100 위에서 작동하고 있습니다. 고가의 GPU나 RL 파이프라인을 자체 운용할 수 있는 개인이나 기업은 소수이며, 많은 현장에서 지금 당장 이를 수행하는 것은 **오버엔지니어링(over-engineering)**입니다.

다만, 이 층은 프로바이더 측의 정비로 완화될 것입니다. 강화학습 기반의 파인튜닝(RFT) API는 이미 나오기 시작했습니다. SIA와 같은 자율 루프를 그대로 돌리기에는 아직 메커니즘이 부족하다는 것이 필자의 견해이지만, 비용과 기반은 본질적으로 시간 문제입니다. 역설적으로 말하면, 다음의 장벽들은 "비용이 사라져도 남기 때문에" 무거운 것입니다.

3.2 데이터층

기업이 준비할 수 있는 데이터의 문제가 있습니다. 편향성, 절대량의 부족, 그리고 간과되기 쉽지만, 애초에 데이터화되지 않은 중요한 지식의 존재가 그것입니다. RL (강화학습)을 돌리는 모집단이 빈약하다면, 가중치 업데이트는 제대로 작동하지 않습니다.

3.3 구조층 그 첫 번째: verifier의 설계와 그 경계선

가장 본질적인 성격을 파악해야 할 장벽은 벤치마크 = 검증기 (verifier)의 설계입니다. 여기서 먼저 짚고 넘어가야 할 점은, verifier의 clean 함은 '기업인가 아닌가'가 아니라 '서브태스크를 결정론적(deterministic)으로 판정할 수 있는가'에 의해 결정된다는 점입니다.

실제로 2026년의 RLVR (검증 가능한 보상에 의한 강화학습) 실무는 이 방향으로 나아가고 있습니다. RLVR은 출력이 결정론적인 체크를 통과했을 때만 보상을 주는 방식으로 모델을 훈련하며, 사람의 라벨링 없이도 저분산(low variance)의 확장 가능한 신호를 얻는 기법으로서 기업 도입이 확산되고 있습니다. 유닛 테스트, 스키마 검증, 완전 일치, 수치 허용 오차——이러한 결정론적으로 합격/불합격을 낼 수 있는 서브태스크라면, 기업이 사내에서 설계하고 분석한 verifier도 충분히 clean 할 수 있습니다. SIA가 선택한 3가지 태스크(법적 분류, 커널 최적화, RNA 보완)의 공통점도 바로 clean하고 결정론적인 grader가 존재한다는 것이었습니다. 논문이 출발점에서 "태스크 사양과 verifier가 주어진다면"이라고 명시한 것은 숨겨진 결함이 아니라 스코프(scope)를 명시한 것입니다.

다만, 여기서 "clean 할 수 있다"라고 말하는 것은 어디까지나 결정론적으로 측정할 수 있는 서브태스크에 국한된 이야기입니다. 이후 §4에서 "현장은 평가 메커니즘을 만들어라"라고 언급하겠지만, 거기서 만들어야 할 것은 SIA의 자동 루프가 요구하는 "완전한 오라클 (oracle)"과는 다른 수준의 것입니다. 이 구분은 §4.4에서 정면으로 다룹니다. 문제는 결정론의 스코프 외부에 무엇이 남느냐 하는 것입니다. 외부에 남는 것들을 세 가지로 정리합니다.

(1) 가장 가치 높은 품질 신호는 여전히 clean verification에 저항한다. "좋은 이메일인가", "이 사업 전략은 타당한가"에는 ground truth (정답)가 없습니다. 성과 신호는 지연되고 (비즈니스 협상이 성사되는 것은 반년 뒤일 수도 있습니다), 희소하며, 교란(confounding)되고, 품질은 주관적이라 이해관계자마다 의견이 갈립니다. RLVR은 초기에 수학이나 코드와 같이 결정론적 체크가 유효한 영역에 집중하다가, 이후 rubric이나 LLM-as-a-Judge를 보상원으로 삼아 금융·법무와 같은 반(semi) 검증 가능 영역으로 확장되어 왔습니다. 하지만 완벽한 검증기——좋은 출력에는 일관되게 보상하고, 나쁜 출력에는 벌을 주는 결정론적 오라클——은 실제로는 존재하지 않습니다. 판정을 LLM에 맡기는 순간, 측정 오차가 증폭됩니다.

(2) verifier와 rubric은 '대체'가 아닌 '병용'으로. 2026년에 공고해지고 있는 컨센서스는 이른바 Hybrid Norm입니다. 결정론적인 유닛 테스트나 수치 체커가 "풀었는가 (What)"를 담당하고, LLM rubric이 "읽기 쉽고, 효율적이며, 안전하게 작성되었는가 (How)"를 담당하여, 양자가 서로를 대체하는 것이 아니라 결합하는 방식이 권장되고 있습니다. 중요한 점은, 후자 (How)를 담당하는 rubric/LLM-judge가 다음에 서술할 취약성을 가져온다는 점입니다.

(3) 「만들었다고 생각한 verifier」는 최적화에 노출되면 무너진다. 이는 더 이상 이론상의 걱정이 아닙니다. 2026년 4월, UC Berkeley의 연구팀(Dawn Song 외)이 주요 에이전트 벤치마크(benchmark) 군을 대상으로 소름 끼치는 결과를 보고했습니다. SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench 등 8개의 유명 벤치마크를 자동 스캔 에이전트로 감사한 결과, 그 모든 벤치마크에서 단 하나의 태스크도 해결하지 않고 거의 만점을 받을 수 있었습니다. 많은 실행(run)에서 LLM을 단 한 번도 호출하지 않고, 능력이 전혀 없는 상태로 SWE-bench Verified의 500개 태스크에서 100%, Terminal-Bench의 89개 태스크에서 100%를 기록했습니다. 수법은 의도적으로 단순합니다. SWE-bench Verified에서는 10줄짜리 conftest.py가 모든 인스턴스를 "해결"하며, Terminal-Bench에서는 가짜 curl 래퍼(wrapper)가 89개 태스크 모두에서 만점을 받아냅니다. 그들의 처방은 명확합니다. 공개 전에, 능력이 없는 적대적 에이전트(adversarial agent)를 자신의 하네스(harness)에 실행시켜 보라는 것입니다. 만약 그것이 0점을 넘는다면, 그 평가 체계에는 버그가 있는 것입니다. LLM-judge 자체도 취약하여, "Thought process:"나 "Solution"과 같은 "마스터 키(master key)" 응답만으로도 위양성률(false positive rate)이 80%에 달한다는 것이 밝혀졌습니다. 검증기(verifier)는 "만들 수 있는가"뿐만 아니라 "최적화에 노출되어도 무너지지 않는가"까지 질문받게 되며, 이 점은 다음 절의 결합된 Goodhart 법칙으로 직결됩니다.

정리하자면, verifier의 경계선은 다음과 같이 그을 수 있습니다. 결정론적으로 측정 가능한 서브태스크(subtask)에서는 기업이 만드는 verifier도 깨끗해질 것이며, 그 범위는 RLVR의 진보와 함께 넓어질 것입니다. 반면, (1) 주관적·지연적·희소(sparse)·교란(confounded)된 고가치 품질 신호와, (2) 어떤 verifier라도 최적화 압력에 의해 무너질 수 있다는 취약성 — 이 두 가지는 당분간 현장의 고가치 영역으로 남을 것입니다.

3.4 구조층 그 두 번째: 결합된 Goodhart (검증기를 만들어도 남는 문제)

설령 검증기를 만들 수 있다고 해도 안심할 수는 없습니다. 논문 §8에서 직접 언급한 한계는 바로 **결합된 공진화적 Goodhart (coupled co-evolutionary Goodhart)**입니다. 하네스 탐색과 RL 가중치 업데이트는 동일한 고정 verifier V를 최적화합니다. 하네스는 "현재의 정책(policy)이 먹기 쉬운 스캐폴드(scaffold)"를 찾아내고, 가중치는 "다음에 다시 쓰일 스캐폴드를 통해 수집된 데이터"로 훈련됩니다. 이 연립계의 부동점(fixed point)은 서로의 업데이트 이력을 보지 않는 두 최적화기 사이의 내쉬 균형(Nash equilibrium)이지, 미지의 스캐폴드나 새로운 정책 하에서 V를 최대화하는 지점이 아닙니다. 표준적인 Goodhart 분석은 단일 최적화기를 가정하지만, 2-레버(2-lever) 설정은 결합된 변종을 만들어내며, 그 균형은 검증기 위에서는 강력해 보일지라도 어느 한 요소가 조금만 움직여도 무너집니다. 검증기를 만들 수 있다는 것은 필요조건이지 충분조건이 아닙니다.

3.5 구조층 그 세 번째: 일반화 (3개 태스크 중 held-out이 없는 경우)

그리고 가장 간과하기 쉬운 주의사항(caveat)입니다. §2.1에서도 언급했듯이, 논문 Table 2의 평가 설정을 살펴보겠습니다.

태스크	Train / Test
LawBench	5,332 / 913 (held-out test split)
AlphaEvolve TriMul	n/a / fixed input shape
MAGIC denoising	n/a / pancreas scRNA-seq

TriMul과 denoising에는 train/test 분리가 없습니다. 가중치 업데이트는 평가에 사용하는 그 인스턴스 자체에 최적화되어 있습니다 (TTT로서는 의도된 설계입니다). 따라서 "14.02배 가속화"는 **단일 커널 입력 형상에 대한 과적합(overfitting)**의 결과이며, 미지의 커널 과제에 대한 일반화(generalization)를 나타내지 않습니다. denoising 역시 특정 데이터셋 상의 수치일 뿐입니다. 3개의 태스크 중 홀드아웃(held-out) 테스트로 일반화를 확인한 것은 LawBench뿐입니다. SIA의 수치를 "범용적인 모델 능력의 향상"으로 읽는 것은 위험합니다.

3.6 보급 예측

이상을 종합하면, 예측은 다음과 같이 정리할 수 있습니다. 비용과 기반 계층(Foundation layer)이 완화된다면, "검증기(Verifier)를 만들 수 있고 / Goodhart 법칙을 견뎌내며 / 실전(Production)에서 일반화(Generalize)할 수 있는" 태스크에서는 SIA형 메커니즘이 보급될 수 있습니다. 하지만 그 조건을 충족하지 못하는 태스크(주관적·지연적·희소한 품질 신호, 또는 단일 인스턴스 최적화가 일반화되지 않는 설정)는 구조적으로 SIA의 범주 밖에 계속 머물 가능성이 있습니다. "비용 장벽만 사라지면 보급될 것"이라는 낙관론은 verifier, Goodhart, 일반화라는 세 가지 구조적 장벽을 간과하고 있습니다.

4. 그렇다면 지금, 현장이 해야 할 일은 elicitation의 강화다

SIA는 강력한 기술입니다. 성능이 낮은 오픈 모델(Open model)을 출발점으로 하여, 대상 태스크에서는 기존의 프론티어 에이전트(Frontier agent)를 능가하는 전문 에이전트를 사람의 손을 거치지 않고 만들어냈습니다. 모델의 천장(Ceiling) 자체를 움직일 수 있는 이상, 깨끗한 검증기를 준비할 수 있는 태스크에 대해서는 이를 최적화해 나갈 가능성이 있습니다. 이 잠재력은 정당하게 평가되어야 합니다.

그럼에도 불구하고, 본 절의 질문은 시간축에 있습니다. 그 잠재력을 지금 이 순간, 일반적인 현장에서 돌릴 수 있는가. 답은 "아직 토대가 갖춰지지 않았다"입니다. 제3절에서 살펴본 장벽들—가중치(Weight) 업데이트에 필요한 GPU와 RL 기반(§3.1), 부족해지기 쉬운 학습 데이터(§3.2), 그리고 자동 루프(Automatic loop)가 요구하는 깨끗한 검증기(§3.3~§3.5)—은 모두 고정된 벽이 아니라 기술과 기반의 진보에 따라 움직일 수 있는 조건들이지만, 현시점에서는 갖춰지지 않았습니다. 이는 "SIA를 사용할 수 없다"는 단정이 아니라, 보급의 전제 조건이 아직 갖춰지지 않았다는 현상 정리입니다. 이것들이 결여되어 있는 동안, 자동 루프는 "검증기 위에서는 강해 보이지만, 실전에서는 취약한" 상태에 빠질 위험이 있습니다.

따라서 당면한 현실적인 질문은 "어떻게 천장을 높일 것인가"가 아니라, "현재 있는 천장에 어떻게 손을 닿게 할 것인가"가 됩니다. 본고의 입장은 다음과 같습니다. 천장을 높이는 것이 아니라, 하네스(Harness)를 연마하여 이미 존재하는 천장에 손을 닿게 하는 것—즉, elicitation의 강화입니다. 그리고 그것은 궁극적으로 두 가지 작업으로 나뉩니다. 하네스 자체의 개선과, 이를 뒷받침하는 평가 메커니즘의 확충입니다. 나중에 살펴보겠지만, 이 두 가지는 눈앞의 품질 개선에 효과적일 뿐만 아니라, 언젠가 SIA와 같은 자율 루프를 도입할 때의 토대 그 자체가 될 것입니다.

4.1 출력 품질을 가장 크게 움직이는 레버는 가중치가 아니라 하네스다

여기서 희소식이 있습니다. 현장에서 AI 에이전트의 출력 품질을 가장 크게 좌우하는 것은, 많은 경우 모델의 가중치가 아니라 **하네스(Harness)**입니다.

Insights