AI 에이전트는 '해석'을 단서로 모델 탐색을 개선할 수 있는가?

서론

최근 AI 에이전트에게 코드를 작성하게 하거나 실험을 수행하게 하는 것은 상당히 현실적인 일이 되었습니다. 반면, 에이전트가 '다음에 어떤 실험을 해야 하는가'를 판단할 때 무엇을 단서로 삼고 있는지는 아직 모호합니다.

이 기사에서는 AGENTIC-IMODELS라는 논문을 가볍게 소개하면서, 그 아이디어에 영감을 받아 만든 작은 Kaggle 스타일의 실험 하네스(harness)에 대해 쓰고자 합니다.

특히 확인해보고 싶었던 것은 다음 질문입니다.

모델의 해석 정보는 인간에게 설명하기 위한 목적뿐만 아니라, 다음 AI 에이전트가 더 나은 모델 변경을 선택하기 위한 탐색 인터페이스(exploration interface)가 될 수 있는가?

결론부터 말하자면, 이번 synthetic regression 실험에서는 모델 표현이나 interpretability artifact를 볼 수 있는 representation 조건이, 볼 수 없는 blind 조건에 대해 3/3 샘플로 승리했습니다.

다만, 이것이 '해석 정보가 반드시 성능 개선을 인과적으로 만들어냈다'라고까지 강하게 주장하는 것은 아닙니다. 이번에 말할 수 있는 것은, 적어도 이 작은 실험 설정에서는 representation evidence를 사용할 수 있는 탐색이 고정된 budget 내에서 더 좋은 RMSE에 도달했다는 실천적인 결과입니다.

AGENTIC-IMODELS 논문에 대한 대략적인 이야기

AGENTIC-IMODELS는 해석 가능성(interpretability)을 '인간이 읽기 쉬운가'뿐만 아니라 'AI 에이전트가 읽고 사용할 수 있는가'라는 관점에서 재정의하는 논문입니다.

논문에서는 scikit-learn-compatible한 회귀 모델을 에이전트가 개선해 나가는 autoresearch loop가 제안되어 있습니다. 모델은 fit, predict, __str__를 가지며, 예측 성능뿐만 아니라 모델의 문자열 표현을 읽은 LLM이 모델의 동작을 답할 수 있는지도 평가됩니다.

여기서 흥미로운 점은 __str__이 단순한 디버그(debug)용 문자열이 아니라는 것입니다. 모델의 문자열 표현은 LLM에게 있어 해당 모델을 이해하기 위한 인터페이스가 됩니다. 논문에서는 이러한 agent-facing interpretability를 높임으로써 예측 성능과 해석 가능성의 trade-off frontier를 개선할 수 있는지를 조사합니다.

또한, 논문의 주장은 '인간에게 읽기 쉬운 모델이 항상 좋다'는 이야기가 아닙니다. 오히려 앞으로 데이터 분석이나 모델 개선을 AI 에이전트가 담당한다면, 모델도 인간뿐만 아니라 에이전트에게 다루기 쉬운 형태로 표현되어야 하지 않을까 하는 문제 제기에 가깝습니다.

그곳에 나의 작은 의문이 있었다

이 논문을 읽으면서 개인적으로 궁금했던 점은 조금 더 작은 질문이었습니다.

모델 표현이나 interpretability artifact를 '다음 candidate를 생각하는 에이전트'에게 전달하는 것만으로 탐색의 효율이 정말로 변하는가?

즉, 완성된 모델의 interpretability를 평가하는 것뿐만 아니라, interpretability artifact를 다음 실험 설계의 입력으로 사용했을 때 동일한 budget으로 더 좋은 candidate에 도달하기 쉬워지는지를 보고 싶었습니다.

원 논문 자체가 이 관심사와 무관하다는 것은 아닙니다. 오히려 agent-facing interpretability라는 문제 설정 자체가 이 발상의 토대입니다. 다만 논문 전체의 스케일을 그대로 재현하는 것이 아니라, 그중 일부를 추출하여 blind와 representation이라는 단순한 조건 차이로 작게 검증해 보았습니다.

이 기사의 메인은 이 작은 검증을 하기 위해 어떤 harness를 만들었는지, 어디까지 말할 수 있고 어디서부터는 아직 말할 수 없는지에 대한 구현 중심의 기록입니다.

만든 것

리포지토리(repository)에는 AGENTIC-IMODELS 스타일의 toy harness를 구현했습니다.

목적은 단순히 좋은 회귀 모델을 만드는 것이 아닙니다. 좋은 모델 문자열이나 해석 artifact가 다음 에이전트에게 '탐색하기 쉬운 정보'가 되는지를 조사하는 것입니다.

구성은 크게 3개 층으로 나누어져 있습니다.

층 (Layer)	경로 (Path)	역할 (Role)
fixed harness	`toy_imodels/`	candidate loading, CV (교차 검증), metric aggregation (지표 집계), leaderboard (리더보드), report (보고서), interpretability packet (해석 가능성 패킷) 관리
project definition	`projects/synthetic_regression/`	dataset contract (데이터셋 계약), public competition files (공개 경진대회 파일), project id, evaluation spec (평가 사양) 관리
candidate experiment	`projects/synthetic_regression/experiments/candidate_model.py`	에이전트가 편집하는 sklearn-compatible (sklearn 호환) candidate model

이러한 분리가 매우 중요했습니다.

에이전트가 자유롭게 다룰 수 있는 것은 candidate model뿐입니다. 평가 방법, 데이터 로딩, leaderboard, report 생성 등은 fixed harness 측에 격리합니다. 이를 통해 모델 탐색 비교 과정에서 "평가 규칙까지 바꿔버리는" 사고를 방지할 수 있습니다.

이 toy harness를 통해 보고자 하는 것

이번 실험에서 중점을 둔 것은 해석 가능성 (interpretability)을 단순히 "인간을 위한 설명"으로만 보지 않는 것입니다.

보통 모델의 설명이라고 하면, 완성된 모델을 인간이 이해하기 위한 것이라는 인상이 강합니다. 하지만 agentic (에이전트 기반) 탐색 루프에서는 설명이 다음 에이전트를 위한 입력값이 되기도 합니다.

예를 들어, candidate model은 fit, predict, __str__ 메서드를 가집니다. 여기서 __str__은 단순한 장식이 아니라, 모델이 어떤 구조를 학습하고 있는지, 어떤 표현력 (expressivity)이 부족한지, 다음에 어떤 특징량 (feature)이나 비선형성 (non-linearity)을 시도해야 하는지를 전달하는 역할을 합니다.

이때 좋은 model string은 설명문이라기보다, 다음 실험을 선택하기 위한 search interface (탐색 인터페이스)에 가깝습니다.

평가 설정

실험 대상은 synthetic_regression 프로젝트입니다.

데이터는 public competition file과 같이 취급하여 train / valid / test로 나누었습니다. test 세트에는 target (타겟)을 포함하지 않습니다. candidate model은 데이터 생성의 oracle (오라클)이나 hidden target (숨겨진 타겟)을 볼 수 없습니다.

평가 spec (사양)은 projects/synthetic_regression/spec.py에 고정되어 있습니다.

항목	값
spec	`DefaultEvaluationSpec`
...

각 candidate는 cross validation (교차 검증)으로 평가되며, 결과는 leaderboard와 run report에 저장됩니다.

실험: blind vs representation

비교한 조건은 두 가지입니다.

조건	설명
`blind`	모델 문자열, interpretability packet, candidate snapshot 등 representation-only (표현 방식 전용) artifact를 보지 않음
`representation`	허용된 조건 내의 model string이나 interpretability artifact를 보고 다음 candidate 변경을 고려함

각 조건은 5 iteration (반복)의 budget (예산) 내에서 candidate model을 개선합니다.

확인하고자 하는 인과 관계 (causal chain)는 다음과 같습니다.

representation cue -> predictive mechanism -> candidate edit -> cv_rmse_mean movement

즉, representation artifact를 본 에이전트가 그로부터 예측상의 가설을 세우고, 이를 candidate edit으로 변환하여 실제로 RMSE를 낮출 수 있는지를 확인하는 것입니다.

다만, 이 chain을 명확하게 보여주기 위해서는 각 iteration의 pre-design rationale을 매번 저장해야 합니다. 이번 이전 run에서는 그 부분이 완전하지 않았기 때문에, 이 글에서는 predictive result와 causal-process claim을 분리하여 다룹니다.

정보 경계를 어떻게 보호했는가

이러한 종류의 실험에서 가장 두려운 것은 조건 간에 정보가 섞이는 것입니다.

blind 조건의 에이전트가 representation artifact를 조금이라도 보게 되면 비교가 무너집니다. 반대로, representation 조건에서만 볼 수 있는 정보를 명시하지 않으면 어디서부터 어디까지가 treatment인지 모호해집니다.

따라서 LoopRun마다 workspace를 나누고, 각 iteration의 입력을 input_manifest.json으로 관리했습니다.

설계 세션은 자신의 condition과 iteration의 manifest에 기재된 파일만 본다는 규칙을 세웠습니다.

또한, candidate source에는 금지 사항을 설정했습니다. 예를 들어, candidate model이 dataset loader나 raw csv에 직접 접근하는 것을 금지합니다. candidate는 fit에 전달된 X, y를 사용하여 학습하고, predict에 전달된 X에 대해 예측할 뿐입니다.

이 제약은 다소 답답할 수 있지만, 실험으로서는 오히려 중요합니다. 에이전트의 탐색 능력을 보고 싶은 것이지, 평가 환경에 대한 우회로를 찾아내길 원하는 것이 아니기 때문입니다.

스킬과 서브 에이전트도 실험 장치의 일부로 만들었다

또 하나, 실험을 통해 중요하다고 느낀 점은 고정해야 할 것이 코드뿐만이 아니라는 점입니다.

AI 에이전트에게 실험을 맡길 경우, 동일한 harness를 사용하더라도 세션마다 역할이 모호하면 금방 비교가 무너집니다. 예를 들어, 모델을 설계하는 에이전트가 audit용 artifact를 먼저 읽어버리거나, runner가 겸사겸사 candidate를 수정해버리거나, blind 조건의 문맥을 representation 조건으로 가져오는 등의 일이 발생하면 결과의 의미가 퇴색됩니다.

그래서 이 리포지토리에서는 repo-local의 skills와 subagent prompts도 실험 프로토콜의 일부로 배치했습니다.

중심이 되는 것은 agentic-imodels-toy-experiment skill입니다. 이 skill은 candidate iteration 시에 무엇을 읽어도 되는지, 어떤 파일을 편집해도 되는지, 어떤 artifact를 남겨야 하는지를 결정합니다.

특히 LoopRun에서는 역할을 다음과 같이 나누었습니다.

역할	prompt	수행 작업
planning	`experiment-planner.md`	평가 spec, condition, budget, 비교 방법, artifact를 결정
design	`model-designer.md`	manifest에서 허용된 context만 읽고, 하나의 modeling hypothesis를 candidate edit으로 도출
execution	`experiment-runner.md`	평가를 실행하고, leaderboard와 run artifact를 확인
analysis	`result-analyst.md`	compatible한 run과 비교하여 다음 실험 1개를 제안
judgment	`interpretability-judge.md`	interpretability packet만 읽고 agent-facing interpretability를 채점
audit	`experiment-auditor.md`	spec, artifact, context boundary, 금지 사항 위반을 검사

이 분할은 인간 연구 팀에서의 '실험 계획', '구현', '실행', '분석', '심사(peer review)'를 AI 에이전트용으로 작게 나눈 것입니다.

특히 representation (표현) 조건에서는 단순히 "모델 문자열을 보았다"라고 기록하는 것만으로는 불충분했습니다. design (설계) 전에 pre_design_rationale.md를 남기고, 다음 chain (체인)을 명시하는 규칙을 세웠습니다.

representation cue (표현 단서) -> predictive mechanism (예측 메커니즘) -> candidate edit (후보 수정) -> primary metric movement (주요 지표 변화)

예를 들어 "이 model string (모델 문자열)은 읽기 어려우니 짧게 만든다" 정도로는 이번 가설을 뒷받침하기에 약합니다. 필요한 것은 "이 표현을 통해 이차항(secondary term)이나 hinge term (힌지 항)이 효과적일 것으로 보이므로, 해당 구조를 정규화(regularization)를 포함하여 시도한다"와 같이, representation cue (표현 단서)를 예측 성능에 기여할 만한 modeling mechanism (모델링 메커니즘)으로 번역하는 것입니다.

이것이 다소 과하게 보일 수도 있습니다. 하지만 AI 에이전트가 실험을 진행할 경우, 프롬프트나 역할 경계(role boundary) 또한 실험 조건의 일부입니다. 고정된 harness (하네스)와 마찬가지로, 고정된 skill (기술)과 subagent role (서브 에이전트 역할)이 없다면 나중에 결과를 읽었을 때 "무엇이 효과가 있었는지"를 알 수 없게 됩니다.

결과

최종 리포트에서 3개의 target sample (대상 샘플)로 비교한 결과, representation (표현) 조건이 3/3으로 승리했습니다.

sample	representation best	blind best	winner	RMSE margin
`bvr_20260620_001`	0.849942	0.948879	representation	0.098937
`bvr_20260620_002`	0.789486	0.960024	representation	0.170538
`bvr_20260621_001`	0.848607	0.951539	representation	0.102933

aggregate (집계) 결과는 다음과 같습니다.

metric	value
target samples	3
...

cv_rmse_mean은 작을수록 좋으므로, 이번 비교에서는 representation (표현) 조건이 고정된 budget (예산) 내에서 더 좋은 candidate (후보)에 도달했습니다.

특히 흥미로운 점은 representation (표현)이 단순히 최종 점수에서 승리했을 뿐만 아니라, iteration (반복)당 개선량에서도 앞섰다는 것입니다. 이는 "모델 표현이 탐색의 방향 설정에 효과적이었을 가능성"을 시사합니다.

무엇이 효과가 있었는가

이번 설정에서 모델 표현은 "현재 모델이 무엇을 표현할 수 있고, 무엇을 표현할 수 없는가"를 다음 에이전트에게 전달하는 역할을 합니다.

예를 들어 baseline (베이스라인)은 standardize (표준화)된 feature (특징량)에 Ridge regression (릿지 회귀)을 적용한 선형 모델입니다. 이는 광범위한 선형 효과를 관찰하기에는 편리하지만, threshold (임계값), 국소적인 비선형성, feature interaction (특징량 상호작용), subgroup-specific behavior (하위 그룹 특화 동작) 등은 그대로 표현할 수 없습니다.

따라서 다음 candidate (후보)로는 polynomial features (다항 특징량), hinge features (힌지 특징량), sparse regularization (희소 정규화) 등이 자연스러운 탐색 후보가 됩니다.

blind (블라인드) 조건에서도 leaderboard (리더보드)나 일반적인 평가 결과로부터 개선은 가능합니다. 하지만 representation (표현) 조건에서는 모델이 가진 표현상의 약점이나 다음에 시도해야 할 구조를 더욱 직접적으로 볼 수 있습니다.

이러한 차이가 탐색 효율의 차이로 나타났을 가능성이 있습니다.

구현하여 유익했던 설계

실험을 진행하며 특히 효과적이었던 설계는 다음 4가지입니다.

첫 번째는 fixed harness (고정 하네스)와 candidate model (후보 모델)을 분리한 것입니다. 에이전트가 수정할 수 있는 범위를 좁힘으로써 실험의 비교 가능성을 유지하기 쉬워졌습니다.

두 번째는 run artifact를 상당히 세밀하게 저장했다는 점입니다. 각 run에 대해 leaderboard row, fold metrics, run metadata, candidate snapshot, report, interpretability packet을 남겼습니다. 나중에 비교나 audit(감사)을 할 때, 이 사소한 기록들이 큰 도움이 됩니다.

세 번째는 LoopRun workspace를 condition(조건)별로 분리한 것입니다. blind와 representation의 정보 경계를 운영 규칙뿐만 아니라 파일 구조로도 뒷받침했습니다.

네 번째는 primary metric(주요 지표)을 project spec(프로젝트 사양)에 가두어 둔 것입니다. 이번 사례라면 cv_rmse_mean을 minimize(최소화)한다는 평가 방침을 candidate iteration(후보 반복)으로부터 분리해 두었습니다.

한계

이 결과는 흥미롭지만, 지나치게 강하게 주장하고 싶지 않은 부분도 있습니다.

먼저, sample size(표본 크기)는 3입니다. 작은 toy experiment(장난감 실험)로서는 충분히 시사하는 바가 크지만, 일반화하기에는 아직 부족합니다.

또한, 일부 오래된 run에서는 LoopRun controller artifact가 완전히 남아 있지 않습니다. bvr_20260620_002는 historical journal과 leaderboard row를 통해 보고되었으며, 최신 run만큼 provenance(출처/기원)가 강력하지 않습니다.

나아가, 모든 representation iteration에서 pre-design causal rationale(사전 설계 인과적 근거)이 저장되었던 것은 아닙니다. 따라서 "representation cue가 이 candidate edit을 생성했고, 그것이 성능 개선으로 이어졌다"라는 causal-process evidence(인과 과정 증거)는 제한적입니다.

이번 결론은 어디까지나 predictive(예측적)인 것입니다.

representation evidence를 사용할 수 있는 조건은, 이 target sample(대상 표본) 내에서 고정된 budget(예산) 내에 더 낮은 RMSE에 도달했다는 것입니다.

여기까지는 말할 수 있습니다. 반면, representation artifact가 어떤 reasoning path(추론 경로)를 통해 개선을 이끌어냈는지 엄밀하게 주장하기 위해서는, 다음 실험에서 rationale preservation(근거 보존)을 더욱 철저히 할 필요가 있습니다.

다음에 하고 싶은 것

다음에 진행한다면, 다음 4가지를 개선하고 싶습니다.

모든 representation iteration에서 pre-design rationale을 필수 사항으로 지정
LoopRun controller artifact를 완전히 저장
여러 dataset(데이터셋)에서 blind vs representation 반복 수행
model string이나 interpretability packet의 rubric(평가 기준) 개선

특히 중요한 것은, representation을 본 에이전트가 어떤 가설을 세웠는지를 candidate edit 이전에 저장하는 것입니다.

이것이 갖춰지면 단순히 "이겼다 / 졌다"를 넘어, "어떤 representation이 탐색에 효과적이었는가"까지 논의할 수 있게 됩니다.

요약

이 글에서는 AGENTIC-IMODELS 스타일의 작은 실험 하네스(harness)를 구축하여, 모델의 해석 정보가 AI 에이전트의 모델 탐색을 개선할 수 있는지 시험했습니다.

결과적으로, synthetic_regression의 blind vs representation 실험에서는 representation 조건이 3/3 sample에서 승리했습니다. mean best score는 blind의 0.953481에 비해 representation은 0.829345였으며, mean RMSE margin은 0.124136이었습니다.

이번 takeaway(시사점)는 간단합니다.

해석 가능성(Interpretability)은 완성된 모델을 인간에게 설명하기 위한 것만이 아닙니다. 다음 AI 에이전트가 더 나은 실험을 선택하기 위한 탐색 인터페이스(exploration interface)가 될 수도 있습니다.

아직은 toy experiment입니다. 인과적 증거도, dataset의 확장성도, rubric도 개선의 여지가 남아 있습니다.

그럼에도 불구하고, AI 에이전트가 실험을 수행하는 시대에 "모델을 어떻게 설명할 것인가"는 더 이상 "인간이 읽기 위한" 문제만은 아니라는 느낌이 매우 강해졌습니다.

참고

논문: Chandan Singh, Yan Shuo Tan, Weijia Xu, Zelalem Gero, Weiwei Yang, Michel Galley, Jianfeng Gao. Agentic-imodels: Evolving agentic interpretability tools via autoresearch. arXiv:2605.03808, 2026.
GitHub repository: sunyeul/agentic-imodels-harness
fixed harness:
toy_imodels/
evaluation spec:
projects/synthetic_regression/spec.py
repo-local experiment skill:
.codex/skills/agentic-imodels-toy-experiment/
subagent prompts:
.codex/agents/
experiment plan:
projects/synthetic_regression/experiments/blind_vs_representation/plan.md
final experiment report:
final_report_bvr_20260620_001_002_20260621_001.md