Yes/no 에이전트가 프로덕션 환경에서 개방형 에이전트보다 뛰어난 성능을 보이는 이유: Inithouse의 Watching Agents

이진 제약 조건(Binary constraints)은 에이전트를 더욱 유용하게 만듭니다. 이것이 Inithouse(다양한 제품 포트폴리오를 병렬로 출시하고 있는 스튜디오)의 플랫폼인 Watching Agents를 수개월 동안 프로덕션 환경에서 운영하며 얻은 핵심 결과입니다. 사용자들은 미래에 대한 질문을 추적하기 위해 AI 에이전트를 배포하며, 가장 잘 작동하는 에이전트는 출력 형식이 가장 엄격한 에이전트였습니다.

시스템을 처음 구축했을 때, 에이전트들은 개방형 산문(open-ended prose)으로 답변할 수 있었습니다. 사용자들은 문단 형태의 답변을 받았습니다. 그들은 그것을 한 번 읽고 다시는 돌아오지 않았습니다. 각 에이전트가 확률 점수(0~100%), 신뢰 수준(confidence level), 그리고 변화 속도 지표(change velocity metric)를 출력하는 Yes/no 예측 모델로 전환한 후, 재방문 사용자 세션이 급증했으며 출력의 신뢰성(reliability)을 처음으로 측정할 수 있게 되었습니다.

다음은 우리가 배운 점과 프로덕션 AI 에이전트를 구축하는 모든 이들에게 이것이 왜 중요한지에 대한 내용입니다.

개방형 에이전트 출력의 문제점

개방형 에이전트는 그럴듯한 텍스트를 생성합니다. 그것이 함정입니다. 에이전트에게 "2028년까지 원격 근무가 기본값이 될까요?"라고 물었을 때, 에이전트가 유보적인 분석이 담긴 세 문단을 반환한다면, 지난주와 비교해 답변이 바뀌었는지 알 방법이 없습니다. 비교를 위한 기준점(anchor)이 없습니다.

우리는 우리의 포트폴리오 전반에서 이를 확인했습니다. AI 가시성 점수 측정 도구인 Be Recommended에서, 산문 형태의 설명에서 AI 엔진당 0~100점의 점수로 전환한 것은 하룻밤 사이에 제품의 유지율(stickiness)을 높였습니다. 사용자들은 분석 내용을 다시 읽기 위해서가 아니라, 자신의 점수를 확인하기 위해 다시 돌아왔습니다. 이러한 패턴은 Watching Agents에서도 반복되었습니다.

개방형 출력은 프로덕션 환경에서 세 가지 구체적인 문제를 일으킵니다:

차이 식별 불가 (No diffability). 어제의 세 문단과 오늘의 세 문단을 비교하여 실제로 무엇이 변했는지 드러내는 방식으로 비교할 수 없습니다. 근본적인 데이터가 변했음에도 불구하고 출력이 정적인 것처럼 느껴지기 때문에 사용자들은 이탈하게 됩니다.

책임 소재의 부재 (No accountability). 만약 에이전트가 지난주 화요일에도 "긴장이 고조되고 있다"라고 말하고, 이번 주 화요일에도 "긴장이 고조되고 있다"라고 말한다면, 실제로 무슨 일이 일어난 것일까요? 정량화 (Quantification)가 없다면 에이전트는 틀릴 수 없습니다. 그리고 틀릴 수 없는 에이전트는 아무도 신뢰하지 않는 에이전트입니다.

재참여를 유도하는 트리거의 부재 (No trigger for re-engagement). 푸시 알림 (Push notifications)에는 변화량 (Delta)이 필요합니다. "확률이 72%에서 58%로 떨어졌습니다"는 알림이 될 수 있습니다. 하지만 "상황이 계속해서 전개되고 있습니다"는 알림이 될 수 없습니다.

이진 제약 조건 (Binary constraints)이 실제로 변화시키는 것

명시적인 확률 점수 (Probability scores)를 포함한 Yes/No 예측을 중심으로 Watching Agents를 재구축했을 때, 세 가지 측면이 개선되었습니다.

1. 구조화된 가설 추적 (Structured hypothesis tracking).
이제 각 에이전트는 단 하나의 답변이 아니라, 서로 경쟁하는 일련의 가설들을 유지합니다. "2027년까지 EU가 파운데이션 모델 (Foundation models)을 규제할 것인가?"라는 질문을 가진 에이전트는 각각 고유한 확률, 추세 방향, 증거 링크를 가진 4~5개의 시나리오를 보유합니다. 이러한 제약 조건은 우리가 모호한 의견을 테스트 가능한 주장 (Testable claims)으로 분해하도록 강제했습니다.

실제로 이는 각 가설에 대해 확인 조건 (Confirming conditions)과 부정 조건 (Disconfirming conditions)이 사전에 정의되어 있음을 의미합니다. 에이전트는 임의로 표류할 수 없습니다. 에이전트는 증거가 도착함에 따라 확률을 업데이트하며, 확인/부정 프레임워크는 추론 과정을 감사 가능 (Auditable)하게 유지합니다.

2. 측정 가능한 신뢰성 (Measurable reliability).
확률 출력을 통해 우리는 보정 (Calibration) 상태를 추적할 수 있습니다. 만약 에이전트가 많은 예측에 대해 70%라고 말한다면, 대략 70%는 'Yes'로 결론 나야 합니다. 우리는 제약된 에이전트가, 가끔 과도하게 자신감 넘치는 산문을 생성하는 개방형 에이전트보다 더 좁은 범위 내에서 보정된다는 것을 관찰했습니다. 이 차이는 구조적입니다. 숫자는 확약을 요구하지만, 산문은 모호한 회피 (Hedging)를 허용하기 때문입니다.

우리는 모든 에이전트 페이지에서 확률이 몇 주 또는 몇 달에 걸쳐 어떻게 이동했는지를 보여주는 진화 그래프 (Evolution graphs)를 실행합니다. 사용자들은 트레이더가 차트를 확인하듯 이 그래프들을 확인합니다. 시각적인 변화 그 자체만으로도, 텍스트 전용 출력에서는 결코 볼 수 없었던 재방문 패턴을 유도합니다.

3. 변화 신호를 통한 리텐션 (Retention through change signals).
각 Watching Agents 페이지는 변화 속도(change velocity), 최신 변화 근거(latest shift reasoning), 그리고 관찰 신호(watch signals; 선행, 확인, 불일치)를 노출합니다. 확률이 5포인트 이상 움직이면 에이전트가 이를 플래그(flag)합니다. 이는 자연스러운 재방문 이유를 만들어냅니다.

이전의 개방형(open-ended) 버전과 비교했을 때, 구조화된 출력(structured output)은 명확한 재참여 루프(re-engagement loop)를 생성합니다: 점수 확인 $\rightarrow$ 변화 여부 확인 $\rightarrow$ 이유 읽기 $\rightarrow$ 관련 에이전트 확인. 전환 이후 더 높은 스크롤 깊이(scroll depth)와 더 많은 다중 페이지 세션(multi-page sessions)을 측정했습니다.

프로덕션 에이전트를 위한 설계 시사점 (Design implications for production agents)

사용자가 반복적으로 상호작용하는 에이전트를 구축하고 있다면, 우리가 채택한 다음 패턴들을 고려해 보세요.

정량화된 출력을 강제하세요 (Force a quantified output). 도메인이 정성적(qualitative)으로 느껴지더라도, 점수화할 수 있는 차원을 찾으세요. Gottman 및 NVC 프레임워크를 기반으로 구축된 우리의 AI 갈등 해결 도구인 Verdict Buddy에서는 갈등 해결 경로를 단순히 설명하는 대신 점수를 매깁니다. 이 점수가 대화의 중심점(anchor) 역할을 합니다.

구조와 설명을 분리하세요 (Separate structure from explanation). 예측 점수가 주요 출력(primary output)입니다. 추론(reasoning), 가설(hypotheses), 동인(drivers), 그리고 근거(evidence)는 사용자가 심층적으로 파고들 수 있는 부차적인 레이어(secondary layers)입니다. Watching Agents의 경우, 에이전트 페이지는 확률과 신뢰도(confidence)를 먼저 보여준 다음, 상세한 가설 분석, 동인 분석, 출처가 명시된 근거로 확장됩니다. 재방문하는 대부분의 사용자는 상단의 숫자만 훑어보고, 숫자가 변했을 때만 더 깊이 읽습니다.

제품 자체에 차이(diff)를 구축하세요 (Build the diff into the product). 모든 에이전트 페이지는 확률 이력 그래프와 근거가 포함된 "최신 변화(latest change)" 섹션을 보여줍니다. 이것은 분석(analytics)이 아니라 제품 그 자체입니다. 사용자들은 예측 결과 자체보다 변화 그래프(evolution graph)를 더 많이 공유한다고 우리에게 말해주었습니다.

에이전트가 요약하는 것이 아니라 분해하도록 만드세요 (Make agents decompose, not summarize). 개방형 에이전트는 요약(summarize)합니다. 제약된 에이전트(constrained agent)는 각각 별도의 근거 경로를 가진 가설들로 분해(decompose)합니다. 이러한 분해 작업이 출력을 신뢰할 수 있게 만듭니다. 사용자는 전체 예측을 부정하지 않고도 특정 가설에 대해서만 이견을 제시할 수 있습니다.

이것이 AI 에이전트 환경에 의미하는 바

업계는 LLM (Large Language Models)이 자연스럽게 수행하는 방식인 채팅 스타일의 개방형 에이전트 (open-ended agents)를 기본값으로 채택합니다. 하지만 프로덕션 유지율 (production retention)은 다른 이야기를 들려줍니다. Yes/no 확률, 점수, 또는 구조화된 결정 트리 (decision tree)와 같이 출력 형식을 제한하는 것은 사용자가 다시 돌아올 이유를 제공합니다.

확장되는 포트폴리오 전반에 걸쳐 병렬적으로 제품 실험을 진행하는 스튜디오인 Inithouse에서, 우리는 여러 제품에서 이러한 패턴을 목격했습니다. 제약은 에이전트를 제한하는 것이 아니라, 에이전트의 초점을 맞춥니다. 그리고 초점이 맞춰진 에이전트야말로 사용자들이 실제로 계속 사용하는 에이전트입니다.

만약 여러분이 유사한 것을 구축하고 있다면, Watching Agents가 에이전트 페이지를 어떻게 구성하는지 살펴보십시오. 공개 에이전트들은 가입 없이도 탐색할 수 있으며, 각 에이전트는 전체 가설 (hypothesis) 및 증거 (evidence) 레이어와 함께 이진 예측 모델 (binary prediction model)을 보여줍니다.

Inithouse에서 제작되었으며, 이 스튜디오는 성장하는 제품 포트폴리오를 병렬로 출시하고 있습니다. Watching Agents를 통해 미래에 관한 어떤 질문이든 관찰하는 AI 에이전트를 배포할 수 있습니다.

Insights

Yes/no 에이전트가 프로덕션 환경에서 개방형 에이전트보다 뛰어난 성능을 보이는 이유: Inithouse의 Watching Agents

요약

핵심 포인트

개방형 에이전트 출력의 문제점

이진 제약 조건 (Binary constraints)이 실제로 변화시키는 것

프로덕션 에이전트를 위한 설계 시사점 (Design implications for production agents)

이것이 AI 에이전트 환경에 의미하는 바

댓글

자동 테스트 장비 (ATE) 시장 규모, 점유율 및 트렌드 분석 보고서, 2026–2034

NVIDIA, Nova 드라이버를 위한 새로운 "TLV" 펌웨어 바이너리 형식 개발 중

Etched, AI 추론 칩 주문 10억 달러 달성 및 기업 가치 50억 달러 기록

Claude Sonnet 5, 더 낮은 비용으로 지식 작업에서 Opus 4.8을 능가하다

NVIDIA, Nova 드라이버를 위한 새로운 "TLV" 펌웨어 바이너리 형식 개발 중

Etched, AI 추론 칩 주문 10억 달러 달성 및 기업 가치 50억 달러 기록

Claude Sonnet 5, 더 낮은 비용으로 지식 작업에서 Opus 4.8을 능가하다