본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 29. 18:12

AI에게 정답을 묻는 것을 멈추세요. 대신 증거가 준비되었는지 물으세요.

요약

AI 에이전트가 단순히 정답을 생성하는 것을 넘어, 생성된 답변의 증거 준비 상태를 검증하도록 돕는 Agenda Intelligence MD를 소개합니다. 이 도구는 불확실성이 높은 의사결정 환경에서 AI가 생성한 정보의 신뢰성을 진단하고 구조화된 검토 패킷을 제공합니다.

핵심 포인트

  • 단순 요약을 넘어 증거의 충분성과 신뢰성을 검증하는 데 집중
  • 주장의 뒷받침 여부, 누락된 증거 범주, 출처 커버리지를 진단
  • 고위험 의사결정 워크플로우를 위한 신뢰 라우팅(trust-routing) 기능 제공
  • 무질서한 입력 데이터를 구조화된 인간 검토용 패킷으로 변환

AI에게 정답을 묻는 것을 멈추세요. 대신 증거가 준비되었는지 물으세요.

대부분의 AI 에이전트 (AI agents)는 정답을 생성하도록 최적화되어 있습니다.

하지만 진지한 워크플로우 (workflows)에서 정답을 내는 것은 어려운 부분이 아닙니다.

어려운 부분은 그 정답이 인간이 신뢰하고, 실행하거나, 상급자에게 보고 (escalate)할 수 있을 만큼 충분히 뒷받침되는지 아는 것입니다.

이것이 제가 Agenda Intelligence MD를 통해 해결하고자 하는 문제입니다:

고위험 AI 보조 의사결정을 위한 증거 준비 상태 확인 및 신뢰 라우팅 (trust-routing) 런타임 (runtime).

GitHub: vassiliylakhonin/agenda-intelligence-md

문제점: AI는 신뢰받기 전에 요약부터 할 수 있습니다

요약 (Summarization)은 유용합니다.

하지만 많은 현실 세계의 의사결정은 요약의 부재 때문에 막히는 것이 아닙니다. 그것은 불확실성 때문에 막힙니다:

  • 어떤 주장들이 실제로 뒷받침되는가?
  • 어떤 주장들이 취약한가?
  • 어떤 소스 카테고리 (source categories)가 누락되었는가?
  • 다음에 누가 행동해야 하는가?
  • 이 파일은 검토할 준비가 되었는가?
  • 결정이 내려지기 전에 이것을 상급자에게 보고 (escalate)해야 하는가?

이는 다음과 같은 워크플로우 (workflows)에서 중요합니다:

  • 공급업체 증거 검토 (vendor evidence review);
  • RFP 및 조달 분석 (RFP and procurement analysis);
  • AI 공급업체 실사 (AI vendor due diligence);
  • 전략적 인프라 프로젝트 룸 (strategic infrastructure project rooms);
  • 시장 진입 준비 상태 (market-entry readiness);
  • 제재 관련 노출 분류 (sanctions-adjacent exposure triage);
  • 통로, 해상 및 거래 상대방 리스크 파일 (corridor, maritime, and counterparty risk files).

그러한 환경에서, 세련되게 작성된 AI 생성 메모는 증거의 공백을 숨길 경우 위험할 수 있습니다.

Agenda Intelligence MD는 다른 아이디어를 중심으로 구축되었습니다:

에이전트 인프라 (agent infrastructure)의 다음 단계는 더 나은 요약이 아닙니다. 그것은 AI가 생성한 브리프 (brief)가 언제 신뢰할 준비가 되지 않았는지 아는 것입니다.

Agenda Intelligence MD가 하는 일

Agenda Intelligence MD는 무질서한 입력 팩 (input packs)을 구조화된 인간 검토 패킷 (human-review packets)으로 전환합니다.

입력값은 다음과 같은 것들이 될 수 있습니다:

  • RFP 응답;
  • 공급업체 주장;
  • 소스 팩 (source packs);
  • 리스크 파일;
  • 모델 카드 (model cards);
  • 프로젝트 노트;
  • 주간 상태 업데이트;
  • 공개 문서;
  • 분석가 스타일의 브리프 (briefs).

출력값은 단순한 요약이 아닙니다.

그것은 다음과 같은 사항을 드러내는 구조화된 검토 레이어 (review layer)입니다:

  • 뒷받침되는 주장 (supported claims);
  • 근거가 부족하거나 출처가 미비한 주장 (weak or under-sourced claims);
  • 누락된 증거 범주 (missing evidence categories);
  • 출처 커버리지 진단 (source coverage diagnostics);
  • 소유자 조치 (owner actions);
  • 의사결정 준비 상태 라우팅 (decision-readiness routing);
  • 에스컬레이션 신호 (escalation signals);
  • 휴리스틱 점수 산정 (heuristic scoring).

목표는 인간의 판단을 대체하는 것이 아닙니다.

목표는 인간이 의사결정을 내리기 전에 검토 표면 (review surface)을 더 명확하게 만드는 것입니다.

일반적인 AI 요약기 (summarizer)와 무엇이 다른가?

일반적인 요약기는 다음과 같이 묻습니다:

“이 문서에는 어떤 내용이 담겨 있는가?”

Agenda Intelligence MD는 다음과 같이 묻습니다:

“이 문서는 의사결정을 뒷받침할 준비가 되었는가?”

이 차이가 아키텍처 (architecture)를 변화시킵니다.

이 프로젝트는 AI 출력물을 최종 결과물로 취급하는 대신, 준비 상태 레이어 (readiness layer)를 반드시 통과해야 하는 대상으로 취급합니다.

예를 들어, 한 업체가 자사의 AI 제품이 규제 대상인 기업용 사용에 안전하다고 주장할 수 있습니다.

요약기는 해당 주장을 보기 좋은 한 단락으로 압축할 수 있습니다.

Agenda Intelligence MD는 더 유용한 질문 세트를 던지도록 설계되었습니다:

  • 주장이 증거와 연결되어 있는가?
  • 증거가 제1자(first-party), 제3자(third-party) 데이터인가, 아니면 오래되었거나, 누락되었거나, 불완전한가?
  • 표준, 감사 산출물 (audit artifacts), 보안 문서, 또는 거버넌스 자료가 누락되었는가?
  • 구매 담당자, 법률 검토자, 기술 검토자, 또는 컴플라이언스 에스컬레이션 (compliance escalation)이 필요한가?
  • 브리프 (brief)가 의사결정을 내릴 준비가 되었는가, 아니면 단지 더 많은 질문을 던질 준비만 되었는가?

이것이 텍스트를 생성하는 것과 신뢰를 라우팅 (routing trust)하는 것의 차이입니다.

아키텍처 (Architecture)

이 프로젝트는 하나의 핵심 서비스 레이어를 중심으로 여러 가지 전달 인터페이스를 갖춘 Python 패키지로 구현되었습니다.

다음 항목들을 포함합니다:

  • CLI;
  • MCP stdio 서버;
  • HTTP API 셸 (shell);
  • A2A 어댑터 (adapter);
  • JSON 스키마 (schemas);
  • 검증기 (validators);
  • 증거 감사 (evidence audit);
  • 출처 커버리지 진단 (source coverage diagnostics);
  • 휴리스틱 점수 산정 (heuristic scoring);
  • 수직적 워커 프로필 (vertical worker profiles).

이를 통해 여러 가지 다른 모드에서 사용할 수 있습니다.

CLI를 통해 로컬에서 검사할 수 있습니다.

MCP를 통해 에이전트 워크플로우 (agent workflow)에 통합할 수 있습니다.

HTTP를 통해 구조화된 동작을 노출할 수 있습니다.

A2A 스타일의 에이전트 라우팅 (agent routing)을 실험해 볼 수 있습니다.

흥미로운 점은 단순히 이러한 인터페이스들이 존재한다는 사실만이 아닙니다. 이들은 동일한 제품 아이디어를 가리키고 있습니다. 즉, 증거 준비성 (evidence-readiness)은 일회성 프롬프트 (one-off prompt)가 아니라 재사용 가능한 레이어 (reusable layer)여야 한다는 것입니다.

빠른 시작 (Quick start)

패키지를 설치한 후, 기본적인 로컬 흐름은 다음과 같습니다:

pip install agenda-intelligence-md

agenda-intelligence doctor
...

명령어들은 다음과 같은 실질적인 질문에 답하도록 설계되었습니다:

  • 패키지가 올바르게 설치되었는가?
  • 이 브리프 (brief)가 스키마 (schema)와 일치하는가?
  • 구조 / 증거 / 의사결정 준비성 (decision-readiness)이 얼마나 강력한가?
  • 주간 상태 업데이트에서 무엇이 바뀌었는가?
  • 반복하기에 안전하지 않은 주장은 무엇인가?
  • 어떤 증거가 여전히 누락되었는가?

마지막 질문이 가장 중요합니다.

실제 의사결정 워크플로우 (decision workflows)에서는 "무엇이 누락되었는가?"가 "정답이 무엇인가?"보다 훨씬 더 가치 있는 경우가 많기 때문입니다.

예시: AI 벤더 증거 준비성 (AI vendor evidence-readiness)

이 프로젝트의 현재 발견 영역 (discovery wedges) 중 하나는 규제 대상 조달 (regulated procurement)을 위한 AI 벤더의 증거 준비성입니다.

기업 또는 규제 환경을 위해 AI 벤더를 검토하는 구매자를 상상해 보십시오.

구매자는 다음을 보유하고 있습니다:

  • RFP (제안 요청서);
  • 벤더의 주장 (vendor claims);
  • 공개 문서;
  • 보안 페이지;
  • 모델 카드 (model cards);
  • 표준 참조 (standards references);
  • 누락되었거나 모호한 자료들.

일반적인 AI 어시스턴트 (AI assistant)는 벤더를 요약할 수 있습니다.

하지만 구매자에게 필요한 것은 단순한 요약만이 아닙니다.

그들에게는 다음과 같은 검토 패킷 (review packet)이 필요합니다:

  • 어떤 주장이 뒷받침되는가?
  • 어떤 주장이 마케팅 용어인가?
  • 어떤 보안 또는 거버넌스 (governance) 문서가 누락되었는가?
  • 구매자의 질문 중 어떤 것이 답변되지 않은 채 남아 있는가?
  • 승인 전에 무엇을 에스컬레이션 (escalated)해야 하는가?
  • 지금 검토할 수 있는 것은 무엇이며, 검토할 수 없는 것은 무엇인가?

이것이 바로 Agenda Intelligence MD가 지원하도록 설계된 워크플로우의 종류입니다.

이 도구는 의사결정자 (decision-maker)가 되려고 하는 것이 아닙니다.

의사결정 표면 (decision surface)을 준비하려고 하는 것입니다.

버티컬 프로필 (Vertical profiles)

이 리포지토리 (repository)에는 다음과 같은 여러 고위험 워크플로우 (high-stakes workflows)를 위한 버티컬 프로필과 데모 표면 (demo surfaces)도 포함되어 있습니다:

  • Middle Corridor Deal Risk Gate (중간 회랑 거래 리스크 게이트);
  • CIS Secondary-Sanctions Exposure (CIS 2차 제재 노출도);
  • Agentic Interaction Trust Gate (에이전트 상호작용 신뢰 게이트);
  • Gulf Maritime Exposure Gate (걸프 해상 노출 게이트);
  • Kazakhstan Market-Entry Readiness Gate (카자흐스탄 시장 진입 준비성 게이트).

이것들은 일반적인 챗봇 페르소나가 아닙니다.

이것들은 증거 중심의 검토 워크플로우 (review workflows)를 위한 구조화된 추론 표면 (reasoning surfaces)입니다.

패턴은 다음과 같습니다:

입력 팩 (input pack) -> 구조화된 검토 패킷 (structured review packet) -> 증거 공백 (evidence gaps) -> 담당자 조치 (owner actions) -> 의사결정 준비 경로 (decision-readiness route)

이 패턴이 유용한 이유는 많은 고위험 워크플로우 (high-stakes workflows)가 AI 출력물과 인간의 책임 사이의 인수인계 (handoff) 과정에서 실패하기 때문입니다.

Agenda Intelligence MD는 바로 그 인수인계에 집중합니다.

이것이 아닌 것

이 프로젝트는 의도적으로 범위를 제한했습니다.

다음은 이 프로젝트가 아닙니다:

  • 사실 관계 검증기 (factuality verifier);
  • 법률 자문가 (legal advisor);
  • 컴플라이언스 승인 엔진 (compliance approval engine);
  • 제재 결정 도구 (sanctions determination tool);
  • 금융 또는 투자 자문가 (financial or investment advisor);
  • 자율적 의사결정자 (autonomous decision-maker);
  • 분석가 검토의 대체재 (replacement for analyst review).

점수 산정은 휴리스틱 (heuristic) 방식입니다.

이는 구조, 소스 커버리지 (source coverage), 증거 라벨링 (evidence labeling), 그리고 의사결정 준비 신호 (decision-readiness signals)를 평가합니다.

이것은 특정 주장이 사실임을 증명하지 않습니다.

이 경계는 매우 중요합니다.

핵심은 다음과 같이 말하는 것이 아닙니다:

“AI가 옳다.”

핵심은 다음과 같이 말하는 것입니다:

“AI의 지원을 받은 패킷이 지원할 수 있는 것은 이것이고, 지원할 수 없는 것은 이것이며, 인간의 검토가 필요한 부분은 여기입니다.”

여기서 MCP와 A2A가 중요한 이유

MCP와 A2A가 흥미로운 이유는 에이전트 시스템 (agent systems)을 조립 가능한 인프라 (composable infrastructure)로 밀어붙이기 때문입니다.

하지만 조립 가능성 (composability)은 리스크도 증가시킵니다.

만약 에이전트가 도구 (tools)를 호출하고, 작업을 라우팅하며, 구조화된 출력을 생성할 수 있다면, 불확실성, 누락된 증거, 그리고 에스컬레이션 요구 사항 (escalation requirements)을 전달할 방법도 필요합니다.

그렇지 않으면, 에이전트 시스템은 근거 없는 주장들을 워크플로우를 통해 더 빠르게 이동시키는 데 매우 능숙해질 뿐입니다.

Agenda Intelligence MD는 신뢰 계층 (trust layer)을 명시적으로 만드는 실험입니다.

프롬프트 (prompt) 안에 숨겨두는 것이 아닙니다.

단락 속에 묻어두는 것도 아닙니다.

최종 검토자가 수동으로 재구성하도록 남겨두는 것도 아닙니다.

대신, 런타임 (runtime)은 준비 상태 (readiness), 공백 (gaps), 그리고 라우팅 (routing)을 구조화된 출력 (structured outputs)으로 노출합니다.

제작 이유

저는 단순한 관찰에서 시작했습니다:

많은 AI 작업이 출력물을 더 유창하게 만드는 데 집중합니다.

하지만 진지한 워크플로 (workflows)에서 유창함은 병목 현상 (bottleneck)이 아닙니다.

병목 현상은 해당 출력이 의사결정에 사용 가능한지 여부입니다.

증거가 누락된 아름다운 메모는 여전히 취약한 메모입니다.

출처 범위가 불분명한 자신감 넘치는 권고안은 여전히 위험합니다.

자신이 뒷받침할 수 없는 것이 무엇인지 보여주지 못하는 요약은 충분하지 않습니다.

저는 증거의 공백 (evidence gaps)을 일급 객체 (first-class objects)로 취급하는 시스템을 원했습니다.

누가 이것을 봐야 하는가?

다음 분야에서 작업하고 있다면 이 프로젝트가 흥미로울 것입니다:

  • AI 에이전트 (AI agents);
  • MCP 서버 (MCP servers);
  • A2A 실험 (A2A experiments);
  • 조달 기술 (procurement technology);
  • AI 거버넌스 (AI governance);
  • 리스크 인텔리전스 (risk intelligence);
  • 분석가 워크플로 (analyst workflows);
  • 구조화된 평가 (structured evaluation);
  • 인간 참여형 검토 (human-in-the-loop review);
  • 의사결정 지원 시스템 (decision-support systems).

만약 다음과 같은 질문을 던지고 있다면 이 리포지토리 (repo)는 특히 유용할 것입니다:

AI 지원 워크플로가 더 자율적이 되기 전에, 어떻게 하면 더 검토 가능하게 (reviewable) 만들 수 있을까?

무엇을 먼저 살펴봐야 하는가?

리포지토리를 열어보신다면, 다음 네 가지 영역을 살펴보시길 권장합니다:

  1. CLI 흐름 (The CLI flow)
    예제와 검증 명령어로 시작하세요.

  2. 스키마 (The schemas)
    스키마는 이 프로젝트가 무엇을 구조화된 검토 출력 (structured review output)으로 취급하는지 보여줍니다.

  3. MCP 통합 (The MCP integration)
    에이전트-도구 상호 운용성 (agent-tool interoperability)을 고민하고 있다면 유용합니다.

  4. 버티컬 프로필 (The vertical profiles)
    동일한 증거 준비성 (evidence-readiness) 패턴이 어떻게 서로 다른 도메인에 적용될 수 있는지 보여줍니다.

더 큰 아이디어

저는 모든 AI 에이전트가 더 많은 의사결정을 내릴 필요는 없다고 생각합니다.

대신 많은 AI 에이전트가 다음과 같이 말하는 능력을 더 키워야 한다고 생각합니다:

  • 이것은 뒷받침됩니다;
  • 이것은 취약합니다;
  • 이것은 누락되었습니다;
  • 이것은 검토가 필요합니다;
  • 이것은 아직 준비되지 않았습니다.

이는 자율적인 의사결정 (autonomous decision-making)보다 덜 화려해 보일 수 있습니다.

하지만 많은 실제 조직이 필요로 하는 것에 훨씬 더 가깝습니다.

AI 인프라의 미래는 단순히 행동할 수 있는 에이전트 (agents)에 관한 것만이 아닐 것입니다.

그것은 아직 행동하지 말아야 할 때를 아는 시스템에 관한 것이기도 할 것입니다.

그것이 바로 Agenda Intelligence MD가 탐구하고 있는 계층 (layer)입니다.

GitHub: vassiliylakhonin/agenda-intelligence-md

만약 이 방향성이 흥미로우시다면, 반응(reaction), 이슈 (issue), 비판 (critique), 또는 아키텍처 리뷰 (architecture review)를 남겨주시면 감사하겠습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0