LLM을 넘어: 확장 가능한 기업용 AI 도입이 에이전트 로직(Agent Logic)에 달려 있는 이유

가이드는 인류 역사 전반에 걸쳐 도움을 주어 왔습니다. 선사 시대 문명은 태양과 달을 이용하여 육지와 먼 바다에서 광활한 거리를 항해할 수 있다는 것을 이해했습니다. 시간이 흐르면서, 다양한 여정은 더 나은 계획과 반복되는 목적지까지의 빠른 이동 시간을 위해 지도를 제작하는 것을 용이하게 했습니다. 수 세기 후, 나침반의 도입은 항해자들이 미지의 목적지를 찾는 데 있어 더 높은 정확도를 달 수 있게 했습니다. 그리고 오늘날, GPS 내비게이션 앱은 우리의 모든 여정을 안내합니다. 에이전틱 AI (Agentic AI)의 시대인 오늘날, AI 에이전트 (AI agents)는 우리가 알고 있는 산업들을 변화시키며 확장 가능한 AI 도입을 가능하게 할 잠재력을 가지고 있음이 분명합니다. 하지만, 높은 에이전트 품질, 비용 효율성, 그리고 그에 따른 최종 사용자 신뢰를 촉진함으로써 이러한 잠재력을 실현하기 위해서는 지능적인 가이드인 에이전틱 로직 (Agentic logic)이 필요합니다.

기업 워크플로우 및 유스케이스 (Enterprise Workflows & Use Cases)

수많은 연구가 AI 파일럿 프로젝트의 압도적인 실패를 언급해 왔으며, 다른 연구들은 확장 가능한 도입을 가능하게 하기 위해 AI가 기업 워크플로우의 핵심에서 작동해야 할 필요성을 강조해 왔습니다. [1] [2] 이러한 현상과 관련된 주장을 더 잘 이해하기 위해서는 기업 워크플로우에 대한 분석이 필요합니다. 이러한 워크플로우는 다음과 같습니다:

A. 동적이며 장시간 실행됨 (Dynamic and long-running)

B. 수많은 API, 데이터베이스 및 서비스를 보유함

C. 종종 비즈니스 정책 및/또는 규제에 의해 제약을 받음

위와 같은 특성들을 고려할 때, 에이전트가 효과적으로 작동하기 위해서는 자연스럽게 확장된 모델 컨텍스트 (model context)가 요구됩니다. 최첨단 프론티어 LLM (frontier LLMs)들은 분명 이를 갖추고 있지만, 그에 따른 트레이드오프 (tradeoff)는 무엇일까요? 환각 (hallucinations)의 증가인가요, 아니면 토큰 소비의 증가인가요? 더 나아가, 워크플로의 핵심에서 에이전트형 AI (agentic AI) 실행을 가능하게 하여 더 바람직한 결과를 도출할 수 있도록 LLM에 지능형 가이드, 즉 GPS를 장착할 수 있을까요? 우리는 위 특성들을 충분히 고려하여, IBM의 제품군을 위해 적절한 에이전트 로직 (agent logic)을 갖춘 에이전트를 설계하고 구축함으로써 이러한 가설들을 테스트했습니다. 이 제품군들은 다음과 같은 미션 크리티컬 (mission critical) 워크로드를 위한 엔터프라이즈 소프트웨어 전달 라이프사이클 (enterprise software delivery lifecycle)의 다양한 단계를 담당하는 전문가들이 직면한 가장 도전적인 과제들과 관련이 있습니다:

레거시 코드 (Cobol / PL/1)로 작성된 애플리케이션 이해
개발자를 위한 테스트 생성 가속화
인시던트에 대한 선제적 대응 및 시프트 레프트 (shift-left) 앱 회복탄력성 구현
중요 환경을 위한 컴플라이언스 (compliance) 현대화 자동화

각 도메인을 자세히 살펴보기 전에, 에이전트 로직 (agent logic)의 특징이 무엇인지 정의해 보겠습니다. 에이전트 로직은 지식 그래프 (knowledge graphs), 알고리즘, 프로그램 분석 라이브러리와 같은 소프트웨어 프리미티브 (software primitives)로, 에이전트 계층 (에이전트 하네스 (agent harness) 내부)에서 작동하며 LLM을 엔터프라이즈 워크플로 방향으로 의도적으로 유도하여 컨텍스트 공간 (context space)을 줄일 수 있습니다. 그렇게 함으로써, 더 비용 효율적인 방식으로 더 우수한 성능의 결과를 도출하는 강력한 경향을 보입니다. 이제 에이전트 로직이 위의 네 가지 도메인 각각에서 어떻게 그러한 결과를 달성할 수 있는지 살펴보겠습니다.

레거시 코드 (Cobol / PL/1)로 작성된 애플리케이션 이해 - 프로그램 분석 (program analysis).[3]

AI 및 자동화(automation)를 통해 메인프레임 애플리케이션 개발과 현대화(modernization)를 가속화하는 데 사용되는 IBM watsonx Code assistant for Z (WCA4Z)는 애플리케이션 이해를 위한 App Insights 에이전트를 갖추고 있습니다. 이는 IBM 메인프레임에서 미션 크리티컬(mission critical) 워크로드를 실행하는 기업 고객의 주요 집중 분야 중 하나입니다. 이 에이전트는 애플리케이션 전반에 걸친 심층적인 정적 분석(static analysis)을 활용하며, 복잡한 의미론(semantics)을 가진 수백 개의 상호 연관된 테이블로 구성된 데이터베이스 스키마에 사전 인덱싱된 표현(pre-indexed representation)을 저장합니다. 이를 통해 에이전트는 이미 사용 가능한 정확하고 구조화된 정보를 검색할 수 있으며, 결과적으로 답변의 정확도를 높이고, 토큰 사용량을 줄이며, 언어 모델(이 사례에서는 Mistral Medium 250B)과의 상호작용(back-and-forth interactions)을 최소화합니다. 이러한 접근 방식을 여러 미션 크리티컬 레거시 시스템(최대 100만 라인의 코드 및 1,000개의 프로그램)에 적용했을 때, 최첨단(frontier) LLM 전용 방식(LLM-only approach)과 비교하여 토큰 소비량을 약 30배 낮추면서도 미세하게 우수한 애플리케이션 이해 성능을 유지합니다.

Aster를 통한 개발자의 테스트 생성 가속화 - 프로그램 분석 (program analysis). [4], [5]

Aster는 IBM의 독점적인 프로그램 분석 (program analysis) 및 데이터 전/후처리 (pre- and post-processing) 기반 라이브러리로, 에이전트 기반의 단위 테스트 (unit test), 통합 테스트 (integration test), API 테스트 및 변경 기반 테스트 (change-based test) 생성을 위해 활용됩니다. Aster는 여러 개발자 커뮤니티의 분석을 통해 다양한 오픈 소스 도구(open-sourced tools)나 개발자가 직접 작성한 테스트보다 더 높은 개발자 평점을 달성했습니다. 오픈 소스 애플리케이션을 대상으로 테스트한 결과, 유사한 오픈 소스 도구(통합 테스트) 및 제로샷 LLM(zero-shot LLMs)과 코딩 에이전트(coding agents, 단위 테스트)와 비교했을 때 우수한 라인 (line), 브랜치 (branch), 메서드 (method) 커버리지 벤치마크를 바탕으로, 당사는 Devstral 24B 모델과 함께 75개 이상의 IBM CIO Java 애플리케이션(최대 560개 이상의 클래스 및 67K개 이상의 코드 라인)에서 Aster를 프리 프로덕션(pre-production) 모드로 실행해 왔습니다. 현재까지의 정상 상태(Steady-state) 결과에 따르면, 라인, 브랜치 및 메서드 커버리지가 20% ~ 45% 향상되었으며, 이러한 애플리케이션의 일부 하위 집합(subset)에서는 최첨단(state-of-the-art) 코딩 에이전트와 비교하여 훨씬 낮은 토큰 소비량(최대 15배 낮음)으로도 우수한 성능을 보여주었습니다. 이러한 결과의 근거는 프로그램 분석 출력값(LLM을 프롬프트하고 "집중(focus)"시키는 데 사용됨)이 커버리지를 증강하고 런타임(runtime) 및 컴파일(compilation) 오류를 수정하는 서브 에이전트(sub-agents)와 결합되어, 상당한 비용 절감과 함께 더 뛰어난 성능의 결과를 가능하게 하기 때문입니다.

사고에 선제적으로 대응하고 시프트 레프트(shift-left) 앱 회복탄력성(resiliency)을 가능하게 하는 - 지식 그래프 (knowledge graphs), 프로그램 분석 라이브러리 (program analysis libraries) 및 조사 (observability) 기반 오케스트레이션 (orchestration). [6],[7]

1과 2에서 설명한 앱 관련 유스케이스(use cases)를 위한 LLM 컨텍스트(context)가 앱 소스 코드에 "제한"되어 있는 반면, 배포된 인프라(infra) 상의 앱 런타임 관리(runtime management)를 위해서는 기저의 IT 풀 스택(full stack)이 관여하게 됩니다. 여기서 우리는 엔티티(entities)(마이크로서비스(microservices), 데이터베이스/미들웨어 서비스(database/middleware services), MELT 등)와 도메인 전문가의 내재된 ("부족적") 지식(tribal knowledge)이 결합된 지식 그래프(knowledge graph, KG)를 정의합니다. 이러한 그래프를 활용하고, 비결정론적 결과(non-deterministic outcomes)에 대해 LLM을 로컬 경계 추론(local bound reasoning)으로 제한함으로써, 장애 근본 원인 분석(incident root cause analysis)(및 기타 유스케이스)을 위해 IT 스택과 (관련이 있는 경우) 기저의 앱 소스 코드를 아우르는 축소된 컨텍스트 공간(context space)을 달성하기 위한 관측성(observability) 기반 접근 방식이 사용됩니다. 이 접근 방식을 통해, 동등한 Instana 데이터 모델을 활용함으로써, 독자적인 Instana "I3"(지능형 장애 조사 (intelligent incident investigation [8])) 에이전트가 ITBench [9]를 사용하여 측정했을 때 GPT-5.1 기반의 ReAct 에이전트보다 최대 4.0배의 성능 향상을 달성하는 것을 확인했습니다. Gemini 3 Flash를 사용할 경우, ReAct 에이전트의 성능은 I3 에이전트보다 17% 이내의 차이로 개선되지만, 토큰(tokens)은 1.6배 더 소비합니다. 우리는 이 접근 방식을 코드 분석(프로그램 의존성 그래프(program dependency graphs) 활용) 및 버그 수정(추론 스케일링(inference scaling) 활용)을 위한 에이전트로 소스 코드까지 확장하였으며, 이 또한 ITBench에서 테스트되었습니다. 그 결과, 소스 코드 분석 및 버그 수정 에이전트(Gemini 2.5 Flash)가 최첨단 코딩 에이전트(state-of-the-art coding agent)에 비해 원인이 되는 마이크로서비스를 찾는 측면(3.0배)과 버그 수리 측면(1.6배) 모두에서 우수한 성능을 보이면서도, 각각 3.7배 및 5.9배 적은 토큰을 소비함을 입증했습니다. 이 멀티 에이전트 시스템(multi-agent system)은 Shift-left IT 운영을 위해 새롭게 공개된 IBM Concert 플랫폼의 일부로 IBM Think에서 발표되었으며, 현재 IBM CIO와 함께 내부적으로 파일럿 테스트가 진행 중입니다. [10]

중요 환경을 위한 IT 컴플라이언스(compliance) 현대화 자동화 - 알고리즘 및 적응형 계획 및 오케스트레이션(adaptive planning and orchestration). [11]

기업들은 점점 더 복잡하고 파편화된 컴플라이언스 (compliance) 요구 사항에 직면하고 있으며, 이로 인해 팀들은 컨트롤 (controls), 평가 (assessments) 및 조치 계획 (remediation plans)을 수동으로 생성하는 데 상당한 시간을 소비하고 있습니다. 중앙 집중화된 지식이 존재하지 않고 수정 사항이 수동으로 작성되기 때문에, 오류의 위험과 보안 격차 (security gaps)가 발생합니다. 컴플라이언스 작업은 복잡하고 다단계로 이루어지기 때문에, 수동 작업이나 단순한 AI 프롬프트 (prompts)보다는 전문화된 에이전트 (agents) 간의 조정된 정책 기반 자동화 (policy-driven automation)가 필요합니다. 당사의 멀티 에이전트 시스템 (multi-agent system)은 복잡한 작업을 조정된 단계로 알고리즘적으로 분해하고, 적응형 계획 (adaptive planning), 동적 분해 (dynamic decomposition) 및 워크플로 시퀀싱 (workflow sequencing)을 사용하며, 지속적인 피드백을 통해 수정 사항을 반복적으로 식별하고 평가를 확장함으로써 컴플라이언스를 자동화합니다. 이는 ITBench를 사용하여 측정한 결과, 고정된 계획 전략을 사용하는 이전 에이전트 (Claude 4 Sonnet)보다 1.3 ~ 2.0배 더 높은 성능을 보였습니다. 이러한 접근 방식은 컴플라이언스를 지속적으로 안내되는 자기 수정 프로세스 (self-correcting process)로 변환하며, 특히 복잡한 시나리오에서 결과를 극적으로 개선하여 성공률을 한 자릿수에서 최대 +80%까지 끌어올립니다 (Claude 4 Sonnet). 이 멀티 에이전트 시스템과 16,000개 이상의 디지털화된 컨트롤 매핑 (digitized controls mappings)은 IBM Think에서 IBM Sovereign Core의 일부로 공개되었으며, 모니터링, 드리프트 탐지 (drift detection)와 통합되어 자동화된 증거 생성을 제공하고 감사 증거가 고객의 통제 하에 안전하게 유지되도록 보장합니다. [12]

위의 예시들은 LLM 컨텍스트 (context)를 줄이고, LLM이 매우 효율적이고 비용 효율적인 방식으로 워크플로의 핵심을 탐색하도록 유도하는 데 있어 에이전트 로직 (agent logic)의 영향력을 보여줍니다. 또한, 당사는 두 가지 사례 연구에 유사한 접근 방식을 적용했습니다. 하나는 의료 분야에서의 구성 가능한 범용 에이전트 및 런타임 (CUGA, Configurable Generalist Agent and Runtime)이며, 다른 하나는 IBM Global Real Estate와 함께 진행한 물리적 자산에 대한 상태 기반 유지보수 (condition-based maintenance)입니다.

도메인 사례 연구 (Domain Case Studies)

사례 연구 1: 구성 가능한 범용 에이전트 (CUGA) 의료 벤치마크 - 알고리즘 정책 집행 (algorithmic policy enforcement). [13]

다음 건강 보험 고객 관리 사례는 규제 환경에서 에이전트 시스템(agentic systems)이 LLM 전용 대화형 모델(LLM-only conversational models)보다 뛰어난 성능을 보이는 이유를 압축적으로 보여줍니다. CUGA(configurable generalist agent, 구성 가능한 범용 에이전트)의 정책 시스템은 에이전트 거버넌스를 위해 정책을 코드로서 구현(policy-as-code)하며, 이는 모델 프롬프트(prompt)와 무관하게 런타임(runtime) 시점에 미세 조정(fine-tuning) 없이 집행됩니다. 우리의 실험 결과에 따르면, 에이전트의 정책 시스템은 모든 모델 제품군(Claude Opus – 4.5, GPT OSS 120B 및 GPT – 4.1)에 걸쳐 구조화된 워크플로(workflow), 안전한 의도 처리(intent handling), 신뢰할 수 있는 도구 사용(tool usage), 제어된 출력 포맷팅(output formatting)을 강제함으로써 작업 정확도 측면에서 15%에서 26% 사이의 정확도 향상을 달성하며 큰 격차를 메워줍니다. 권한은 최소 권한 공개(least-privilege disclosure), 명시적인 컴플라이언스(compliance) 규칙, 그리고 인간 에스컬레이션 경로(human escalation paths)를 통해 집행됩니다. 지능적인 행동은 제안되지만, 권한은 정책 및 감독 메커니즘에 의해 행사됩니다. 추론(Reasoning)은 자율적이며, 결정권(decision rights)은 제한됩니다. CUGA는 또한 IBM Think Sovereign Core 출시의 핵심 구성 요소입니다.

사례 연구 2: IBM 글로벌 부동산을 위한 물리적 자산의 상태 기반 유지보수(Condition-based Maintenance) - 유향 비순환 그래프 (directed acyclic graph). [14],[15]

기업용 유지보수 시스템은 방대한 양의 자산 데이터를 수집하지만, 이를 효과적으로 결합하지 못하여 전문가들이 파편화된 신호들을 수동으로 짜 맞추고 통합된 근거 기반의 통찰력 없이 의사결정을 내려야 하는 상황입니다. 최근 출시된 당사의 Maximo Condition Insights [16] 에이전트는 수천 개의 자산과 위치(센서, 작업 오더, 고장 모드 및 고장 영향 분석 (FMEA))에 걸친 대규모 자산 데이터를 분석하며, 구조화된 증거와 검증 루프 (validation loops)를 사용하여 문제를 신뢰성 있게 식별하고, 조치 우선순위를 정하며, 일관되고 추적 가능한 통찰력을 통해 의사결정을 지원합니다. 당사는 IBM Global Real Estate (GRE)를 대상으로 이 에이전트(GPT OSS 120B 사용)를 내부적으로 시범 운영하였으며, 그 결과 자산 분석 시간을 15~~20분에서 15~~30초로 단축(97% 개선)하고, 120개 이상의 사이트와 6,000개의 물리적 자산에 걸쳐 자산 검토 범위를 약 1%에서 약 30%로 확대했습니다. AssetOpsBench를 사용한 결과, Condition Insights 에이전트는 근거 없는 주장 (unsupported claims)을 57% 줄였고, 장황함 (verbosity)을 35% 감소시켰으며, 규칙 준수율을 30% 향상시켰고, 모순을 거의 제로에 가깝게 유지했으며, 토큰 사용량을 평균 77% 낮추는 동시에 진단 특이성 (diagnostic specificity)을 약간 높였습니다. 유향 비순환 그래프 (directed acyclic graph)를 갖춘 이 에이전트는 단순 프롬프팅 (naive prompting) 하에서의 근거 없는 추론을 줄이기 위해 구조적 엔지니어링 및 운영 컨텍스트를 제공하며, 제약 조건 인식 프롬프팅 (constraint-aware prompting)은 불안정성을 유발하지 않으면서 규칙 준수 능력을 현저히 개선하고, 장황함을 줄이며, 전반적인 토큰 소비를 낮춥니다.

LLM을 넘어: 확장 가능한 기업용 AI 도입이 에이전트 로직(Agent Logic)에 달려 있는 이유

요약

핵심 포인트

댓글