엔터프라이즈 AI에는 더 나은 모델이 아니라 더 똑똑한 에이전트 로직이 필요합니다

요약

엔터프라이즈 AI의 성공은 모델의 성능보다 도메인 특화 소프트웨어 프리미티브를 활용한 '에이전트 로직'에 달려 있습니다. IBM Research는 지식 그래프와 알고리즘을 통해 LLM을 워크플로로 유도하는 아키텍처의 중요성을 강조합니다.

핵심 포인트

모델 교체보다 도메인 구조를 제공하는 에이전트 로직이 핵심임
지식 그래프와 프로그램 분석 라이브러리가 컨텍스트 범위를 최적화함
레거시 코드 이해 및 테스트 생성 시 토큰 소비를 획기적으로 절감함
프롬프트 엔지니어링의 한계를 아키텍처 설계로 극복 가능함

대부분의 엔터프라이즈 AI 파일럿 프로젝트가 실패하는 이유는 모델이 너무 약해서가 아닙니다. 모델이 자신이 어디에 있는지 전혀 모르기 때문에 실패하는 것입니다. IBM Research는 이번 주 게시물을 통해 누락된 계층은 더 나은 LLM(Large Language Model)이 아니라, 바로 **에이전트 로직 (agent logic)**이라고 주장했습니다. 이는 모델이 운전을 시작하기 전에 지도를 제공하는 도메인 특화 소프트웨어 프리미티브 (software primitives)를 의미합니다.

"에이전트 로직은 지식 그래프 (knowledge graphs), 알고리즘, 프로그램 분석 라이브러리와 같은 소프트웨어 프리미티브를 의미하며, 이는 에이전트 계층 (에이전트 하네스 내)에서 작동하여 LLM을 엔터프라이즈 워크플로 방향으로 의도적으로 유도하고 컨텍스트 공간 (context space)을 줄일 수 있습니다."

IBM이 실제로 구축한 것

네 가지 실제 운영 사례와 네 가지의 구체적인 수치입니다:

레거시 코드 이해 (COBOL/PL1): 기존 LLM 전용 방식 대비 토큰 소비량이 약 30배 낮아졌으며, 최대 100만 줄의 코드에 대해 성능을 유지했습니다. 프로그램 분석 라이브러리가 문제를 조각내어 처리했고, LLM은 중요한 부분에만 접근했습니다.
테스트 생성 (Aster 라이브러리): Zero-shot LLM 대비 토큰 사용량은 15배 줄어들었고, 코드 커버리지 (code coverage)는 20~45% 향상되었습니다. 구조화된 테스트 하네스 (test harnesses)가 원시 프롬프팅 (raw prompting)을 대체했습니다.
장애 대응 (Instana I3 에이전트): ReAct+GPT-5.1 대비 4배의 성능 향상을 보였습니다. 지식 그래프가 LLM의 범위를 로컬 추론으로 제한하여, 방대한 컨텍스트나 환각 (hallucination)으로 인한 피해 범위를 방지했습니다.
컴플라이언스 자동화: 성공률이 한 자릿수에서 80% 이상으로 상승했습니다 (Claude 4 Sonnet 사용). 고정 계획 에이전트 (fixed-planning agents)보다 1.3~2배 더 나은 성능을 보였습니다. 구조화된 워크플로가 프롬프트 엔지니어링 (prompt engineering)이 결코 할 수 없었던 일을 해냈습니다.

또한 부동산 자산 유지보수 파일럿 사례도 있습니다. 분석 시간이 15~~20분에서 15~~30초로 단축되어 97% 감소했으며, 자산 커버리지는 1%에서 30%로 급증했습니다.

패턴

이러한 모든 성공 사례는 동일한 형태를 따릅니다. LLM은 생성 능력을 갖추고 있습니다. 부족한 것은 **도메인 구조 (domain structure)**입니다. 즉, 어떤 엔티티 (entities)가 존재하는지에 대한 그래프, 100만 줄의 코드베이스를 다룰 수 있는 조각으로 나누는 알고리즘, 그리고 컴플라이언스 결정을 제한하는 규칙들입니다.

에이전트 로직 (Agent logic)은 프롬프트 (prompts)를 통해서도, 미세 조정 (fine-tuning)을 통해서도, 더 큰 컨텍스트 윈도우 (context window)를 통해서도 아닌, 프로그래밍 방식으로 그러한 구조를 제공합니다. 이는 모델 (model)의 '위'에서 작동하고 작업 (task)의 '아래'에서 실행되는 소프트웨어 계층 (software layer)입니다.

GPS 비유가 적절합니다. 당신에게 필요한 것은 더 똑똑한 운전자가 아니라, 지도입니다.

이것이 중요한 이유는 AI의 성능 저하에 대한 일반적인 기업의 대응이 모델을 교체하거나 더 나은 프롬프트를 작성하는 것이기 때문입니다. 두 방법 모두 잘못된 싸움을 하고 있습니다. 격차는 아키텍처 (architectural)에 있습니다.

해야 할 일

AI/ML 엔지니어라면: "어떤 모델을 쓸까?"라고 묻는 것을 멈추십시오. "모델이 경로를 유지하기 위해 무엇을 알아야 하는가?"라고 묻기 시작하십시오. 프롬프트를 만들기 전에 그래프 (graph)나 인덱스 (index)를 먼저 구축하십시오.
엔지니어링 리더라면: 에이전트 로직을 모델 선택의 문제가 아닌 인프라 투자로 취급하십시오. 여기서 나타나는 ROI 수치(30배, 97%, 80%)는 모델에서 나오는 것이 아니라, 하네스 (harness, 제어 장치)에서 나옵니다.
엔터프라이즈 AI 벤더를 평가 중이라면: 그들이 어떤 에이전트 로직 계층을 제공하는지 물으십시오. 만약 답변이 "훌륭한 프롬프트"라면, 더 강력하게 요구하십시오.

병목 현상이 이동했습니다. 모델은 충분히 훌륭합니다. 모델을 둘러싼 아키텍처가 그렇지 못할 뿐입니다.

출처: IBM Research — Beyond LLMs: Why Scalable Enterprise AI Adoption Depends on Agent Logic

✏️ KewBot (AI)로 초안 작성, Drew가 편집 및 승인.

AI 자동 생성 콘텐츠

원문 바로가기

엔터프라이즈 AI에는 더 나은 모델이 아니라 더 똑똑한 에이전트 로직이 필요합니다

요약

핵심 포인트

IBM이 실제로 구축한 것

패턴

해야 할 일

댓글