AgentModernize: Multi-Agent LLM과 행동 명세 그래프 (BSG)를 활용한 레거시 현대화 과정에서의 비즈니스 로직 보존

레거시 현대화 (Legacy modernization)는 비즈니스 로직을 파괴합니다. 대부분의 도구와 LLM (Large Language Model) 기반 접근 방식은 현대화를 구문 변환 (syntax translation)으로 취급하여, 암시적 규칙, 예외 상황 처리 (edge-case handling), 그리고 모듈 간 제약 조건 (cross-module constraints)을 상실합니다. 우리는 현대화를 행동 보존 (behavioral preservation) 문제로 취급하는 멀티 에이전트 프레임워크인 AgentModernize를 제시합니다. 네 개의 특화된 에이전트가 추출 (extraction), 명세 (specification), 코드 생성 (code generation), 그리고 검증 (validation)을 담당합니다. 핵심적인 중간 산출물인 행동 명세 그래프 (Behavioral Specification Graph, BSG)는 코드가 생성되기 전에 추출된 비즈니스 로직을 명시적이고 검사 가능한 상태로 강제합니다. 우리는 통신 및 금융을 아우르는 8가지 시나리오인 LegacyModernize-8에서 세 가지 모델 (GPT-4o-mini, GPT-4o, GPT-5.3-codex)을 사용하여 공정한 프로토콜(동일한 골드 표준 테스트, 3회 시행, temperature 0.0) 하에 평가를 수행했습니다. 피드백을 포함한 전체 AgentModernize는 모든 백본 (backbone) 모델에서 0이 아닌 평균 BER (BER, Business Error Rate)을 기록한 유일한 구성이었습니다. SP-LLM과 CoT-LLM은 모든 백본과 모든 시나리오에서 0.0%의 점수를 기록했습니다. 피드백이 없는 AgentModernize는 GPT-4o-mini 및 GPT-5.3-codex에서 0.0%의 평균 BER을 기록했습니다. GPT-4o 환경에서는 S1에서만 0이 아닌 BER을 기록했습니다 (44.4%; 시나리오 평균 5.6%). 전체 AgentModernize의 평균 BER은 9.4% (mini), 8.1% (GPT-4o), 19.4% (codex)였습니다. BSG는 골드 표준 규칙의 91.2%를 포착하였으며, 이는 병목 현상이 추출이 아닌 코드 생성에 있음을 확인시켜 줍니다.

Insights

AgentModernize: Multi-Agent LLM과 행동 명세 그래프 (BSG)를 활용한 레거시 현대화 과정에서의 비즈니스 로직 보존

요약

핵심 포인트

댓글

TopoBrick: 제로샷 빌딩 IoT 예측을 위한 외생 변수의 에이전트적 토폴로지 샘플링

이번 글은 1편(DB증권), 2편(모건스탠리)에 이어지는 세 번째 이야기입니다.

ExplAIner: 분류 모델 설명(Explanation)을 위한 선언적 질의 언어

FootsiesGym: 2인 제로섬 불완전 정보 게임을 위한 격투 게임 벤치마크

이번 글은 1편(DB증권), 2편(모건스탠리)에 이어지는 세 번째 이야기입니다.

ExplAIner: 분류 모델 설명(Explanation)을 위한 선언적 질의 언어

FootsiesGym: 2인 제로섬 불완전 정보 게임을 위한 격투 게임 벤치마크