arXiv논문2026. 06. 18. 11:07

CAPRA: 멀티 에이전트 LLM 시스템을 통한 소프트웨어 아키텍처 결과물 피드백 확장

요약

CAPRA는 멀티 에이전트 LLM 시스템을 활용하여 소프트웨어 아키텍처 결과물을 자동 평가하고 피드백을 생성하는 연구를 제시합니다. gpt-4o와 멀티모달 추출 기술을 사용하여 텍txt와 UML 다이어그램을 분석하며, 환각을 줄이기 위한 결정론적 증거 앵커링 기법을 도입했습니다.

핵심 포인트

멀티 에이전트 시스템을 통한 소프트웨어 아키텍처 피드백 자동화
멀티모달 문서 추출을 위한 Python 기반 마이크로서비스 채택
환각 완화를 위한 레벤슈타인 거리 기반 증거 앵커링 도입
인간 평가자와의 중간 수준 일치도(kappa = 0.582) 달성

소프트웨어 공학 교육에서의 자동 평가(Automated assessment)는 코드 채점 및 에세이 점수 산정 분야에서 크게 발전해 왔습니다. 그러나 구조적 완전성(structural completeness)과 요구사항 추적성(requirements traceability)을 분석해야 하는 소프트웨어 아키텍처 결과물(deliverables) 검토는 아직 완전히 자동화되지 않았습니다. 이 작업에 거대 언어 모델(Large Language Models (LLMs))을 적용하려면 학생들에게 기술적 피드백이 정확하고 신뢰할 수 있도록 보장하는 견고한 아키텍처가 필요합니다. 본 논문은 소프트웨어 아키텍처 결과물을 분석하여 개인화되고 템플릿을 준수하는 LaTeX 피드백을 생성하는 멀티 에이전트 LLM 시스템인 CAPRA (Configurable Architecture Proficiency Report Assessment)를 제시합니다. 핵심 설계 선택으로서, CAPRA는 여러 개의 특화된 에이전트(agents)를 조정하며, PyMuPDF와 시각 기능이 있는 LLM(특히 gpt-4o)을 활용하여 텍스트와 UML 다이어그램을 파싱하는 멀티모달 문서 추출을 위한 Python 기반 마이크로서비스(microservice)를 채택합니다. 교육적 신뢰성을 확보하고 환각(hallucinations)을 완화하기 위해, CAPRA는 정규화된 레벤슈타인 거리(Levenshtein distance)를 통한 퍼지 매칭(fuzzy matching)을 사용하는 결정론적 증거 앵커링(Evidence Anchoring) 단계를 도입하며, 발견 사항을 교차 검증, 중복 제거 및 병합하는 ConsistencyManager 에이전트를 함께 사용합니다. 시스템 성능은 다음을 포함하는 구조화된 8가지 기준의 이진 평가 분류 체계(binary evaluation taxonomy)를 사용하여 평가됩니다: (i) 추출 완전성(extraction completeness), (ii) 기능 검증(feature validation), (iii) 이슈 근거 제시 및 심각도 탐지(issue grounding and severity detection), (iv) 권장 사항의 구체성 및 추적성(recommendation specificity and traceability), (v) 템플릿 및 어조 준수(template and tone compliance). 10개의 학생 보고서에 대한 예비 실증 평가 결과, CAPRA는 엄격한 2인 평가자 집계 규칙 하에서 평가 기준의 88.8%를 충족하였고, 인간 평가자와 중간 수준의 평가자 간 일치도(kappa = 0.582)를 달성하였으며, 각 보고서를 4분 조금 넘는 시간 내에 처리했습니다. 이러한 결과는 LLM 지원 아키텍처 피드백의 실행 가능성을 뒷받침하지만, 주관적인 평가 차원에서는 인간의 감독이 여전히 필수적입니다.

AI 자동 생성 콘텐츠

원문 바로가기

CAPRA: 멀티 에이전트 LLM 시스템을 통한 소프트웨어 아키텍처 결과물 피드백 확장

요약

핵심 포인트

댓글