정확성을 넘어: 에이전트적 판단(Agentic Judgment)을 통한 확장 가능한 레이블링으로 코드 LLM의 아키텍처 추론 능력 향상
요약
코드 LLM의 아키텍처 추론 능력을 높이기 위해 에이전트적 판단(Agentic Judgment) 파이프라인을 제안합니다. ACJ와 AQJ라는 두 가지 판단기를 통해 아키텍처 복잡도와 품질을 평가하며, 이를 통해 미세 조정된 Qwen 모델이 SWE-bench Verified에서 높은 성능 향상을 보였습니다.
핵심 포인트
- 에이전트적 판단을 통한 확장 가능한 코드 레이블링 방법론 제안
- 아키텍처 복잡도(ACJ) 및 품질(AQJ) 판단기 기반의 파이프라인 구축
- Qwen 모델 미세 조정을 통해 SWE-bench Verified 해결률 대폭 향상
- 강력한 교차 언어 일반화 및 아키텍처 패치 품질 개선 확인
LLM(Large Language Models)은 소프트웨어 엔지니어링 분야를 실질적으로 개선해 왔으나, 실제 개발 환경에서는 아키텍처에 대한 이해가 필요합니다. 이러한 이해는 수동으로 레이블링하기에는 비용이 지나치게 많이 들며, 테스트만으로는 검증이 불가능합니다. 우리는 전문가의 아키텍처 평가를 위한 확장 가능한 프록시(proxy)로서 강력한 LLM을 사용하는 에이전트적 판단(agentic judging) 파이프라인을 제안합니다. 이 파이프라인은 두 가지 판단기(judge)로 구성됩니다: 작업이 요구하는 코드베이스 특유의 아키텍처 이해도를 추정하는 아키텍처 복잡도 판단기(Architecture Complexity Judge, ACJ), 그리고 소스에 기반한 루브릭(rubrics)을 통해 패치(patch)가 저장소 특유의 아키텍처 컨벤션(conventions)을 준수하는지 평가하는 아키텍처 품질 판단기(Architecture Quality Judge, AQJ)입니다. 3,360개의 큐레이션된 인스턴스로 Qwen3-8B/14B/32B를 미세 조정(Fine-tuning)한 결과, SWE-bench Verified에서 최대 27.2%의 해결률(resolved rates)을 달성했습니다. 이는 베이스 모델 대비 최대 540%, 필터링되지 않은 미세 조정 대비 256% 향상된 수치입니다. 한편, 학습된 모델들은 강력한 교차 언어 일반화(cross-language generalization) 성능과 아키텍처 패치 품질의 일관된 개선을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기