Asuka-Bench: 불충분하게 명시된 사용자 의도 및 다회차 정교화 작업에서의 코드 에이전트(Code Agents) 벤치마킹
요약
사용자의 불충분한 의도와 다회차 피드백 과정을 반영한 새로운 코드 에이전트 벤치마크인 Asuka-Bench를 소개합니다. 브라우저 렌더링 기반의 폐쇄 루프 시스템을 통해 에이전트의 정교화 능력을 평가하며, 기존 모델 간의 성능 차이를 명확히 드러냅니다.
핵심 포인트
- 단발성 출력이 아닌 다회차 정교화 과정을 평가하는 벤치마크 제시
- 브라우저 렌더링과 UI 에이전트를 활용한 폐쇄 루프 평가 방식
- 8개 LLM 대상 테스트 결과 모델 간 최대 38%p 성능 차이 확인
- 최상위 모델도 3회차 이후 프로젝트 완료율은 52%에 불과함
기존의 코드 생성 (Code-generation) 벤치마크는 완전한 프롬프트(Prompt)에서 단발성 출력(One-shot output)으로 이어지는 단일 매핑을 평가합니다. 하지만 실제 웹 개발은 다릅니다. 사용자는 시작 단계에서 전체 사양(Spec)을 작성하는 경우가 드뭅니다. 많은 요구사항은 중간 결과물을 확인하고 그에 반응할 때 비로소 명확해집니다. 우리는 브라우저 렌더링 동작 (Browser-rendered behavior)에 기반하여, 불충분하게 명시된 사용자 의도와 다회차 정교화 (Multi-round refinement)를 결합한 벤치마크인 Asuka-Bench를 제시합니다. 각 작업은 폐쇄 루프 (Closed loop)를 통해 해결됩니다: 코드 에이전트 (Code Agent)가 웹 프로젝트를 생성하면, UI 에이전트 (UI Agent)가 배포된 사이트에서 테스트 케이스를 실행하고, 사용자 LLM (User LLM)이 평가 결과를 다음 라운드를 위한 자연어 피드백으로 변환합니다. 이 벤치마크는 784개의 평가 기준과 2402개의 예상 결과물을 포함하는 50개의 웹 작업으로 구성됩니다. 우리는 2개의 에이전트 프레임워크 (Agent frameworks)에 걸쳐 8개의 LLM을 벤치마킹했습니다. 결과는 모델들을 명확하게 구분합니다: 가중치 적용 작업 통과율 (Weighted Task Pass Rate)은 38%포인트의 차이를 보이며, 모델들은 피드백으로부터 수정하는 능력에서도 상당한 차이를 보입니다. Asuka-Bench는 아직 포화 상태와 거리가 멉니다: 가장 강력한 모델조차 3회차 이후에 완료하는 프로젝트는 52%에 불과합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기