arXiv논문2026. 06. 05. 15:44

Asuka-Bench: 불충분하게 명시된 사용자 의도 및 다회차 정교화 작업에서의 코드 에이전트(Code Agents) 벤치마킹

요약

사용자의 불충분한 의도와 다회차 피드백 과정을 반영한 새로운 코드 에이전트 벤치마크인 Asuka-Bench를 소개합니다. 브라우저 렌더링 기반의 폐쇄 루프 시스템을 통해 에이전트의 정교화 능력을 평가하며, 기존 모델 간의 성능 차이를 명확히 드러냅니다.

핵심 포인트

단발성 출력이 아닌 다회차 정교화 과정을 평가하는 벤치마크 제시
브라우저 렌더링과 UI 에이전트를 활용한 폐쇄 루프 평가 방식
8개 LLM 대상 테스트 결과 모델 간 최대 38%p 성능 차이 확인
최상위 모델도 3회차 이후 프로젝트 완료율은 52%에 불과함

기존의 코드 생성 (Code-generation) 벤치마크는 완전한 프롬프트(Prompt)에서 단발성 출력(One-shot output)으로 이어지는 단일 매핑을 평가합니다. 하지만 실제 웹 개발은 다릅니다. 사용자는 시작 단계에서 전체 사양(Spec)을 작성하는 경우가 드뭅니다. 많은 요구사항은 중간 결과물을 확인하고 그에 반응할 때 비로소 명확해집니다. 우리는 브라우저 렌더링 동작 (Browser-rendered behavior)에 기반하여, 불충분하게 명시된 사용자 의도와 다회차 정교화 (Multi-round refinement)를 결합한 벤치마크인 Asuka-Bench를 제시합니다. 각 작업은 폐쇄 루프 (Closed loop)를 통해 해결됩니다: 코드 에이전트 (Code Agent)가 웹 프로젝트를 생성하면, UI 에이전트 (UI Agent)가 배포된 사이트에서 테스트 케이스를 실행하고, 사용자 LLM (User LLM)이 평가 결과를 다음 라운드를 위한 자연어 피드백으로 변환합니다. 이 벤치마크는 784개의 평가 기준과 2402개의 예상 결과물을 포함하는 50개의 웹 작업으로 구성됩니다. 우리는 2개의 에이전트 프레임워크 (Agent frameworks)에 걸쳐 8개의 LLM을 벤치마킹했습니다. 결과는 모델들을 명확하게 구분합니다: 가중치 적용 작업 통과율 (Weighted Task Pass Rate)은 38%포인트의 차이를 보이며, 모델들은 피드백으로부터 수정하는 능력에서도 상당한 차이를 보입니다. Asuka-Bench는 아직 포화 상태와 거리가 멉니다: 가장 강력한 모델조차 3회차 이후에 완료하는 프로젝트는 52%에 불과합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Asuka-Bench: 불충분하게 명시된 사용자 의도 및 다회차 정교화 작업에서의 코드 에이전트(Code Agents) 벤치마킹

요약

핵심 포인트

댓글