Dialogue SWE-Bench: 대화 기반 코딩 에이전트를 위한 벤치마크
요약
사용자와의 대화를 통해 소프트웨어 엔지니어링 문제를 해결하는 코딩 에이전트의 능력을 평가하기 위한 새로운 벤치마크인 Dialogue SWE-Bench를 소개합니다. 페르소나 기반 사용자 시뮬레이터와 스키마 가이드 에이전트를 제안하며, 코딩 능력과 대화 능력의 차이를 분석합니다.
핵심 포인트
- 대화 기반 코딩 에이전트 평가를 위한 Dialogue SWE-Bench 데이터셋 공개
- 페르소나 기반 사용자 시뮬레이터 및 대화 품질 자동 평가 도입
- 스키마 가이드 에이전트를 통해 기존 베이스라인 대비 3-14% 성능 향상
- 코딩 모델의 성능과 대화 모델의 성능이 반드시 일치하지 않음을 시사
AI 코딩 에이전트(AI coding agents)는 소프트웨어 엔지니어링을 빠르게 변화시키며, 널리 사용되는 대화형 코딩 어시스턴트(interactive coding assistants)의 동력이 되고 있습니다. 실제 환경에서의 상호작용적인 사용에도 불구하고, 기존의 벤치마크(benchmarks)들은 이들을 완전히 자율적인 시스템(fully-autonomous systems)으로 평가합니다. 본 연구에서는 사용자와의 대화를 통해 실제 소프트웨어 엔지니어링 문제를 해결하는 코딩 에이전트의 능력을 평가하기 위한 자동화된 벤치마크 데이터셋인 Dialogue SWE-Bench를 소개합니다. 우리는 작업 평가를 지원하기 위해 페르소나에 기반한(persona-grounded) 새로운 사용자 시뮬레이터(user simulator)를 설계하였으며, 대화 품질(dialogue quality)에 대한 자동 평가를 통해 작업 평가를 보강하였습니다. 또한, 기존의 코딩 에이전트들의 대화 능력을 향상시키는 것을 목표로 하는 새로운 스키마 가이드 에이전트(schema-guided agent)를 제안하며, 이는 강력한 베이스라인(baselines) 대비 3-14%의 성능 향상을 보여줍니다. 우리의 결과는 더 나은 코딩 모델이 항상 더 나은 대화 모델과 일치하지는 않는다는 것을 나타내며, 이는 대화 능력(dialogue capability)이 코딩 에이전트 성능의 별개이며 현재 충분히 연구되지 않은 차원임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기