SWE-INTERACT: 사용자 주도형 장기 코딩 세션으로서의 SWE 벤치마크 재구상
요약
SWE-Interact는 다회차 상호작용과 사용자 주도형 워크플로우를 통해 코딩 에이전트의 능력을 평가하는 새로운 벤치마크를 제안합니다. 기존 단회차 평가와 달리, 모호한 요구사항과 점진적인 피드백에 대응하는 에이전트의 적응력을 측정합니다.
핵심 포인트
- 사용자 시뮬레이터를 통한 현실적인 개발 워크플로우 구현
- 단회차 성능이 다회차 상호작용 성능으로 직결되지 않음을 증명
- 에이전트의 요구사항 발견 및 반복적 정교화 능력 측정
- 최첨단 모델에서도 발생하는 요구사항 망각 및 기술적 실수 지적
우리는 다회차(multi-turn), 상호작용형(interactive), 사용자 주도형 소프트웨어 엔지니어링(software engineering) 작업에서 코딩 에이전트(coding agents)를 평가하기 위한 새로운 테스트베드인 SWE-Interact를 소개합니다. 기존의 최첨단(frontier) SWE 벤치마크들은 일반적으로 요구사항을 사전에 완전히 제공하고 에이전트의 자율적인 구현 능력을 평가합니다. 이와 대조적으로, SWE-Interact는 에이전트를 현실적인 개발자 워크플로우(workflow)에 배치합니다. 정교하게 설계된 사용자 시뮬레이터(user simulator)는 모호하거나 불완전한 지침으로 시작하여, 점진적으로 요구사항을 드러내고, 에이전트의 작업 공간을 점검하며, 전체 작업 목표가 전달될 때까지 타겟팅된 피드백, 수정 사항 및 새로운 제약 조건을 제공합니다. 실제 코딩 에이전트 상호작용에 대한 대규모 연구에 기반한 이 설정은 에이전트가 사용자의 의도(user intent)를 발견하고, 진화하는 요구사항에 적응하며, 자신의 이전 작업 내용을 바탕으로 작업을 수행할 수 있는지를 테스트합니다. 최첨단 모델과 오픈 웨이트(open-weight) 모델 제품군을 대상으로 조사한 결과, 단회차(single-turn) SWE 작업에서의 강력한 성능이 다회차, 사용자 주도형 워크플로우로 안정적으로 전이되지 않는다는 것을 발견했습니다. 가장 성능이 좋은 모델들은 단회차 베이스라인 작업의 약 50%를 해결하지만, 그에 상응하는 SWE-Interact 작업은 25%만을 해결합니다. Opus 4.8 및 GPT 5.5를 포함하여 본 평가에서 가장 강력한 모델들은 모호한 초기 지침 앞에서도 강력하게 시작하며, 사용자에 의해 모든 요구사항이 드러날 때까지 인내하고, 이를 더 잘 통합하며 깨끗한 코드를 작성합니다. 그러나 이들은 여전히 과도한 에이전트 중심 코딩(over-agentic coding), 요구사항 망각 및 기술적 실수 문제를 겪습니다. 성능이 낮은 모델들은 모호함 속에서 형편없이 시작하며, 조기에 포기하고, 지침을 잊거나 무시하며, 코드를 더 많이 재작업합니다. 전반적으로, SWE-Interact는 최첨단 모델 개발을 위한 직교하는(orthogonal) 실세계 능력 축, 즉 사용자 루프(user in the loop) 내에서의 상호작용적 목표 발견 및 반복적 정교화(iterative refinement)를 측정합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기