arXiv논문2026. 06. 30. 11:23

SWE-Together: 대화형 사용자 세션에서의 코딩 에이전트 평가

요약

정적 벤치마크의 한계를 넘어 실제 사용자-에이전트 간의 대화형 코딩 세션을 재구성한 SWE-Together 벤치마크를 소개합니다. LLM 기반 사용자 시뮬레이터를 통해 다회차 상호작용을 재현하며, 에이전트의 최종 성공률과 피드백 요구 횟수를 함께 평가합니다.

핵심 포인트

정적 평가를 넘어선 다회차(multi-turn) 대화형 코딩 벤치마크 제안
109개의 저장소 수준 작업을 포함한 SWE-Together 데이터셋 구축
사용자 의도를 보존하는 LLM 기반 사용자 시뮬레이터 개발
최종 코드 정확도와 교정 피드백 횟수를 결합한 새로운 평가 지표

대부분의 코딩 에이전트(coding-agent) 벤치마크는 정적입니다. 즉, 에이전트가 사전에 완전한 작업 설명을 전달받고 최종 코드에 의해서만 평가됩니다. 실제 코딩 지원은 사용자가 목표를 명확히 하고, 제약 조건을 추가하며, 여러 차례의 턴(turn)에 걸쳐 실수를 수정하는 대화형(interactive) 방식입니다. 우리는 실제 사용자-에이전트 코딩 세션으로부터 재구성된 다회차(multi-turn) 벤치마크인 SWE-Together를 소개합니다. 실제 상호작용을 검증 가능하게 만들기 위해, 우리는 11,260개의 기록된 세션에서 복구 가능한 저장소 상태, 명확한 사용자 목표, 관찰 가능한 결과가 있는 세션을 선택하여 109개의 저장소 수준(repository-level) 작업을 큐레이션했습니다. 이러한 상호작용을 여러 에이전트에 걸쳐 재현하기 위해, 우리는 원래 사용자의 의도를 보존하고 코딩 에이전트의 진행 상황에 따라 피드백을 제공하는 반응형 LLM 기반 사용자 시뮬레이터(user simulator)를 구축했습니다. 협업자로서 에이전트를 평가하기 위해, 우리는 최종 저장소의 정확성과 상호작용 중에 요구되는 교정 피드백 턴(corrective feedback turns)의 횟수를 모두 측정합니다. 최첨단(frontier) 코딩 에이전트들을 대상으로 한 실험 결과, 더 강력한 에이전트일수록 일반적으로 더 적은 개입을 요구하면서도 더 높은 최종 성공률을 달성하는 것으로 나타났으며, 이는 개선된 사용자 경험(user experience)을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SWE-Together: 대화형 사용자 세션에서의 코딩 에이전트 평가

요약

핵심 포인트

댓글