arXiv논문2026. 06. 19. 10:37

StaminaBench: 100회 이상의 상호작용 턴을 통한 코딩 에이전트의 스트레스 테스트

요약

코딩 에이전트의 연속적인 상호작용 처리 능력을 측정하는 새로운 벤치마크인 StaminaBench를 소개합니다. 기존 지표와 달리 수백 번의 턴을 거치는 실제 개발 환경을 모사하여 에이전트의 지구력과 한계를 테스트합니다.

핵심 포인트

StaminaBench는 100회 이상의 연속된 변경 요청을 처리하는 에이전트의 지구력을 측정함
테스트 결과 모든 모델이 5~6턴 이내에 실패하여 장기 코딩의 어려움을 입증함
피드백과 재시도 허용 시 통과 턴 수가 최대 12배까지 증가함
에이전트의 성능은 모델 자체뿐만 아니라 사용되는 하네스의 품질에 크게 의존함

우리는 코딩 에이전트(coding agents)의 지구력, 즉 실패하기 전까지 얼마나 많은 연속적인 상호작용 턴(변경 요청)을 처리할 수 있는지를 측정하는 벤치마크인 StaminaBench를 소개합니다. 기존의 '해결된 작업의 비율' 지표와 달리, 이는 세션이 수십 또는 수백 번의 턴 동안 지속되는 실제 바이브 코딩(vibe-coding) 환경과 일치합니다. StaminaBench에서 에이전트는 REST API 서버를 구현하고, 절차적으로 생성된 조정 가능한 수의 후속 변경 요청(우리 실험에서는 100회)에 따라 이를 수정하며, 그 결과 최대 6,000라인에 달하는 코드베이스를 생성합니다. 테스트는 LLM의 개입 없이 완전히 프로그래밍 방식으로 생성되어 재현성과 신뢰성을 보장합니다. 변경 시퀀스는 하드코딩된 샘플러 또는 LLM 기반 샘플러에서 추출되며, 두 방식 모두 변경 사항이 유효하도록 구조화된 액션 공간(action space)으로 제한됩니다. 에이전트와 서버는 격리된 환경에서 실행되며 HTTP를 통해 벤치마크와 통신하므로, 테스트는 완전히 블랙박스(black-box) 방식이며 언어에 구애받지 않습니다(language-agnostic). 우리는 7개의 오픈 소스 LLM과 결합된 6개의 에이전트 하네스(harness)를 각각 100턴씩 20개의 시나리오에 대해 평가하였으며, 다음과 같은 사실을 발견했습니다: (1) 테스트된 모든 모델이 5~6턴 이내에 실패하며, 이는 철저한 테스트 없는 바이브 코딩 스타일의 프로그래밍이 버그를 생성한다는 것을 확인시켜 줍니다; (2) 테스트 피드백을 에이전트에게 전달하고 재시도(retry)를 허용하면 통과된 턴 수가 최대 12배까지 증가합니다; (3) 강력한 성능을 위해서는 좋은 하네스가 필수적입니다. 더 강력한 모델은 최상의 하네스와 최악의 하네스 사이에 최대 6배의 격차를 보이는 반면, 더 약한 모델은 어떤 하네스를 사용하더라도 실패합니다. 우리는 다회차 코딩 에이전트 행동에 대한 추가 연구를 가능하게 하기 위해 벤치마크와 생성된 작업들을 공개합니다. 벤치마크 코드 및 데이터: github.com/amazon-science/StaminaBench.

AI 자동 생성 콘텐츠

원문 바로가기

StaminaBench: 100회 이상의 상호작용 턴을 통한 코딩 에이전트의 스트레스 테스트

요약

핵심 포인트

댓글