실제 개발 환경 기반 코딩 에이전트 데이터셋 'SWE-chat' 공개
요약
본 논문은 실제 오픈 소스 개발자들의 작업 환경에서 수집한 대규모 코딩 에이전트 상호작용 데이터셋 'SWE-chat'을 소개합니다. 현재 6,000개의 세션과 35만 건의 도구 호출을 포함하는 이 데이터셋은 살아있는(living) 형태를 지니고 있어 지속적인 업데이트가 가능합니다. 분석 결과, 코딩 패턴이 양극화되어 있으며, 에이전트가 생성한 코드 중 실제 커밋으로 반영되는 비율은 44%에 불과하고, 심지어 인간이 작성한 코드보다 보안 취약점을 더 많이 유발하는 것으로 나타났습니다. 또한 사용자들은 전체 상호작용의 44%에서 에이전
핵심 포인트
- SWE-chat은 실제 오픈 소스 개발 환경에서 수집된 대규모 코딩 에이전트 세션 데이터셋입니다.
- 분석 결과, 에이전트가 작성한 코드 중 실제로 커밋되는 비율은 44%에 불과합니다.
- 코딩 패턴은 양극화되어 있으며, 에이전트가 대부분의 코드를 작성하거나(41%), 인간이 모든 코드를 직접 작성하는(23%) 경향을 보입니다.
- 에이전트 생성 코드는 인간 코드보다 보안 취약점을 더 많이 포함하는 것으로 나타났습니다.
최근 AI 코딩 에이전트가 대규모로 도입되고 있지만, 실제 사용 환경에서의 활용도와 유용성에 대한 실증적 증거는 부족했습니다. 이에 연구진은 오픈 소스 개발자들로부터 수집한 최초의 대규모 코딩 에이전트 상호작용 데이터셋인 'SWE-chat'을 공개했습니다.
현재 SWE-chat에는 6,000개의 세션과 35만 건 이상의 도구 호출 기록이 담겨 있으며, 공용 저장소에서 지속적으로 데이터를 수집하는 살아있는(living) 형태의 파이프라인을 갖추고 있습니다. 이 데이터셋을 활용하여 실제 개발 워크플로우에서의 에이전트 사용 패턴과 실패 모드를 분석했습니다.
분석 결과, 코딩 방식은 두 가지 극단적인 경향으로 나타났습니다. 세션의 41%에서는 에이전트가 거의 모든 커밋 코드를 작성하는 'vibe coding' 형태였고, 23%에서는 인간 개발자가 직접 모든 코드를 작성했습니다.
더욱 중요한 것은 효율성 문제입니다. 아무리 능력이 향상되었다 하더라도, 에이전트가 생성한 코드 중 실제 사용자 커밋으로 살아남는 비율은 44%에 불과합니다. 또한, 에이전트가 작성한 코드는 인간이 작성한 코드보다 더 많은 보안 취약점을 유발하는 것으로 밝혀졌습니다.
사용자들은 전체 상호작용의 44%에서 수정, 실패 보고, 중단 등의 방식으로 에이전트 결과물에 대해 적극적으로 피드백을 제공하고 있습니다. SWE-chat은 인간과 에이전트 간의 코드 작성 주체를 추적하는 완전한 상호작용 기록을 제공함으로써, 기존의 제한된 벤치마크를 넘어 실제 개발 워크플로우 기반의 근거 있는 이해를 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기