Live-SWE-agent 79.2%: 오픈 스캐폴드(Open Scaffolds)가 폐쇄형 코딩 에이전트(Closed Coding
요약
오픈 소스 스캐폴드인 Live-SWE-agent가 SWE-bench Live 벤치마크에서 79.2%라는 높은 성적을 기록했습니다. 이는 코딩 에이전트의 성능이 모델 자체뿐만 아니라 에이전트 루프, 도구 스택 등 스캐폴드 설계에 크게 의존함을 시사합니다.
핵심 포인트
- Live-SWE-agent가 SWE-bench Live에서 79.2% 달성
- 에이전트 성능에서 스캐폴드의 역할이 매우 중요함
- 잘 설계된 오픈 스캐폴드가 폐쇄형 시스템과의 격차를 줄임
- 에이전트 루프, 도구 스택, 프롬프트 설계의 중요성 강조
원문은 AI Tech Connect에 게시되었습니다.
코딩 에이전트(coding-agent) 리더보드에서 방금 무슨 일이 일어난 걸까요? 2026년 4월, Live-SWE-agent라는 오픈 소스 스캐폴드(scaffold)가 SWE-bench Live에서 79.2%를 기록했습니다. SWE-bench Live는 올해 정직한 비교를 위한 기준점으로 조용히 자리 잡은 동적이고 오염 없는(contamination-free) 코딩 에이전트 벤치마크(benchmark)입니다. 이 단 하나의 수치는 SWE-bench Verified 점수가 90%를 넘어서기 시작한 이후 업계에서 이어져 온 논쟁의 틀을 바꾸어 놓았습니다. 즉, 오픈형 코딩 에이전트와 폐쇄형(closed) 코딩 에이전트 사이의 격차 중 실제로 모델(model)의 몫은 얼마이며, 그 주변을 둘러싼 스캐폴드(scaffold)의 몫은 얼마인가 하는 점입니다. 이 벤치마크에 따르면, 그 답은 스캐폴드가 엄청난 비중을 차지한다는 것입니다. 잘 설계된 오픈 하네스(open harness) — 에이전트 루프(agent loop), 도구 스택(tool stack), 계획 프롬프트(planning prompts), 검증기(verifier) — 는 오픈 웨이트(open-weight) 모델을 ...를 보유한 연구소들이 구축한 폐쇄형 시스템의 사정거리 안으로 끌어올립니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기