Dev.to헤드라인2026. 06. 20. 14:47

EPAM의 AI/Run 에이전트, SWE-bench Verified에서 76.8%로 1위 기록

요약

EPAM의 AI/Run 에이전트가 SWE-bench Verified 벤치마크에서 76.8%의 성적으로 1위를 기록했습니다. 이는 단순 모델 성능이 아닌 계획, 저장소 인식 검색, 도구 사용 등 에이전트 엔지니어링 기술의 승리로 평가됩니다.

핵심 포인트

AI/Run 에이전트가 SWE-bench Verified에서 76.8% 달성
Anthropic의 모델 성능을 앞지르는 에이전트 엔지니어링의 중요성 입증
계획, 저장소 인식 검색, 도구 사용 등 하네스 기술이 핵심 성과
프런티어 모델을 활용한 강력한 에이전트 루프 구축의 중요성

원문은 AI Tech Connect에 게시되었습니다.

알아야 할 사항: 모델이 아닌 하네스(Harness)가 정점에 서 있습니다. Epoch AI가 추적하는 리더보드에 따르면, EPAM의 AI/Run 개발자 에이전트는 2026년 6월 중순 기준 SWE-bench Verified에서 Anthropic의 약 73.2%를 앞지르는 약 76.8%의 성적으로 선두를 달리고 있습니다. AI/Run은 새로운 모델이 아니라 프런티어 베이스 모델(Frontier base models)을 기반으로 구축되었습니다. 이러한 성과는 에이전트 엔지니어링(Agent engineering) — 즉, 계획(Planning), 저장소 인식 검색(Repo-aware retrieval), 도구 사용(Tool use), 그리고 반복적인 테스트-실행-수정(Test-run-fix) 루프에서 비롯되었습니다. SWE-bench Verified는 범위가 좁습니다. 이는 실제 Python GitHub 저장소에서의 이슈 해결 능력을 측정하는, 인간이 검증한 500개 태스크의 하위 집합이며, 에이전트의 패치(Patch)가 해당 저장소 자체의 테스트를 통과해야 합니다. 이는 일반적인 코딩 능력이 아닙니다. 이것은 독자적인 기술입니다. 인도와 영국의 개발자들이 차고에서 프런티어 모델을 훈련할 수는 없지만, 강력한 하네스(Harness)를 엔지니어링하는 것은 확실히 가능하며, 바로 그 지점이 점점 더 중요해지고 있습니다…

AI Tech Connect에서 전체 기사 읽기 →

AI 자동 생성 콘텐츠

원문 바로가기

EPAM의 AI/Run 에이전트, SWE-bench Verified에서 76.8%로 1위 기록

요약

핵심 포인트

댓글