벤치마크 점수 아무리 높게 나와도 내 로컬 코드베이스에 올리면 버그 속출하던 이유가 다 있었음. 데이터 오염 없는 DeepSWE로 다시
요약
기존 SWE-Bench의 데이터 오염 문제를 지적하며, 데이터 오염이 없는 DeepSWE 벤치마크를 통해 모델 성능을 재검증합니다. 테스트 결과 GPT-5.5는 70%의 높은 성능을 보인 반면, Claude Sonnet은 32%로 급격히 낮은 성능을 기록했습니다.
핵심 포인트
- 기존 SWE-Bench 점수는 데이터 오염으로 인해 부풀려졌을 가능성 제기
- DeepSWE 벤치마크 적용 시 모델별 성능 격차 극명하게 나타남
- GPT-5.5는 70%, Claude Sonnet은 32%의 성능 기록
- 도메인 맞춤형 자율 에이전트 구축을 위한 아키텍처 참조 필요성
벤치마크 점수 아무리 높게 나와도 내 로컬 코드베이스에 올리면 버그 속출하던 이유가 다 있었음. 데이터 오염 없는 DeepSWE로 다시 돌리니까 GPT-5.5는 70% 뽑는데 클로드 소네트는 32%로 떡락하는 거 보면 기존 SWE-Bench 숫자는 모델 학습에 들어가서 부풀려진 거품이었다는 소리임.
This is a perfect architecture reference video to use as a backbone when I later build out my domain-customized autonomous agent infrastructure. The .hermes folder structure starts from the very bottom with a 3-layer memory system setup, and it goes all the way to Telegram
AI 자동 생성 콘텐츠
본 콘텐츠는 X @krongggggg (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기