본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 28. 16:57

벤치마크 점수 아무리 높게 나와도 내 로컬 코드베이스에 올리면 버그 속출하던 이유가 다 있었음. 데이터 오염 없는 DeepSWE로 다시

요약

기존 SWE-Bench의 데이터 오염 문제를 지적하며, 데이터 오염이 없는 DeepSWE 벤치마크를 통해 모델 성능을 재검증합니다. 테스트 결과 GPT-5.5는 70%의 높은 성능을 보인 반면, Claude Sonnet은 32%로 급격히 낮은 성능을 기록했습니다.

핵심 포인트

  • 기존 SWE-Bench 점수는 데이터 오염으로 인해 부풀려졌을 가능성 제기
  • DeepSWE 벤치마크 적용 시 모델별 성능 격차 극명하게 나타남
  • GPT-5.5는 70%, Claude Sonnet은 32%의 성능 기록
  • 도메인 맞춤형 자율 에이전트 구축을 위한 아키텍처 참조 필요성

벤치마크 점수 아무리 높게 나와도 내 로컬 코드베이스에 올리면 버그 속출하던 이유가 다 있었음. 데이터 오염 없는 DeepSWE로 다시 돌리니까 GPT-5.5는 70% 뽑는데 클로드 소네트는 32%로 떡락하는 거 보면 기존 SWE-Bench 숫자는 모델 학습에 들어가서 부풀려진 거품이었다는 소리임.

This is a perfect architecture reference video to use as a backbone when I later build out my domain-customized autonomous agent infrastructure. The .hermes folder structure starts from the very bottom with a 3-layer memory system setup, and it goes all the way to Telegram

AI 자동 생성 콘텐츠

본 콘텐츠는 X @krongggggg (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0