벤치마크 점수 아무리 높게 나와도 내 로컬 코드베이스에 올리면 버그 속출하던 이유가 다 있었음. 데이터 오염 없는 DeepSWE로 다시

벤치마크 점수 아무리 높게 나와도 내 로컬 코드베이스에 올리면 버그 속출하던 이유가 다 있었음. 데이터 오염 없는 DeepSWE로 다시 돌리니까 GPT-5.5는 70% 뽑는데 클로드 소네트는 32%로 떡락하는 거 보면 기존 SWE-Bench 숫자는 모델 학습에 들어가서 부풀려진 거품이었다는 소리임.

This is a perfect architecture reference video to use as a backbone when I later build out my domain-customized autonomous agent infrastructure. The .hermes folder structure starts from the very bottom with a 3-layer memory system setup, and it goes all the way to Telegram

Insights

벤치마크 점수 아무리 높게 나와도 내 로컬 코드베이스에 올리면 버그 속출하던 이유가 다 있었음. 데이터 오염 없는 DeepSWE로 다시

요약

핵심 포인트

댓글

Kimi K3 사용법에 관한 17개의 댓글이 달린 Reddit 논쟁을 읽어보니, 정답은 사람들이 기대하는 것보다 훨씬 덜 흥미롭습니다

구글 제미나이 새 모델(3.6 Flash, 3.5 Flash-Lite, 3.5 Flash Cyber) 출시

누가 중국 모델을 두려워하는가?

Kimi K3 사용법에 관한 17개의 댓글이 달린 Reddit 논쟁을 읽어보니, 정답은 사람들이 기대하는 것보다 훨씬 덜 흥미롭습니다

구글 제미나이 새 모델(3.6 Flash, 3.5 Flash-Lite, 3.5 Flash Cyber) 출시

누가 중국 모델을 두려워하는가?