벤치마크 점수 아무리 높게 나와도 내 로컬 코드베이스에 올리면 버그 속출하던 이유가 다 있었음. 데이터 오염 없는 DeepSWE로 다시

벤치마크 점수 아무리 높게 나와도 내 로컬 코드베이스에 올리면 버그 속출하던 이유가 다 있었음. 데이터 오염 없는 DeepSWE로 다시 돌리니까 GPT-5.5는 70% 뽑는데 클로드 소네트는 32%로 떡락하는 거 보면 기존 SWE-Bench 숫자는 모델 학습에 들어가서 부풀려진 거품이었다는 소리임.

This is a perfect architecture reference video to use as a backbone when I later build out my domain-customized autonomous agent infrastructure. The .hermes folder structure starts from the very bottom with a 3-layer memory system setup, and it goes all the way to Telegram

Insights

벤치마크 점수 아무리 높게 나와도 내 로컬 코드베이스에 올리면 버그 속출하던 이유가 다 있었음. 데이터 오염 없는 DeepSWE로 다시

요약

핵심 포인트

댓글

Rogue Agents: 아무도 공격하지 않는데 모든 것이 잘못되고 있을 때 (ASI10)

첫 번째는 Synthflow, 이제는 Vapi. 음성 AI 스택이 엔터프라이즈 시장을 추격할 때 벌어지는 일

자율 코딩 에이전트를 위한 관측성(Observability) 구축 방법: 5가지 교훈

Text-to-SQL 설명: AI가 일반 영어 문장을 SQL 쿼리로 변환하는 방법

Rogue Agents: 아무도 공격하지 않는데 모든 것이 잘못되고 있을 때 (ASI10)

첫 번째는 Synthflow, 이제는 Vapi. 음성 AI 스택이 엔터프라이즈 시장을 추격할 때 벌어지는 일

자율 코딩 에이전트를 위한 관측성(Observability) 구축 방법: 5가지 교훈