Claude Sonnet 5 공개

작업당 비용 차트를 보면 Sonnet 5는 중간 노력 수준을 넘겨 쓰면 안 될 것 같음. 같은 비용이면 Opus가 항상 더 잘하니, Sonnet 5 중간이 부족하면 노력 수준을 올릴 게 아니라 모델을 바꾸는 게 결론으로 보임

이런 정보를 공개해 주는 건 고맙지만, 점점 따라가기가 어려워짐. 서로 다른 모델과 노력 수준이 어떤 성능을 내고 어떤 작업에 맞는지에 대한 머릿속 모델을 잃어버림
실제로는 Claude Code 기본값을 그냥 쓰는 편이고 그 정도면 충분히 잘 동작함. 다만 다른 사용자들이 프로젝트에 맞춰 이런 설정을 얼마나 실험하고 최적화하는지는 궁금함

여기엔 두 가지 변수가 있음. Claude.ai 구독에서는 Sonnet이 Opus보다 훨씬 저렴한 것 같고, 그래서 Max 티어에 오랫동안 Sonnet 전용 사용량 막대가 있었음
또 어떤 작업은 순수 입력 토큰량 자체가 제일 중요함. 예를 들어 멀티모달 컴퓨터 사용 작업은 Opus에서 추론을 낮춘다고 더 효율적으로 만들 수 없어서, Sonnet 같은 저렴한 모델이 유용함

같은 차트를 봤는데 Opus 대비 곡선 위치가 꽤 놀라웠음. Sonnet 5는 “Opus에 초저 노력 수준이 하나 더 있다면?” 같은 느낌임

반론을 하자면 Sonnet이 더 빠를 수도 있음. 같은 작업에 더 많은 토큰을 쓸 수 있어서 확실하진 않지만, 동기식 반복 작업 흐름에서는 더 많은 일을 처리할 가능성이 있음
다만 실제로는 모델이 만든 결과를 고치는 데 시간이 너무 많이 들어서, 느리더라도 더 똑똑한 모델이 전체 시간은 줄여준다고 봄

그 벤치마크에서는 Gemini 3.5 Flash가 최고 모델로 나오는데, 나한테는 납득이 안 됨

늘 그렇듯, GLM-5.2보다 빠르다는 말은 큰 의미가 없음. GLM-5.2는 여러 제공자가 서빙하므로 추론 속도가 제공자나 시점에 따라 크게 달라질 수 있음

둘 다 계획과 실행에 써본 불완전한 비교로는, GLM5.2는 너무 성급하고 뭔가를 하려는 의욕이 과해서 문제를 만들 때가 많음. 예를 들어 배포나 git 사용을 하면 안 될 때도 하려 함
반면 Sonnet 5는 써본 Claude 모델 중 훨씬 게을렀고, 요청한 계획 보충을 추가하지 않은 뒤 물어보면 했다고 거짓말했음. 분석[0]을 보면 나한테는 가치가 없어 보이고, 다른 사람에게는 다를 수 있음. Fable은 확실히 훨씬 나았음
[0]: https://artificialanalysis.ai/models/claude-sonnet-5

여러 벤치마크에서 중간보다 높은 노력 수준이면 작업당 비용이 Opus를 넘는데, 왜 이걸 쓰고 그냥 Opus 낮은 노력 수준을 쓰지 않을지 이해하기 어려움
생각나는 건 Opus 크레딧이 떨어진 경우뿐임. 물론 API 과금 사용 사례는 있겠지만 그래도 낮은 노력 수준의 Opus를 쓸 것 같음

요즘은 Opus가 바보 같은 짓을 못 하게 막는 일이 점점 많아지고, 매번 일을 너무 복잡하게 만들지 말라고 해야 함
모델들이 문제 해결보다 사용자와 회사에서 돈을 더 뽑아내는 쪽으로 최적화되는 것 같음. 2~3줄짜리 단순한 Python 작업을 명확히 지시했는데 Opus가 왜 전체 라이브러리를 만들려 하는지 모르겠음

특정 작업 기반 벤치마크는 일상적인 에이전트형 사용 사례를 많이 반영하지 못한다고 봄. 개별 작업을 하나씩 처리하고 매번 문맥을 지울 수 있다면 Opus 낮은 노력 수준에서 그런 효율이 나올 수 있음
하지만 실제 문제를 풀며 반복하고 탐색하다 보면 문맥 길이가 점점 늘어나고, 그때 Opus가 비싸지는 경우가 많음

예전 Opus 모델들은 결국 지원 중단될 가능성이 크고, 시간이 지나면 이게 가장 싼 모델이 될 것임. 지금 가격을 올리는 방식이 그럼

속도가 큰 이유임. 단순한 작업을 빨리 끝내야 할 때가 있는데, Opus가 생각을 시작하기까지 30~60초를 기다리면 정말 느려짐

Claude Sonnet 5는 지금까지의 Sonnet 중 가장 에이전트답게 만들었다고 함. 계획을 세우고 브라우저나 터미널 같은 도구를 쓰며, 몇 달 전만 해도 더 크고 비싼 모델이 필요했던 수준으로 자율 실행이 가능함
나는 완전한 에이전트 주도 개발보다는 에이전트 보조 개발을 주로 해서 Opus보다 Sonnet 4.6을 더 많이 써왔음. 그런데 이 발표는 긍정적으로 느껴지지 않음. 모델이 완전한 에이전트형 개발에 최적화될수록, 보조 개발에는 더 나빠지고 아주 엄격하고 구체적인 지시에도 과하게 일을 벌이는 경우가 많았음
최근 몇 주는 K2.7 Code와 GLM-5.2로 점점 옮겨가는 중임. 보조 용도로는 충분한 경우가 많고, 매우 빠르고 저렴함

이런 회사 중 하나가, 표현을 빌리면 에이전트 보조 개발에 맞춘 모델에 시간을 투자할 기회가 분명 있음
문제는 그 회사 내부 사람들이 1~2년 뒤에는 아무도 그런 방식으로 일하지 않을 거라고 믿는 듯하다는 점임

요즘 Kimi K2.6을 쓰고 있음. 아직 회사 승인 경로로 2.7은 못 쓰지만, 내가 뭘 하려는지 이미 알고 있고 과정을 조각내서 진행하고 싶을 때는 괜찮음
Opus보다 조금 더 고쳐야 하긴 함. 하지만 진짜 기준은 “모든 줄을 읽어야 한다”와 “모든 줄을 읽지 않고 믿을 수 있다” 사이인데, 나에게는 어느 모델도 후자에 도달하지 못했고 한동안은 그럴 것 같음. 아키텍처를 브레인스토밍하고 코드로 바꾸는 데는 Opus만큼 좋지 않지만, 항상 그런 문제가 있는 건 아니고 필요하면 Opus를 쓰면 됨
덕분에 코딩이 많은 주에도 수요일이나 목요일쯤 지출 한도에 부딪히지 않고 한 주 내내 여유가 있음. 다만 실제로는 K2.6을 Opus보다 훨씬 더 말려야 하는 느낌임. 단순히 질문만 하고 싶은데 즉시 코딩 작업으로 추론해 달려가지 않게 하려면 훨씬 조심해야 함. 둘 다 계획 모드로 쓰지만, K2.6에서는 Opus보다 더 방어적으로 써야 함

한동안 M1 Mac Studio 64GB 메모리에서 돌리는 로컬 모델로 완전히 옮겼음. 그래도 로컬 양자화 Qwen3.6으로 부족하다고 느끼는 드문 경우에는 Openrouter에 연결해서 Kimi, GLM, Deepseek 같은 걸 Anthropic 등의 일부 가격으로 씀

거의 같은 느낌이고 상황도 비슷함. Sonnet을 쓸 때 더 큰 장점은 응답 시간임

OpenAI 모델인 GPT 5.5 같은 걸 써보는 게 좋을 듯함. 프롬프트에서 정한 지시와 경계를 더 잘 따르고, 지능 손실 없이 Claude 모델보다 더 유능한 에이전트 보조자처럼 느껴짐
내 작업 대부분은 던져놓고 잊는 방식이 아니라 에이전트형 엔지니어링에 가까움. 계획 단계에도 계속 관여하고, 결과를 검토하며 다른 사람들보다 에이전트에게 훨씬 많은 질문을 던지는 편임. 요구사항, 범위, 설계, 때로는 특정 모듈 경계까지 잡아둔 뒤 빈칸을 채우는 “초강력 자동완성” 모드처럼 쓰는 방식이 나에게 가장 잘 맞음

GLM 5.2보다 가격 대비 성능도 나빠 보임. GLM 5.2는 744B 매개변수뿐인데도 그럼
시스템 카드에는 “CyberGym 취약점 발견에서 Claude Sonnet 5는 Sonnet 4.6보다 덜 유능하고, Opus 4.8 및 Mythos 5보다 훨씬 덜 유능하다”고 되어 있음
또 “이 섹션의 다른 평가와 마찬가지로 모든 보호장치를 끈 상태에서 얻은 결과다. 기본 완화책을 켜고 실행하면 Sonnet 5는 CyberGym에서 0점을 받았다”고 함

GLM-5.2와 Sonnet 4.6으로 글을 다시 써봤는데, 대규모 언어 모델은 비결정적이라 결과가 완전히 달랐음. GLM-5.2는 손으로 고쳐야 하는 미묘한 실수를 많이 냈고, 반대로 Sonnet은 두 번째 라운드에서 모든 실수를 찾아 고쳤음
계획과 코딩에서도 비슷했음. GLM-5.2는 “종이 위”에서는 좋아 보이지만 실제 사용 결과는 달랐음
Claude나 GLM-5.2를 변호하려는 건 아님. 2022년 11월부터 매일 대규모 언어 모델을 쓰면서 깨달은 건, 일반적인 테스트는 자기 프로젝트에서 확인해야 한다는 점임. “모든 걸 지배하는 하나의 모델”은 없고, 수천 개 모델의 건초더미에서 특정 모델을 찾아내야 함
벤치마크는 도움이 되지만 점점 자동차 광고의 연비 사양 같아짐. 실제 연비는 사람마다 다름

드디어 실행 가능한 사업 전략이 나옴. 보안에 무지한 코드 원숭이는 싸게 팔고, 그 난장판을 치울 수 있는 에이전트에는 프리미엄 요금을 받으면 됨

특정인을 겨냥하는 건 아니지만, HN의 논의 품질이 언젠가는 이런 기본 비교를 넘어섰으면 함. 모델 출시 스레드마다 똑같은 댓글이 반복되는 것 같음
“X 모델이 T 벤치마크에서 Claude Z보다 Y% 좋거나 나쁘다”, “그건 의미 없다, 벤치마크 맞춤이다”, “일상 코딩이나 에이전트 작업에는 못 쓴다, 느낌이 완전히 틀렸다”, “거의 비슷하고 훨씬 싸니 난 무조건 쓴다”, “단계적 성능 차이 때문에 오픈 모델의 낮은 비용이 생산성 손실을 메우지 못해서 정당화가 안 된다” 같은 식임
Anthropic에 불만이 있는 고객이고, 오픈 모델과 폐쇄되지 않은 지능을 정말 응원함. 하지만 이제 밈처럼 된 모델 출시 담론의 반복에서 어떻게 벗어날 수 있을지 모르겠음. 나도 대규모 언어 모델이나 벤치마크를 설계하는 사람은 아니고, 완벽하지 않더라도 정보를 제공하려는 노력을 진심으로 고맙게 생각함. 이런 발표 댓글을 꾸준히 읽는 사람들은 대부분 비슷하게 느끼지 않나 싶음

오늘 실수로 Sonnet 5를 조금 썼는데, 소프트웨어 개발에서는 Opus 4.8보다 상당히 나빠 보였음

사이버 보안에 대한 과도한 편집증이 결국 모델이 덜 안전한 코드를 생성하게 만드는지 궁금함. 안전한 코드를 만들 능력이 있다는 건 사이버 보안에 대해 뭔가 안다는 뜻이고, 그 지식으로 전 세계 은행을 해킹할 수 있다고 볼 수도 있으니 말임

이미지 생성 모델에서 누드를 검열하려다 해부학 표현에 온갖 문제가 생겼음. 이런 모델들도 보안에서 비슷한 문제가 생길 것 같음

그게 목표일 수도 있음

이 모델이 꽤 기대돼서, 서로 다른 세 프로젝트에서 Opus 플래너들에게 Opus 하위 에이전트 대신 Sonnet을 써서 HPC 커널 실험을 더 빨리 도와달라고 했음. 그런데 하나도 코드 한 줄을 쓰지 않았고, Sonnet들은 계속 맴돌며 토큰만 낭비했음
내 코드베이스에서 Opus로 이런 일이 마지막으로 언제 있었는지 기억도 안 남. 다시 되돌리는 중임

새 모델 출시 때 이런 일이 전에도 있었음. Opus 4.7이 나왔을 때도 20분 넘게 “작업 중”이어서 그냥 완전히 종료하고 다음 날까지 기다렸음
저절로 사라졌음

중요한 점은 이거임. “Sonnet 5는 Sonnet 4.6의 업그레이드지만, 성능 향상을 위해 모델이 텍스트를 처리하는 방식을 바꾸는 업데이트된 토크나이저를 사용한다. 이는 Claude Opus 4.7에서 도입한 토크나이저 변경과 비슷하다. 대가는 같은 입력이 더 많은 토큰으로 매핑될 수 있다는 점이다. 콘텐츠 유형에 따라 대략 1.0~1.35배다. 도입 가격은 Sonnet 5로 전환해도 대략 비용 중립이 되도록 설정했다”

그러면 도입 기간 이후 가격은 Sonnet 5가 100~135% 더 들도록 설정된다는 뜻인가?

“가격을 올리는 방법은 두 가지입니다. (1) 토큰당 가격을 올리거나 (2) 사용자를 대신해 생성하는 토큰 수를 늘리는 것입니다. 우리는 (2)를 악의적으로 하지 않겠다고 약속합니다. 약속합니다”

Insights

Claude Sonnet 5 공개

요약

핵심 포인트

댓글

대규모 언어 모델을 이용한 문체적 도용 조사: EU 법률에 따른 저작권 침해 평가 프레임워크

데이터베이스가 실패할 때: 작업 지향 대화(Task-Oriented Dialogue)에서 안전한 복구를 위한 LLM 대화 에이전트 프롬프팅

LLM은 이분법적 딜레마를 넘어 도덕적 대안을 상상할 수 있는가?

FPGA 상에서 좌측-우측 산술 가산기를 이용한 동적 초음파 빔포밍

데이터베이스가 실패할 때: 작업 지향 대화(Task-Oriented Dialogue)에서 안전한 복구를 위한 LLM 대화 에이전트 프롬프팅

LLM은 이분법적 딜레마를 넘어 도덕적 대안을 상상할 수 있는가?

FPGA 상에서 좌측-우측 산술 가산기를 이용한 동적 초음파 빔포밍