MAI-Code-1-Flash

모델 카드에 따르면 이건 총 137B 파라미터 모델임
성능은 그렇게 좋아 보이지 않음: MAI-Code-1-Flash (137B-A5B)는 SWE-bench pro 51%, Qwen3.6-35B-A3B는 SWE-bench pro 49.5%(https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
Claude Haiku와 비교하지만 Haiku는 좋은 모델이 아니고, 로컬이나 API로 비용 10% 수준에 돌릴 수 있는 작은 오픈 모델보다도 못함

핵심은 이 모델이 Haiku와 경쟁하는 작은 모델이라는 것 같고, 다음에는 "Sonnet"급, 그다음에는 Opus급 경쟁 모델이 나오길 기대함
Microsoft가 왜 Copilot에서 자기들이 만든 모델 제공을 이렇게 미루는지 궁금했는데, OpenAI와의 계약 일부였을 수도 있겠다는 생각이 듦

137B-A5B라면, 앞선 제목이 암시하던 5B 파라미터 모델은 아님

시작으로는 좋고 경쟁은 환영하지만, Haiku 4.5 같은 작은 클라우드 모델을 코딩에 써본 적은 거의 없음
귀엽긴 해도 진지한 코딩에서는 비싼 내 시간을 낭비하는 경우가 많고, 어제 해지한 GitHub Copilot로 돌아가게 만들 정도도 아님
GitHub Copilot은 어제까지는 가격 경쟁력이 있었지만, 요청당 과금에서 가장 비싼 축의 토큰당 할당량 방식으로 바뀌었음. 웃고 싶으면 불타는 서브레딧을 보면 됨: https://www.reddit.com/r/GithubCopilot
이후 거의 무료에 Sonnet+급인 DeepSeek Flash high로 바꿨고, 더 똑똑한 모델이 필요하면 월 $20 Codex에 가입해 지금 접근 가능한 최고라고 보는 GPT 5.5를 쓸 듯함

큰 모델로 작업을 위상 정렬된 작업 그래프로 조직하고, 복잡도에 따라 작은 모델을 각 작업에 붙인 뒤, 큰 모델이 평가하고 필요한 곳을 패치하게 함
이 방식에서는 일상적인 작업에 Haiku를 꽤 자주 쓰며, 여러 시간 걸리는 고복잡도 작업도 더 좋은 결과와 훨씬 낮은 비용으로 처리 가능함. 부모 오케스트레이터가 작업을 효과적으로 정리하고 품질을 검토하며 필요한 곳에서 통합해, 단일 컨텍스트 창 안에서 거대한 노동을 수행함
Haiku를 직접 쓰지는 않지만 큰 작업의 토큰 사용량 중 30~40%를 차지하는 경우가 많음. 완료 시간과 비용 모두 개선되고, Haiku는 문자 그대로의 지시와 계획을 “재해석”하지 않고 따르는 데 더 나은 반면 Opus급 모델은 사고 과정에서 계속 의심하고 되묻는 편임
그래서 Haiku는 시간 낭비가 아니라 엄청난 시간을 아껴줌. 다만 여기까지 오기 위해 오케스트레이션 시스템을 먼저 만들고 계속 반복 개선하는 데 많은 시간을 썼음. 흥미롭게도 디렉터와 이후 distinguished engineer로 일한 경험이 이걸 끝까지 안정적으로 굴릴 도구를 줬고, 다양한 능력의 다중 에이전트 흐름은 1000명 엔지니어 조직의 역학과 크게 다르지 않음

어려운 보안 버그를 찾는 용도로 여러 모델을 벤치마크해 보니, 그 과정에서 Haiku와 Sonnet에 대한 신뢰가 급격히 떨어졌음
자체 호스팅한 Qwen 3.6 27B가 보안 버그 탐지에서 둘을 일관되게 앞섰고, 이는 꽤 충격적인 결과였음. Qwen은 Haiku 수준이거나 조금 못할 줄 알았고, Sonnet보다는 확실히 못할 거라고 봤음
DeepSeek와 MiMo는 Haiku와 Sonnet보다 훨씬 잘하고, 비용은 일부에 불과한데 Opus/GPT 5.5 수준에 가까움
무료로 받거나 보통 다 쓰지도 못하는 구독에 포함된 게 아니라면, Haiku나 Sonnet을 쓸 이유가 거의 없어 보임

거의 같은 상황임. DeepSeek는 거절도 거의 없었고, 중국식 가치관 덕분에 리버스 엔지니어링, 저작권 파일 찾기, 출처가 의심스러운 소스 코드 작업 같은 것에서 마찰이 훨씬 적었음
Copilot 가격을 90% 낮춰도 돌아가지 않을 것 같음

이건 Qwen 3.6, Gemma 4, Nemotron 3 Super 같은 범위로 보임
Haiku와 비슷하게 경쟁력 있는 모델은 많고, Qwen 3.6 35B-A3B처럼 훨씬 작고 싼 것도 있음. 이런 건 노트북에서 돌릴 수 있으니 Microsoft에서 빌릴 필요가 없음
새 Copilot 청구서에 당황했지만 생태계에 남고 싶은 사람에게는 쓸 선택지가 되겠지만, 대부분에게는 더 나은 선택지가 넘침

월 $20짜리 ChatGPT 플랜에 Codex가 포함되는 건 가성비가 좋음
프리미엄 ChatGPT만 있어도 괜찮고, 정기적으로 사용량 제한에 걸리긴 해도 대부분의 일은 할 수 있음

실제로 이런 작은 모델을 코딩에 쓰는 사람이 있나? 있다면 어떻게 쓰는지 궁금함
보통은 전부 Opus로 처리함. 더 무거운 모델로 계획/설계/아키텍처를 잡고 구조화된 작업을 이런 작은 모델에 위임하는 방식인지, 양쪽을 다 해보고 테스트한 사람의 생각을 듣고 싶음

직장에서는 Opus 4.x를 쓰고, 집에서는 이런 “작은” 모델들(20~~80B, 활성 3~~4B)을 씀
아쉽지만 아직은 비교가 안 됨
Opus로는 복잡한 코드베이스에서도 설계, 아키텍처 제안, 코드 변경을 믿고 작업할 수 있음
작은 모델들은 “시도”는 하는 느낌임. 작은 작업에는 되지만, 복잡한 작업에서는 직접 하는 것보다 일이 더 많아지는 경우가 흔함
달랐으면 좋겠고, 1~2년 뒤에는 달라질 수도 있음

Haiku는 꽤 싸면서도 크게 망치지 않아서, 예전 Copilot 플랜에서 기존 프로젝트의 대화형 코딩에 썼음
간단한 기능은 완전한 계획을 세우지 않음. 코드를 조금 쓰고 짧은 프롬프트 한 줄로 모델에게 해야 할 일을 말함. 가끔 임시 주석을 코드에 넣어 방향을 줌
보통 코드 변경이 파일이나 패키지 안에 머무르면 Haiku도 요청을 따라가고 너무 망치지 않을 만큼은 충분함. 시간이 지나며 방향을 주는 스킬도 만들어뒀음. GitHub Copilot을 쓰던 몇 달 동안 월말에 남은 크레딧을 허겁지겁 쓰려고 한 적도 있음
AI 코드 완성만으로도 꽤 괜찮을 때가 있음. 코드가 해야 할 일을 임시 주석으로 적고 Tab-Tab-Tab만 누르면 함수 전체가 완성되기도 함
고급 모델이 덜 망칠 거라 생각해 사람들이 그쪽으로 가는 경향이 있지만, 코드를 정말 이해하고 있다면 낮은 모델로 대화형으로 작업하는 편이 더 쉬움

변경 작업의 실행을 별도 책임으로 나눔
메인 채팅을 “오케스트레이터”인 Opus로 지정하고, 목표를 정한 뒤 다음 하위 에이전트를 순서대로 써서 도달할 때까지 밀어붙이게 함

단계 실행(Sonnet): 오케스트레이터 지시에 따라 30분/100k 토큰 동안 작업

검토(Opus): 이전 단계의 작업에서 오류와 지시 충실도를 면밀히 확인하고, 고친 뒤 오류와 토큰 사용을 줄이기 위한 에이전트 설정+도구 개선 기회를 파일에 기록

자기 개선(Opus): 사용자 개입이 필요 없는 것 중 영향이 큰 자기 개선 항목을 구현
반복: 오케스트레이터 세션 토큰 예산이 소진될 때까지 진행함. 1M 같은 값으로 설정하면 됨
기본 논리는 각 단계를 관리 가능한 크기로 유지해 지시 준수율을 높이고 비용을 낮추는 것임. 캐시된 토큰도 비용이 들기 때문임. 프롬프트 토큰은 생성 토큰보다 훨씬 싸므로, Opus가 주도하기보다 주로 검토하게 만들수록 비용도 많이 절약됨
자기 개선 단계는 매우 비싸지만 개선이 누적됨. 며칠이나 몇 주짜리 작업을 돌릴 거라면 안 하는 쪽이 훨씬 비쌈
수정: Claude Code에서 Anthropic 모델로도 하고, 오프라인 사용에는 Qwen 계열 모델로도 함

Claude Code 자체도 많은 하위 에이전트를 Haiku로 띄움
이 모델은 환각률이 낮아서 탐색 작업에 좋고, 여기서 나온 모델도 가장 좋은 용도는 비슷할 것 같음. 많은 작업이 계획이나 수정 전에 여러 탐색 에이전트를 띄우고, 이후에는 도구 호출 몇 번으로 끝나기 때문에 토큰 사용량도 큼

이 모델을 Haiku 4.5와 비교하고 있음
Opus도 Sonnet도 아니고, Anthropic의 가장 작은 모델인 Haiku, 그것도 3버전 전 모델과 비교하는 셈임

4.5가 아직 최신 Haiku 모델임

왜 다들 창 스크롤을 이렇게 엉망으로 재구현하는 걸까?

아마 바이브 코딩으로 만든 듯함. 나는 StopTheMadness로 막아둠

바로 눈에 띄어서 곧장 닫아버렸음

벤치마크는 여전히 이렇게 낮은데 모델은 혁명적인 것처럼 마케팅되는 게 너무 이상함
코딩 능력이 낮아도 문제가 아니라고 한다면, 토큰 가격 인상과 “범용” 모델 설정을 같이 봐야 함
왜 수학 에이전트로 팔지 않는 걸까? 왜 서로의 작업을 확인할 에이전트 4개를 내가 설정해야 하나?

이해하기로는, 다른 모델들과 달리 MAI 모델은 벤치마크 점수를 끌어올리도록 특별히 설계된 합성 데이터셋으로 아직 미세조정하지 않았기 때문임

핵심은 가격 대비 성능임
5B 파라미터로 그 정도 점수라면 꽤 좋고, 얼마 전까지만 해도 거의 믿기 어려운 수준이었음
작은 모델은 점점 더 좋아질 것이고, 클라우드 최첨단 모델도 작아질 거라고 봄
지금의 인프라 대규모 증설이 철도 같은 느낌이 될 또 하나의 이유임

Haiku가 애초에 무엇을 위한 모델인지 다시 떠올려야 했음
Anthropic이 최근 Haiku 마케팅에 큰 힘을 쓰지는 않았음
가벼운 모델이 필요하면 Sonnet을 씀. Max 플랜에서는 거의 공짜에 가깝고 꽤 빠름. 일반적인 코딩에서 Haiku가 들어갈 자리는 잘 안 보임
Haiku는 대규모 요약/분류가 필요할 때 쓰는 모델인 듯함
Microsoft가 Haiku를 기준점으로 삼은 건 낮은 기준임

“Max 플랜에서는 거의 공짜”라는 말은 웃긴 모순임

웹사이트는 Safari에서 테스트해 줬으면 함
iOS 사용자는 거의 전부 기본으로 Safari를 쓰고, 데스크톱 경험도 모바일과 꽤 비슷하니 테스트가 쉬움
저 스크롤 효과는 내 환경에서 완전히 버벅임. Chrome/Edge에서는 잘 된다는 건 알겠음

Firefox+macOS에서도 확실히 스크롤 가로채기 같은 게 있고 느낌이 끔찍함

어제만 출시됐어도 Copilot 자동 모델 선택이 9배짜리 모델을 써서 한 오후 만에 월 할당량을 조용히 태워버리는 일은 피했을지도 모름

MAI-Code-1-Flash

요약

핵심 포인트

댓글