Ornith-1.0 - 에이전트형 코딩을 위한 자기 개선 오픈소스 모델 - Insights | Molayo

2026년에 “도구 없는 채팅에서 성능이 나쁘다”는 말이 진지하게 나오는 게 이상함. 이 파인튜닝이 좋은지는 직접 안 써봐서 모르겠지만, 명백히 에이전트형 모델을 도구 접근 없이 테스트하고 잘 되길 기대하는 건 말이 안 되지 않나? 대체 뭘 테스트한 건지 모르겠음

그 벤치마크는 Kimi K2.6과 K2.7 Code를 거의 최하위권에 둠. 둘 다 Ornith 35B보다 낮고, Gemma 4 26B를 GLM-5.2보다 훨씬 높게 평가함. 결과가 별로 납득되지 않음

이건 로컬 LLM 커뮤니티에서 즉시 거부당하지 않은 첫 Qwen 파인튜닝이고, 어떤 경우에는 추천까지 됨. 제한적으로 써본 바로는 괜찮고, 코딩 문제에 창의적인 해법을 내놓음. 9~35B 모델이 클릭 한 번으로 전체 앱을 만들어주길 기대하진 않음. 불평하던 대부분은 그런 기대치에서 나온 듯함

로컬 LLM 커뮤니티에는 예전 암호화폐/NFT 장사꾼들이 몰려와서, 이전 커뮤니티의 과장 문화까지 같이 가져온 상태임. 아직 깊이 있는 기술자들이 남아 있긴 하지만, 공허한 마케팅 목소리에 점점 묻히고 있음

안타깝게도 처음부터 계속 이런 식이었음. 로컬 모델을 로컬 작업에, 적당한 안전장치와 함께 시험해보는 데 해로울 건 없음
Qwen, Gemma, Llama, gpt-oss 같은 모델 대부분은 특수 토큰, 프롬프트 구조, 모델 선호 같은 자잘한 함정을 찾는 게 지금은 정말 번거로움. 그래도 힘들게 익힌 프롬프트와 매개변수로 조정한 에이전트 실행 환경에서는 아주 잘 돌아가는 모델을 얻을 수 있음

더 나아진 건 아님. LocalLLama 커뮤니티의 대다수는 이걸 별로 좋아하지 않고, 새로 온 몇 명만 글을 올리는 정도임

서로 다른 커뮤니티에 있는 듯함. Qwen 모델은 대중이 접근 가능한 로컬 하드웨어에서 실제로 돌릴 수 있는 모델 중 가장 많이 추천되는 쪽임

이런 “자기 개선” 모델들은 왜 결국 최첨단 모델보다 더 나아질 정도까지 개선되지 않는 걸까?

직접 테스트한 바로는 Ornith-1.0 35B가 Qwen-3.6 35B보다 약간 더 나았음
내 테스트는 큰 C++ 코드베이스에 기능을 추가하거나 수정하는 작업들임. 흥미로운 점은 이 모델이 Qwen3.6 35B보다 훨씬 빠르다는 것임. Ornith가 더 짧은 사고 과정을 만드는 듯함
내 테스트에서는 답을 만드는 속도가 3배까지 빨랐음. llamacpp와 codex-cli로 사용 중임

Ornith-1.0 35B를 직접 만든 FP8 블록 양자화로 테스트해봤는데 마음에 듦. RTX PRO 6000(sm120)에서 vLLM으로 200토큰/초 이상 나오고, 지난 며칠 동안 에이전트식 코딩 작업으로 캐시된 토큰을 1.4억 개 넘게 돌렸음
대략 Qwen 3.6 35B-A3B와 27B 사이쯤으로 보이지만, 좋은 점은 Qwen 3.6보다 과도하게 생각하거나 같은 루프에 빠지는 일이 훨씬 적다는 것임. 사고 추적을 보면 분해 접근 방식의 템플릿이 마음에 듦
중간 규모 Go 코드베이스에서 기본 분석, 작업 처리, 일부 프런트엔드/백엔드 변경은 잘했지만, 더 긴 단순 커널 구현 작업에서는 완전히 한계에 부딪혔음. Pi Agent 실행 환경에서 약 100회 반복했는데 망쳤고, 이런 작업은 Kimi K2.6이나 GLM 5.2 같은 더 강한 공개 모델들이 해낼 수 있는 유형임

이 모델 크기에서는 실행 환경이 더 중요해 보였음. 개인적으로 qwen3.6 27b에서는 원시 pi 대신 little-coder로 옮겼는데, 한번 살펴볼 만함

여기서 무슨 일이 벌어진 건지 설명해줄 수 있나? 그냥 Qwen을 겉만 바꾼 건가? deepreinforce-ai는 누구고, 왜 이 모델이 그들의 웹사이트에는 없을까?
어떻게 자기 개선을 한다는 건지 궁금함. 디스크 위의 모델이 바뀌는 건가, 아니면 단일 컨텍스트 실행 중에만 더 나아지는 건가?

자기 개선은 하지 않음. 제목이 오해를 부르는 표현임
내가 보기엔 Qwen과 Gemma 4 위에 자체 강화학습을 돌려 훈련한 것 같음. 둘의 가중치를 어떻게 결합했는지는 모르겠고, Qwen을 기반으로 삼고 Gemma 4를 훈련 보조에 쓴 건지도 확실치 않음. 여기서 “자기 개선”은 가중치를 사용하는 방식이 아니라 훈련 과정을 가리키는 듯함

이것들은 그냥 Qwen이나 Gemma 4를 벤치마크 최적화한 버전으로 보임

그렇다면 이미 벤치마크에 꽤 최적화된 Qwen을 더 밀어붙였다는 점은 인상적임

“밀집형 9B가 단일 80GB GPU에 들어간다”
우리 같은 평범한 사람은 못 쓰겠음

이상해 보임. 9B 모델이면 보통 24GB GPU에도 비양자화 상태로 들어감

이미 양자화 버전들이 나와 있음

로컬 모델을 많이 써봤는데 전부 장난감처럼 느껴졌음. 그런데 이건 실제로 유용하다는 느낌이 들었음. Qwen 36-A3B도 좋다고 들었는데 아직 써보진 못함

자기 개선 시스템은 흥미롭지만, 출처 추적과 거버넌스를 훨씬 어렵게 만듦. 에이전트가 시간이 지나며 자기 행동을 바꿀 수 있게 되면, 왜 특정 방식으로 행동했는지 이해하는 일이 점점 더 중요해짐

Insights

Ornith-1.0 - 에이전트형 코딩을 위한 자기 개선 오픈소스 모델

요약

핵심 포인트

댓글

Midnight AI Groove 26-06-25

Codex가 연간 640TB를 SSD에 쓰고 있었던 원인, TRACE 로그를 추적하다

하이브리드 검색(Hybrid Retrieval)과 LangChain을 활용한 프로덕션급 RAG 파이프라인 구축

Midnight AI Groove 26-06-25

Codex가 연간 640TB를 SSD에 쓰고 있었던 원인, TRACE 로그를 추적하다

하이브리드 검색(Hybrid Retrieval)과 LangChain을 활용한 프로덕션급 RAG 파이프라인 구축