Ornith 1.0: 개발자들이 주의 깊게 지켜봐야 할 오픈 소스 코딩 모델

새로운 코딩 모델은 지금 시점에서 무시하기 쉽습니다. 매주 누군가는 새로운 벤치마크 점수, 새로운 에이전트(agent), 새로운 워크플로우, 그리고 개발자들이 모든 것을 바꿔야 하는 새로운 이유를 주장합니다. 그중 대부분은 월요일이 되면 사라집니다.

Ornith 1.0은 천천히 살펴볼 가치가 있습니다.

DeepReinforce는 에이전틱 코딩 (agentic coding)을 위해 특별히 구축된 오픈 소스 모델 제품군으로서 Ornith 1.0을 출시했습니다. 이 문구는 중요합니다. 이것은 단순히 당신이 정중하게 요청할 때 함수를 작성할 수 있는 채팅 모델만이 아닙니다. 이것은 소프트웨어 작업의 더 복잡한 부분, 즉 리포지토리 (repo) 검색, 도구 사용, 패치 시도, 실패 읽기, 계획 조정, 그리고 그 루프를 다시 반복하는 것을 목표로 합니다.

만약 보고된 수치들이 실제 사용 환경에서도 유지된다면, Ornith 1.0은 올해 개발자들에게 가장 중요한 오픈 모델 출시 중 하나가 될 수 있습니다. 이것이 프로그래머를 마법처럼 대체하기 때문이 아닙니다. 그렇지 않습니다. 흥미로운 점은 폐쇄적인 API 외부에서 연구, 호스팅, 수정 및 실행할 수 있는 모델 제품군에 강력한 코딩 에이전트 (coding-agent) 동작을 밀어 넣었다는 것입니다.

Ornith 1.0이란 무엇인가?

Ornith 1.0은 에이전틱 코딩 (agentic coding)에 집중하는 DeepReinforce AI의 오픈 소스 대규모 언어 모델 (LLM) 제품군입니다. 공식 출시 목록에는 9B Dense, 31B Dense, 35B MoE, 397B MoE 등 여러 크기가 나열되어 있습니다. 이 모델들은 Gemma 4 및 Qwen 3.5 기반 위에서 사후 학습 (post-trained) 되었으며, 프로젝트는 MIT 라이선스 하에 게시되었습니다.

9B 모델은 로컬 실험을 위한 접근하기 쉬운 모델입니다. 35B 및 397B 변체는 더 강력한 하드웨어를 보유한 팀을 위한 보다 진지한 서비스 대상입니다. 또한 이 프로젝트는 GGUF 및 FP8 변체를 게시하는데, 이는 모든 개발자가 동일한 사양의 기기를 가지고 있지는 않기 때문에 중요합니다. 거대한 연구소 내부에서만 작동하는 모델은 흥미로울 뿐입니다. 더 작고 양자화된 (quantized) 경로를 가진 모델이 유용합니다.

공식 문서에 따르면, Ornith는 최신 런타임 (runtimes)과 함께 서빙될 때 OpenAI 호환 인터페이스 (OpenAI-compatible interface)와 256K 토큰 컨텍스트 윈도우 (context window)를 지원한다고 합니다. 개발자들에게 이는 해당 모델이 코딩 에이전트 (coding agents), VS Code 확장 프로그램 (extensions), 로컬 추론 서버 (local inference servers), 그리고 이미 OpenAI API 형식을 사용하는 스크립트 등 기존 도구들에 더 쉽게 통합될 수 있음을 의미합니다.

차별화 요소: 셀프 스캐폴딩 (self-scaffolding)

DeepReinforce가 사용하는 용어는 "셀프 스캐폴딩 (self-scaffolding)"입니다. 일반적인 에이전트 설정에서는 인간이 하네스 (harness)를 설계합니다. 즉, 모델이 도구를 호출하는 방식, 시도해야 할 단계, 실패로부터 복구하는 방법, 그리고 작업을 구조화하는 방법을 설계합니다. Ornith 1.0은 강화학습 (reinforcement learning) 과정에서 이러한 스캐폴딩의 일부를 스스로 학습하려고 시도합니다.

쉽게 말해, 모델이 단순히 정답을 생성하는 법뿐만 아니라, 정답에 도달하기 위해 사용하는 프로세스를 개선하는 법까지 학습하도록 훈련된다는 뜻입니다.

이는 코딩 분야에서 매우 중요한 대목입니다. 실제 프로그래밍은 단 한 번에 끝나는 경우가 거의 없습니다. 저장소 (repo)를 검토하고, 변경 사항을 적용하고, 테스트를 실행하고, 에러를 마주하고, 스택 트레이스 (stack trace)를 읽고, 문제를 좁혀나간 뒤, 다시 패치 (patch)를 적용합니다. 더 나은 탐색 및 수정 패턴을 학습할 수 있는 모델은, 채팅창에서 그저 보기 좋은 코드 블록만을 생성하는 모델보다 훨씬 더 가치 있습니다.

다만 주의할 점이 있습니다. 모델이 스스로 스캐폴딩을 구축하는 법을 배우게 되면, 작업을 실제로 해결하지 않고도 검증기 (verifier)를 만족시키는 편법을 배울 수도 있습니다. TestingCatalog은 DeepReinforce가 외부 신뢰 경계 (outer trust boundary), 결정론적 모니터 (deterministic monitor), 그리고 고정된 LLM 판사 (frozen LLM judge)를 포함한 안전장치에 대해 설명하고 있다고 언급했습니다. 이는 고무적인 부분이지만, 팀들은 벤치마크 수치를 안전 보장이 아닌 시작점으로 간주해야 합니다.

벤치마크 이야기

DeepReinforce가 발표한 결과에 따르면, Ornith 1.0은 에이전트 기반 코딩 (agentic coding) 벤치마크에서 강력한 성능을 보여줍니다. 핵심적인 수치는 397B 모델로, Terminal-Bench 2.1에서 77.5, SWE-Bench Verified에서 82.4를 기록했습니다. 동일한 발표 자료에서는 이 결과를 Claude Opus 4.7(Terminal-Bench 2.1에서 70.3, SWE-Bench Verified에서 80.8)과 비교하고 있습니다.

더 작은 모델들도 흥미롭습니다. Ornith 1.0 9B는 Terminal-Bench 2.1에서 43.1, SWE-Bench Verified에서 69.4를 기록했다고 보고되었습니다. 제가 계속해서 이 수치에 주목하는 이유는, 유용한 소형 코딩 모델 (coding model)은 실험할 수 있는 주체를 변화시키기 때문입니다. 학생, 개인 개발자, 스타트업, 그리고 개인정보 보호를 중시하는 팀들은 모든 파일을 호스팅된 모델 (hosted model)로 전송하지 않고도 로컬 에이전트 워크플로우 (local agent workflows)를 테스트할 수 있습니다.

Ornith 1.0 397B benchmark results compared with other large coding models

Ornith 1.0 397B 벤치마크 (benchmark) 결과. 출처: DeepReinforce GitHub.

Ornith 1.0 35B 벤치마크 (benchmark) 결과. 출처: DeepReinforce GitHub.

Ornith 1.0 9B 벤치마크 (benchmark) 결과. 출처: DeepReinforce GitHub.

빠른 벤치마크 요약

모델	Terminal-Bench 2.1	SWE-Bench Verified	중요성
Ornith 1.0 397B	77.5	82.4	최첨단 에이전트 코딩 (frontier agentic coding)을 목표로 하는 플래그십 오픈 모델 (flagship open model).
...

솔직한 한 마디를 덧붙이자면: 이 결과들은 벤더(vendor)가 발표한 벤치마크 (benchmark) 결과입니다. 해당 저장소(repo)가 상세한 하네스(harness) 노트를 공개하고 있어 여전히 유용하긴 하지만, 개발자들은 워크플로우 결정을 내리기 전에 자신의 저장소에서 Ornith를 직접 테스트해 보아야 합니다.

이것이 큰 변화를 가져올 수 있는 이유

오픈 소스 AI 코딩 경쟁은 자동 완성 (autocomplete)에서 에이전트 (agents)로 이동해 왔습니다. 이러한 변화는 질문의 성격을 바꿉니다. 개발자들은 더 이상 단순히 "코드를 작성할 수 있는가?"라고 묻지 않습니다. 대신 "모든 것을 망가뜨리지 않고 내 프로젝트 내부에서 작업할 수 있는가?"라고 묻습니다.

Ornith 1.0이 중요한 이유는 바로 그 두 번째 질문에 정면으로 대응하기 때문입니다.

검사 및 호스팅이 가능할 만큼 개방적입니다. 폐쇄형 코딩 에이전트 (Closed coding agents)도 강력할 수 있지만, 신뢰와 데이터에 대한 문제를 야기합니다. MIT 라이선스가 부여된 모델 제품군 (model family)은 팀에게 더 많은 통제권을 제공합니다.
도구 사용 코딩 루프 (tool-using coding loops)를 위해 구축되었습니다. Terminal-Bench 및 SWE-Bench와 같은 벤치마크 (benchmarks)는 단순한 프롬프트-응답 테스트보다 실제 개발자의 작업에 더 가깝습니다.
실용적인 모델 크기를 갖추고 있습니다. 397B는 본격적인 인프라 (infrastructure)용입니다. 9B 및 GGUF 변형 모델들은 로컬에서 실험하고자 하는 사람들을 위한 것입니다.
기존 도구에 연결할 수 있습니다. OpenAI 호환 서빙 (OpenAI-compatible serving)을 통해 Ornith를 VS Code 확장 프로그램, OpenHands, 커스텀 스크립트 및 로컬 에이전트 프레임워크 (local agent frameworks)에 더 쉽게 연결할 수 있습니다.

더 깊은 변화는 문화적인 것입니다. Ornith와 같은 모델들이 계속해서 개선된다면, 팀들은 CI, 린터 (linters), 내부 개발 도구들을 다루는 것과 마찬가지로 로컬 또는 자체 호스팅되는 코딩 에이전트를 일반적인 인프라로 취급하기 시작할 것입니다.

Ornith 1.0이 유용한 경우

저는 Ornith를 맹목적인 오토파일럿 (autopilot)으로 사용하지 않을 것입니다. 대신 인간의 검토 하에 작동하는, 저장소 인지형 어시스턴트 (repo-aware assistant)로 사용할 것입니다.

버그 수정 (Bug fixing): 에이전트에게 실패하는 테스트를 제공하고, 코드베이스를 조사하게 한 뒤, 패치 (patch)를 제안하고 테스트를 다시 실행하게 합니다.
리팩터링 (Refactoring): 프로젝트 전반에 걸쳐 반복되는 패턴을 업데이트하도록 요청한 다음, 주니어 개발자의 PR (Pull Request)을 검토하듯이 차이점 (diff)을 검토합니다.
테스트 생성 (Test generation): 더 큰 변경을 수행하기 전에 취약한 코드 주변의 커버리지 (coverage)를 생성하는 데 사용합니다.
오프라인 또는 프라이빗 코딩 (Offline or private coding): 저장소가 기기를 벗어날 수 없는 경우, 더 작은 체크포인트 (checkpoint)를 로컬에서 실행합니다.
에이전트 연구 (Agent research): 셀프 스캐폴딩 (self-scaffolding)이 도구 사용, 실패 복구, 그리고 긴 컨텍스트의 저장소 작업 (long-context repo work)을 어떻게 변화시키는지 연구합니다.

어떤 모델을 선택해야 할까요?

사용 사례 (Use case)	권장 변체 (Recommended variant)	이유
로컬 실험 (Local experimentation)	Ornith 1.0 9B GGUF	소비자용 기기 및 로컬 도구에서 가장 쉬운 경로입니다.
...	...	...

저의 추천: 학습 중이라면 9B GGUF로 시작하고, 하드웨어가 갖춰져 있다면 35B를 사용하세요. 397B는 팀에서 이미 대규모 MoE (Mixture of Experts) 모델을 운영하고 있지 않는 한, 호스팅된 서비스나 실험실급 옵션으로 간주하십시오.

Windows에서 Ornith 1.0을 사용하는 방법

Windows에서의 가장 간단한 경로는 GGUF 체크포인트를 사용하는 Ollama 또는 LM Studio입니다. NVIDIA GPU를 보유하고 있으며 Linux와 유사한 서빙 스택 (serving stack)을 선호한다면, WSL2를 사용하고 WSL 내부의 Ubuntu에서 vLLM을 실행하십시오.

# 옵션 A: Windows + Ollama 또는 LM Studio
# 1. Ollama 또는 LM Studio를 설치합니다.
# 2. Hugging Face에서 Ornith-1.0-9B-GGUF와 같은 GGUF 변체를 다운로드합니다.
...

vLLM을 사용하는 WSL2의 경우:

# WSL2의 Ubuntu 내부
python -m venv .venv
source .venv/bin/activate
...

그 다음 테스트합니다:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
...

Linux에서 Ornith 1.0을 사용하는 방법

Linux는 vLLM 또는 SGLang을 위한 가장 깔끔한 경로입니다. 먼저 NVIDIA 드라이버, CUDA 스택, 그리고 Python 환경이 준비되었는지 확인하십시오.

python -m venv ornith-env
source ornith-env/bin/activate
pip install -U vllm
...

35B 또는 397B의 경우, 텐서 병렬화 (tensor parallelism)를 사용하고 그 수를 GPU 개수와 일치시키십시오:

MODEL=deepreinforce-ai/Ornith-1.0-35B-FP8
vllm serve $MODEL \
  --served-model-name Ornith-1.0 \
...

macOS에서 Ornith 1.0을 사용하는 방법

Mac에서는 GGUF로 시작하십시오. Apple Silicon 기기는 훌륭한 로컬 LLM (Large Language Model) 장치이지만, 35B 및 397B 모델은 일반적인 노트북 작업 부하가 아닙니다. 먼저 9B GGUF를 시도해 보세요.

# 옵션 A: LM Studio
# 1. macOS용 LM Studio를 설치합니다.
# 2. Ornith-1.0-9B-GGUF 체크포인트를 검색하거나 다운로드합니다.
...

llama.cpp를 직접 사용하는 경우:

# llama.cpp를 빌드하고, GGUF 파일을 다운로드한 다음, 이를 서빙합니다
./llama-server \
  -m /path/to/Ornith-1.0-9B.gguf \
...

노트북에서 가장 큰 컨텍스트 윈도우 (context window)로 시작하지 마세요. 더 작은 규모로 시작하여 속도와 메모리를 확인한 다음, 필요한 경우에만 컨텍스트를 늘리십시오.

VS Code에서 Ornith 1.0을 사용하는 방법

가장 쉬운 VS Code 설정 방법은 Ornith를 OpenAI 호환 로컬 서버 뒤에서 실행한 다음, Continue와 같은 확장 프로그램이나 사용자 정의 OpenAI 호환 엔드포인트 (endpoint)를 정의할 수 있는 다른 도구를 통해 연결하는 것입니다.

vLLM, SGLang, LM Studio, Ollama 또는 llama.cpp 서버로 Ornith를 시작합니다.
http://localhost:8000/v1 또는 로컬 서버 URL에서 엔드포인트가 작동하는지 확인합니다.
사용자 정의 OpenAI 호환 제공자 (provider)를 지원하는 VS Code AI 확장 프로그램을 설치합니다.
모델 이름인 Ornith-1.0을 포함한 모델 항목을 추가합니다.
먼저 작은 작업부터 사용해 보세요: 파일 설명하기, 테스트 작성하기, 실패하는 함수 하나 수정하기, 또는 디프 (diff) 리뷰하기 등입니다.

전형적인 Continue 스타일의 설정은 다음과 같습니다:

{
  "models": [
    {
...

애플리케이션 전체를 다시 작성해 달라고 요청하는 것으로 시작하지 마세요. 그렇게 하면 리뷰할 수 없는 거대한 디프 (diff)가 발생하게 됩니다. 실패하는 테스트 하나, 파일 하나, 또는 작은 리팩토링 (refactor) 하나부터 시작하세요. 신뢰를 쌓을 기회를 주십시오.

실제 코드에 사용하기 전 실질적인 가드레일 (guardrails)

에이전트 (agent)에게 파일을 수정하도록 요청하기 전에 반드시 git을 사용하고 커밋 (commit) 하세요.
모든 패치 (patch) 이후에는 테스트를 실행하세요.
디프 (diff)를 한 줄씩 검토하세요.
모델이 완전히 로컬에 있고 로그가 비공개인 경우가 아니라면, 프롬프트 (prompt)에 비밀 정보 (secrets)를 포함하지 마세요.
테스트, 타입 체크 (type checks), 린트 (lint), 빌드 출력물과 같이 객관적인 피드백이 가능한 작업을 선호하세요.
어떤 코딩 에이전트도 사람의 검토 없이 변경 사항을 자동 병합 (auto-merge) 하게 두지 마세요.

나의 권장 사항

개발자들은 Ornith 1.0을 테스트해야 하지만, 팬이 아닌 엔지니어처럼 테스트해야 합니다.

만약 당신이 1인 개발자라면, LM Studio, Ollama 또는 llama.cpp를 통해 9B GGUF 모델을 로컬에서 테스트해 보세요. 테스트 코드 작성, 버그 탐색(bug hunting), 그리고 소규모 리팩토링(refactor)에 활용해 보시기 바랍니다. 만약 팀 단위라면, 프라이빗 vLLM 또는 SGLang 엔드포인트를 구축하여 여러분의 자체 저장소(repository)에서 현재 사용 중인 어시스턴트와 비교해 보세요. 벤치마크 차트는 흥미롭지만, 실제로 중요한 벤치마크는 바로 여러분의 코드베이스(codebase)입니다.

Ornith의 셀프 스캐폴딩(self-scaffolding) 접근 방식이 계속해서 개선된다면, 차세대 AI 코딩의 핵심은 누가 더 멋진 자동 완성(autocomplete) 기능을 제공하느냐가 아닐 수도 있습니다. 대신, 개발자의 통제권을 유지하면서 누가 가장 신뢰할 수 있는 소프트웨어 에이전트 루프(software agent loop)를 구축할 수 있느냐가 관건이 될 것입니다.

이것이 바로 Ornith 1.0을 주목해야 하는 이유입니다. 이는 강력한 코딩 에이전트를 폐쇄형 플랫폼에서 빌려 쓰는 것에 그치지 않고, 여러분의 조건에 맞춰 직접 호스팅하고, 검사하고, 적응시키며 사용할 수 있는 미래를 가리키고 있습니다.