본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 24. 04:15

Tmax-27b - DPPO (RL)로 학습된 소형 GPU용 Qwen3.6-27b 터미널 에이전트

요약

Qwen3.6-27b 기반의 터미널 에이전트 Tmax-27B를 소비자용 GPU에서 실행할 수 있도록 최적화된 GGUF 양자화 모델을 소개합니다. 중요도 행렬(imatrix) 보정을 통해 양자화 시 발생할 수 있는 에이전트의 도구 호출 및 추론 성능 저하를 최소화했습니다.

핵심 포인트

  • DPPO(RL)로 학습된 Tmax-27B 모델의 소비자용 하드웨어 최적화
  • 중요도 행렬(imatrix) 보정을 통한 양자화 성능 저하 방지
  • 추측적 디코딩(speculative decoding)을 위한 MTP 초안 헤드 포함
  • 다양한 VRAM 용량에 맞춘 2~5 BPW 범위의 GGUF 양자화 티어 제공

안녕하세요 여러분, 새로운 Tmax-27B 터미널 에이전트를 소비자용 하드웨어에서 실제로 실행할 수 있도록 만든 작업 내용을 공유하고자 합니다.

Tmax-27B란 무엇인가요? Ai2는 최근 Qwen3.6를 기반으로 DPPO (RL)를 통해 학습된 터미널 에이전트 LLM 제품군인 Tmax를 출시했습니다. 27B 모델은 Terminal Bench 2.0에서 약 43%, TB Lite에서 약 69%를 기록했습니다. 이는 모델이 컨테이너 내에서 셸을 탐색하고, 파일을 편집하며, 테스트를 실행하고, 실제 개발 작업을 완료하는 에이전트 벤치마크(agentic benchmarks)입니다.

문제점: FP16 기준 27B 모델은 약 54GB입니다. 여러분의 RTX 5070에는 들어가지 않습니다.

우리가 한 일: 약 2~5 bits-per-weight (BPW) 범위의 다양한 중요도 행렬 보정(importance-matrix-calibrated) GGUF 양자화(quants) 모델을 제작했습니다. 각 모델에는 내장된 추측적 디코딩(speculative decoding)을 위해 Q8_0 수준의 이식된 MTP 초안 헤드(grafted MTP draft head)가 포함되어 있습니다. 여러분의 VRAM에 맞는 티어를 선택하세요:

Q2_K (plain) IQ2_XS IQ2_M Q2_K_S IQ3_M IQ4_XS Q5_K_M

File Q2_K IQ2_XS IQ2_M Q2_K_S IQ3_M IQ4_XS
Technique plain hybrid imatrix hybrid imatrix hybrid imatrix hybrid imatrix hybrid imatrix
Size (GiB) 9.98 8.47 9.32 9.54 11.72 14.05
BPW 3.186 2.704 2.976 3.048 3.742 4.486
PPL (general) 7.6005 20.3585 21.0408 16.7292 20.4368 13.1867
KLD med (general) 0.1727 0.1262 0.0783 0.0826 0.0278 0.0059
top_p (general) 73.03% 73.89% 77.77% 77.96% 83.56% 91.45%

낮은 KLD / 높은 top_p는 FP16에 더 가깝다는 것을 의미합니다. Q2_K는 일반(non-imatrix) 기준점이며, 나머지는 모두 하이브리드 중요도 행렬(hybrid importance matrix)을 사용합니다.

에이전트에게 보정이 중요한 이유: 에이전트 작업은 양자화(quantization)에 매우 취약합니다. 모델은 유효한 도구 호출(tool-call) XML을 생성해야 하고, 다단계 컨텍스트에 대해 추론해야 하며, 토큰 수준의 오류가 누적되는 긴 궤적(long trajectories)에서도 성능이 저하되지 않아야 합니다. 가공되지 않은 2비트 양자화는 이를 망가뜨립니다. 중요도 행렬(importance matrix)은 에이전트 코딩 세션의 실제 활성화 에너지(activation energy)를 기반으로, 채널별로 정밀도가 가장 중요한 위치를 양자화기(quantizer)에 알려줍니다. 중요한 레이어는 더 많은 비트를 유지하고, 나머지는 압축됩니다.

또한, 보정 컨텍스트(calibration context)를 512 토큰에서 4K로 늘리는 동시에, 때때로 도구 호출(tool calls)을 위한 여유 공간을 남기지 않고 보정 예산(calibration budget) 전체를 차지해 버릴 수 있는 시스템 프롬프트의 영향을 최소화했습니다.

에이전트 결과. 모든 양자화 모델(quant)은 동일한 10개의 홀드아웃(held-out) SWE-rebench 인스턴스에 대해 코딩 에이전트(mini-swe-agent)로서 실행되었으며, 각각 별도의 깨끗한 Docker 컨테이너에서 구동되었습니다. pass_rate = 패치(patch)가 골드(gold) FAIL_TO_PASS 테스트를 통과하게 만든 비율; patch_rate = 비어 있지 않은 diff를 생성한 비율:

Quant pass_rate patch_rate resolved mean tokens mean steps tool-err

Q2_K 50% 100% 5/10 621,931 38.7 11%
IQ2_XS 70% 100% 7/10 784,972 49.8 9%
IQ2_M 60% 100% 6/10 596,658 40.9 10%
Q2_K_S 70% 100% 7/10 529,560 37.1 12%
IQ3_M 70% 100% 7/10 770,113 47.5 10%
IQ4_XS 70% 100% 7/10 791,474 48.3 9%

8.5 GiB / 2.7 BPW의 IQ2_XS는 70%의 통과율(pass rate)을 기록했습니다. 이는 14 GiB의 IQ4_XS와 동일한 수준입니다. 일반 Q2_K(imatrix 미사용)는 유일하게 50%로 떨어지는 모델입니다. 보정(Calibration)은 "작업 도중 무너지는 것"과 "실제로 버그를 해결하는 것" 사이의 차이를 만듭니다.

모든 양자화 모델이 10개의 인스턴스 모두에서 비어 있지 않은 diff를 생성했습니다(100% patch_rate). 이들은 모두 작업을 시도합니다. 문제는 패치가 실제로 테스트를 통과하느냐이며, 바로 이 지점에서 보정된 모델과 일반 모델의 차이가 극명하게 갈립니다.

도구 오류율(Tool error rates)은 전반적으로 9-12% 범위를 유지합니다. imatrix 양자화 모델은 보정되지 않은 양자화 모델이 일반적으로 성능 저하를 일으키는 2비트 수준에서도 도구 호출(tool-call) 생성을 안정적으로 유지합니다.

이식된 MTP 헤드. Tmax-27B는 Qwen3.6의 네이티브 다중 토큰 예측(Multi-Token-Prediction, MTP) 초안 헤드(draft head)를 제거했습니다. Tmax는 Qwopus3.6-Coder와 아키텍처가 동일하므로(동일한 Qwen3.6-27B 베이스), Q8_0에서 Qwopus의 학습된 nextn 헤드를 다시 이식(graft)했습니다. --spec-draft-n-max 1 설정 시 약 95%의 초안 수락률(draft acceptance)을 보이는 내장 투기적 디코딩(speculative decoding)을 제공합니다. 품질이 아닌 순수 속도 측면에서의 이점이며, 메모리 대역폭 제한(memory-bound)이 있는 GPU에서 디코딩 속도를 1.5-2배 무료로 향상시킵니다.

사용 방법:
ollama run hf.co/pearsonkyle/tmax-27b-imatrix-MTP-GGUF:IQ2_M # 또한: :IQ2_XS :Q2_K_S :Q2_K :IQ3_M :IQ4_XS :Q5_K_M
또는 llama.cpp + MTP 추측 디코딩을 사용하여:
./llama-server --model tmax-27b-IQ4_XS.gguf \ --ctx-size 16384 --n-gpu-layers 999 \ --spec-type draft-mtp --spec-draft-n-max 1 \ --flash-attn on --cache-type-k q8_0 --cache-type-v q8_0
📎 레포지토리: pearsonkyle/tmax-27b-imatrix-MTP-GGUF 📎 기본 모델: allenai/tmax-27b 📎 논문: Tmax: A simple recipe for terminal agents
캘리브레이션 방법론, MTP 그래프(graft), 또는 에이전트 평가 설정에 대한 질문에 기꺼이 답변해 드리겠습니다. 만약 여러분들이 9B 모델 패밀리의 결과도 보고 싶다면 알려주세요.
제출자: /u/professormunchies
[링크] [댓글]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0