본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 28. 09:43

Midnight AI Groove 26-06-22

요약

AI 기술의 흐름이 단일 모델 경쟁에서 에이전트 운용, 평가, 인프라 및 거버넌스로 확장되고 있습니다. OpenAI의 사이버 보안 강화 사례를 통해 AI가 단순 취약점 발견을 넘어 보안 패치 생성까지 수행하는 실무적 운용 단계로 진입했음을 보여줍니다.

핵심 포인트

  • AI 패러다임이 단일 모델 IQ 경쟁에서 시스템 및 에이전트 운용 중심으로 전환
  • OpenAI의 사이버 보안 강화: 취약점 탐지를 넘어 자동 패치 생성(Closed-loop) 지향
  • 모델 오케스트레이션, 추론 인프라, 로컬 LLM 구현 등 구조적 변화 가속화
  • AI 보안 운용의 실무적 적용: 딥 스캔부터 위협 모델링, 패치 생성까지 포함

DJ 미오:

안녕하세요, Midnight AI Groove. 내비게이터 DJ 미오입니다.

DJ 렌:

안녕하세요, DJ 렌입니다. 오늘 밤은, "오늘은 그렇게 큰 뉴스가 없었다"라고 말해지는 날에, 사실은 무엇이 일어나고 있었는지를 차근차근 풀어가 보겠습니다.

DJ 미오:

맞아요. "not much happened today"라는 언뜻 평온해 보이는 제목이지만, 내용을 읽어보면 전혀 조용하지 않더라고요.

오히려 AI의 진화가 **단일 모델 경쟁에서 에이전트(Agent) 운용, 평가, 인프라, 거버넌스(Governance), 그리고 로컬 구현(Local Implementation)**으로 확장되고 있는 것이 아주 잘 보이는 날이었습니다.

DJ 렌:

오늘은 그 전체상을,

  • OpenAI의 사이버 영역 확장
  • Sakana의 Fugu와 "오케스트레이션(Orchestration)" 논쟁
  • GLM-5.2의 대두
  • 에이전트 기반으로서의 Google 및 Hermes
  • 추론 인프라와 "owned intelligence"
  • 벤치마크(Benchmark) 및 평가 방법의 재점검
  • Reddit에서 보이는 로컬 LLM 실천
  • Anthropic의 본인 확인과 프런티어 모델(Frontier Model) 루머

라는 흐름으로 이야기해 보겠습니다.

DJ 미오:

먼저 전제부터 말씀드리자면. 이 요약에서는 며칠 동안 12개의 subreddit, 544개의 Twitter 계정을 체크했고, Discord는 이날을 기점으로 액세스 종료되었습니다. 즉, 정보원의 관측 범위가 상당히 넓습니다.

DJ 렌:

그럼에도 불구하고 "오늘은 조용한 날이었다"라고 말하고 있습니다. 하지만 조용한 날이기 때문에 오히려 정말로 중요한 구조적 변화가 보이기 쉽습니다.

화려한 신규 모델 발표뿐만 아니라,

  • 모델을 어떻게 조합할 것인가
  • 현장에서 어떻게 평가할 것인가
  • 누가 어떤 인프라를 장악할 것인가
  • 어디까지 본인 확인이나 규제가 개입할 것인가

그러한 "AI 구현 사회학" 같은 이야기가 전면에 나오고 있습니다.

DJ 미오:

네. 모델 단일의 IQ 스코어 경쟁이라기보다, 시스템으로서 AI를 어떻게 돌릴 것인가가 주전장이 되고 있는 느낌이네요.

DJ 렌:

첫 번째 큰 화제는 OpenAI입니다.

OpenAI는 사이버 보안을 위한 노력을 강화하여, Daybreak 프로그램의 확장, Codex Security 플러그인, 그리고 GPT-5.5-Cyber를 신뢰할 수 있는 방어 측에 제공하는 흐름을 내세웠습니다.

DJ 미오:

여기서 중요한 것은 방향성이 명확하게 바뀌고 있다는 점이죠.

이전에는 "취약점을 찾는" 이야기가 중심이었다면, 이번에는 "수정까지를 폐루프(Closed-loop)로 돌리는" 방향으로 나아가고 있어요.

DJ 렌:

맞아요. 기사에서는 상당히 구체적인 숫자도 나오고 있는데요,

3,000만 건 이상의 커밋(Commit) 스캔3만 개 이상의 코드베이스 커버7만 건 이상의 인간 리뷰 완료 수정-
여기에 더해 50만 건 이상의 추가 수정 자동 탐지

라는 규모감입니다.

DJ 미오:

대상 프로젝트도 cURL, Go, Python, Sigstore, pyca/cryptography와 같이 상당히 중요한 OSS(Open Source Software)가 포함되어 있습니다.

게다가 플러그인이 하는 일이,

  • 딥 스캔(Deep Scan)
  • 위협 모델링(Threat Modeling)
  • 패치 생성(Patch Generation)
  • 기존 워크플로우로의 내보내기(Export)

와 같이 상당히 실무적입니다.

DJ 렌:

즉, 단순한 "취약점 발견 AI"가 아니라, 보안 운용에 들어가는 AI가 되어온 것입니다.

다만, 여기서 한꺼번에 불거진 것이 정책·규제와의 정합성 문제입니다.

DJ 미오:

맞아요. OpenAI 측은 Sam Altman을 포함하여 GPT-5.5-Cyber가 CyberGym에서 SOTA(State-of-the-Art)다라고 주장하고 있습니다.

반면, Anthropic의 Mythos나 Fable의 액세스 제한을 둘러싼 논의가 계속되고 있어, "만약 OpenAI 쪽이 더 강력하다면, 왜 동일한 제한을 걸지 않는가?"라는 의문이 나오고 있습니다.

DJ 렌:

@BlackHC의 지적이 바로 그 부분이었습니다.

나아가 @shashj는 Mythos에 대해 퍼져 있던 "NSA 시스템에 몇 시간 만에 침입했다"라는 이야기에 중요한 보충을 하고 있습니다.

그것은 초기 액세스(Initial Access)를 전제로 한 레드팀(Red Team) 문맥이며, 게다가 그 레드팀은 현재 이미 Mythos에 액세스할 수 없다고 합니다.

DJ 미오:

이 부분이 중요하죠. 센세이셔널한 문구만 독자적으로 퍼지고 있지만, 무엇을 전제로 한 능력인지, 그리고 현재도 동일한 액세스 조건인지가 모호하면 거버넌스 논의도 엉망이 됩니다.

DJ 렌:

기사를 정리하는 방식도 그 부분이 핵심이었습니다.

모델 능력의 보고일관된 거버넌스 기준 사이에 격차가 벌어지고 있다는 점이죠.

요컨대, "강하다"라고 말하는 것은 좋지만, 그렇다면 어디서부터 규제할 것인지, 누구에게 어떤 조건으로 사용하게 할 것인지가 정립되지 않았습니다.

DJ 미오:

다음은 Sakana AI Labs의 Fugu입니다. 이것도 흥미로워요.

Fugu는 "단일 모델의 신작"이라기보다, 여러 프론티어 모델 (Frontier Model)을 학습 완료한 오케스트레이션 (Orchestration)으로 다루는 단일 API로서 제시되었습니다.

DJ 렌:

즉, Fugu가 하는 일은

  • 모델 선택 (Model Selection)
  • 위임 (Delegation)
  • 검증 (Verification)
  • 통합 (Integration)

을 한꺼번에 처리하는 것입니다.

단일 거대 모델을 한 번 호출하는 것이 아니라, 최적의 모델로 분배하면서 다단계로 답을 구성하는 발상입니다.

DJ 미오:

Vercel이 즉시 Fugu Ultra를 AI Gateway에 추가한 것도 상징적이죠.

현재 실무에서는 모두가 은연중에 "결국 가치가 높은 것은 단일 모델 그 자체보다, **라우팅 계층 (Routing Layer)이나 오케스트레이션 계층 (Orchestration Layer)**이 아닐까"라고 느끼기 시작했습니다.

DJ 렌:

Box의 Aaron Levie도 그런 **고부가가치 레이어 (High-value Layer)**가 될 것으로 보고 있고, Audrey Tang도 Fugu Ultra를 planner/advisor로서 고속 드라이버 루프 (Driver Loop)와 결합하여 사용하는 방식이 좋았다고 보고하고 있습니다.

DJ 미오:

Sakana 측도 자동 연구, 금융, 블라인드 체스, CAD와 같은 유스케이스 (Use case)를 제시하며, 긴 시간 축의 태스크 (Task)에서는 테스트 시의 협조 (Cooperation at test-time)가 단발 호출을 넘어설 수 있다고 주장하고 있습니다.

DJ 렌:

하지만 비판도 상당히 강했습니다.

특히 상세했던 것이 @eliebakouch의 분석이었는데, Fugu는 본질적으로

**라우터/분류기 (Router/Classifier) + 사전 설계된 다단계 워크플로우 (Multi-stage Workflow)**에 가깝지 않느냐는 것이었습니다.

DJ 미오:

게다가 평가 측면에서도 논점이 많더라고요.

  • SWE-Bench Pro에서는 Opus에 약 10점 뒤처진다.
  • 비교 대상이 "Model A/B/C"와 같이 익명화되어 있다.
  • best-of-N 방식의 오케스트레이션임에도 토큰량이나 비용이 나와 있지 않다.
  • 비교해야 할 것은 순수 베이스 모델 (Base Model)이 아니라, 다른 테스트 시간 스케일링 (Test-time scaling) 구성이 아니냐

라는 지적입니다.

DJ 렌:

나아가 @BlancheMinerva는 과거의 사례를 바탕으로 Sakana의 신뢰성 자체에 의구심을 제기하며, "이전 연구에서 불가능해 보이는 성능 주장이 있었다"라고까지 말했습니다.

DJ 미오:

즉, Fugu의 기술적인 방향성 자체는 많은 사람이 인정하고 있습니다.

하지만 논의는 이제 "오케스트레이션이 도움이 되는가?"가 아니라,

**"오케스트레이션 시스템을 어떻게 평가하고, 어떻게 공개해야 하는가"**로 옮겨가고 있습니다.

DJ 렌:

이것은 굉장히 큰 전환점입니다.

AI 시스템이 복잡해지면, 단일 모델의 벤치마크 (Benchmark) 방식만으로는 부족합니다.

몇 번을 호출했는지, 무엇을 라우팅했는지, 비용은 얼마인지, 실패 시의 동작은 어떠한지—그 부분까지 보지 않으면 비교가 되지 않습니다.

DJ 미오:

이번에 가장 열기가 뜨거웠던 것은 역시 GLM-5.2일지도 모르겠네요.

DJ 렌:

그렇습니다. GLM-5.2는 에이전트 (Agent) 용도로 프론티어급에 가까운 오픈 웨이트 (Open-weight) 모델로 간주되기 시작했습니다.

Artificial Analysis에서는 GDPval-AA에서 종합 3위, 1524 Elo를 기록했습니다. 상위에는 Claude Fable 5와 Opus 4.8 정도가 있으며, 오픈 웨이트 모델 중에서는 최상위입니다.

DJ 미오:

게다가 AA-Briefcase의 **비용/성능 프론티어 (Cost/Performance Frontier)**에서도 강력한 위치에 있습니다.

Nat Lambert는 "에이전트에게 있어 DeepSeek moment일지도 모른다"라고 말했고, Arav Srinivas는 "일상적인 실무 지식 노동에서 블라인드 테스트를 통과한다"라고까지 말했습니다.

DJ 렌:

하지만 이 기사가 강조했던 점은, 추상적인 벤치마크보다 실제 하네스 (Harness) 결과가 더 설득력 있다는 점이었습니다.

Cline은 자신들의 리포지토리 (Repository)에 있는 실제 버그를 사용하여, GLM-5.2와 Opus 4.8을 동일한 하네스에서 비교했습니다.

DJ 미오:

결과가 흥미로워요.

GLM-5.2는

  • 속도는 다소 느림
  • 툴 콜 (Tool call)은 많음

하지만,

  • 저렴함: 0.41달러 vs 0.81달러
  • 검증이 확실함: 데드 코드 (Dead code)를 정리함, 프로덕션 빌드 (Production build)를 확인함

반면 Opus는 테스트를 통과하더라도 타입 에러 (Type error)가 남아 있었다.

DJ 렌:

즉, 단순히 “답을 내놓았다”가 아니라, 끝까지 검증해내는 힘에서 GLM이 강했다는 뜻이죠.

이것은 에이전트 (Agent) 용도에서는 매우 중요합니다.

왜냐하면 실무에서는, 한 번 그럴싸한 코드를 작성하는 것보다 끝까지 망가지지 않았음을 확인하는 능력의 가치가 더 높기 때문입니다.

DJ 미오:

@askalphaxiv도, GLM-5.2는 처음으로 진정한 autoresearch를 수행할 수 있는 오픈 웨이트 (Open-weight) 모델이라고 말하고 있더라고요.

게다가 2대의 8xH100 노드를 사용한, 비동기인지 동거인지 모를 RL (강화학습) 훈련 실험까지 진행했고요.

DJ 렌:

툴링 (Tooling) 계층의 이야기도 상당히 중요합니다. @_xjdr는 GLM을 **ncode의 기본 모델 (Default model)**로 승격시켰습니다.

하지만 그 이면에는,

  • 주말을 들여 용량 강화
  • 툴 스트림 (Tool stream) 파서 (Parser) 고도화
  • 일반 세션과 100만 컨텍스트 세션의 엔드포인트 (Endpoint) 분리

등, 상당한 구현 공수가 투입되었습니다.

DJ 미오:

이 지점에서 오픈 소스 모델의 현실이 보이네요.

성능이 좋아도, 깔끔하게 통합하기 위해서는 모델 고유의 파서나 하네스 (Harness) 정비가 대량으로 필요합니다.

하지만 역설적으로 말하면, 그럼에도 불구하고 할 가치가 있을 정도로 GLM-5.2가 강력해졌다는 뜻이기도 하죠.

DJ 렌:

게다가 배포 및 서빙 (Serving) 속도가 비정상적으로 빠릅니다.

AWS Marketplace, Baseten, Fireworks를 통한 Droid, LangChain의 deepagents, 그리고 셀 수 없이 **20개 이상의 프로바이더 (Provider)**로 확장되었습니다.

Baseten에서는 280 tok/s 초과, TTFT 0.8초 미만이라는 수치까지 나오고 있습니다.

DJ 미오:

심지어 Baseten의 OpenAI 호환 엔드포인트를 통해, Claude Code 안에서 GLM-5.2를 사용하는 실전 가이드도 나오고 있어요.

즉, 지금 일어나고 있는 현상은 오픈 모델의 질이 마침내

**“벤더나 에이전트 툴 개발자들이 진심으로 최적화에 뛰어들 만한 임계값”**을 넘었다는 것입니다.

DJ 렌:

이어서 에이전트 기반(Infrastructure) 자체에 대한 이야기입니다.

Google은 Interactions API를 Gemini를 위한 주요 인터페이스로 GA (General Availability) 했습니다.

DJ 미오:

이것의 핵심도 단순한 모델 API가 아니라는 점이에요.

  • 모델과 에이전트를 하나의 API로 취급
  • 백그라운드 비동기 실행
  • 확장 툴 지원
  • 멀티모달 (Multimodal) 생성
  • 매니지드 에이전트 (Managed Agent)
  • 그리고 격리된 원격 Linux 샌드박스(Sandbox)인 Antigravity까지 포함합니다.

DJ 렌:

Google이 단순한 “모델 제공자”가 아니라, 퍼스트 파티 (First-party) 에이전트 하네스 기반을 구축하러 왔다는 인상을 주네요.

DJ 미오:

게다가 이전을 돕기 위해 Gemini Interactions skill까지 내놓았습니다.

요컨대 코딩 에이전트에게 새로운 SDK 패턴이나 현재 모델 버전을 “가르치기” 위한 설치 가능한 스킬이죠.

DJ 렌:

동시에 오픈 소스 에이전트 간 통신 프로토콜의 정리도 화제가 되고 있었습니다.

Omar Sar0가 9종류의 OSS 에이전트 통신 프로토콜 서베이를 소개했는데, 현재는

  • 하이브리드 페이로드 (Payload)
  • 세션 상태의 영속화 (Persistence)

등이 표준화되어 가는 반면, 분산적인 발견 메커니즘 (Discovery mechanism)은 아직 미성숙하다고 지적하고 있습니다.

DJ 미오:

이것은 현재의 위치를 아주 잘 보여주네요.

모두가 장시간 작동하며, 툴을 사용하고, 상태를 유지하는 에이전트를 만들고 싶어 합니다.

하지만 이를 위한 프로토콜 스택 (Protocol stack) 전체는 아직 확립되지 않았죠.

DJ 렌:

Hermes의 업데이트도 같은 흐름입니다.

Hermes는 로컬/퍼스널 에이전트 기반으로서,

  • Mac 없이 iMessage 액세스
  • 공유 워크스페이스에서 외부 에이전트로서 Raft 통합
  • 나아가 Windows나 Linux의 데스크톱 GUI를
    임의의 모델로 조작 가능

하게 만드는 확장을 보여주었습니다.

DJ 미오:

게다가 리포지토리(Repository)의 스타(Star) 수가 20만을 넘어섰습니다.

이것은 개발자들의 관심이 단순히 "베이스 모델의 질"뿐만 아니라, 에이전트 UX(User Experience) 및 하네스(Harness)의 사용 편의성에도 대량으로 향하고 있다는 증거지.

DJ 미오:

다음은 돈과 인프라 이야기. 이 부분도 상당히 커.

DJ 렌:

Baseten이 15억 달러 규모의 Series F를 조달한 건 상징적이었어.

Baseten과 CEO인 Amir Ghazvinian의 주장은 명확해. 기업들은 앞으로 자사의 지능 레이어(Intelligence Layer)를 소유하고 싶어 할 것이라는 점이야.

DJ 미오:

즉,

  • 오픈 모델(Open Model)이나 특화 모델을 구동하고
  • 자사 데이터와 자사 평가(Eval)로 포스트 트레이닝(Post-training)을 수행하며
  • 지속 학습(Continual Learning)도 자사의 관리하에 두는

그런 방향이지.

DJ 렌:

고객사로는 Abridge, Cursor, Decagon, Harvey, Notion, OpenEvidence 등이 나열되어 있는데, 이는 이제 가설이 아니라 앱 기업의 능력으로서 현실화되고 있어.

DJ 미오:

이날의 전체 테마와 아주 깔끔하게 일치하네.

강력한 오픈 모델 + 이를 돌리기 위한 좋은 인프라가 갖춰지면서, 포스트 트레이닝이 "연구소만의 특수 기술"이 아니게 된 거야.

DJ 렌:

더 흥미로운 건, 연산 자원(Compute Resource) 리스 시장 자체가 전략 계층이 되고 있다는 점이야.

Reflection이 SpaceX와 63억 달러 규모의 연산 계약을 맺었다는 보도가 널리 논의되었지.

DJ 미오:

만약 이것이 사실이라면, GB300 액세스를 둘러싸고 GPU 중개나 네오 클라우드(Neo-cloud)의 존재감이 점점 더 커질 거야.

@jaminball은 SpaceX/xAI가 Anthropic이나 Google과도 큰 연산 계약을 맺고 있는 맥락 속에서,

  • Blackwell 가격이
    1시간에 10달러 초과를 시사하며 -
    90일 내 해지 가능한 조항

등도 지적했어.

DJ 렌:

즉, AI 경쟁은

  • 모델을 만드는 것
  • 모델을 배포하는 것

뿐만 아니라,
누가 GPU 공급을 중개하고, 유연한 연산 계약을 따낼 수 있는가

라는 계층까지 확장되고 있어.

DJ 미오:

다음은 평가 이야기. 여기, 교육 프로그램으로서 상당히 중요합니다.

DJ 렌:

먼저, LLM-as-a-Judge에 대한 재점검.

@dair_ai가 21종의 Judge, 9개사, 약 54.1만 건의 판정을 대상으로 한 감사를 요약했는데, 중요한 포인트는 Exact Match(완전 일치)로 보면 판정 품질을 과대평가하게 된다는 것이었어.

DJ 미오:

Cohen’s kappa로 전환하면, MT-Bench에서의 일치도가 33~41포인트나 하락해서 Judge의 순위도 상당히 바뀌거든.

즉, "이 Judge 모델은 인간과 잘 일치한다"라는 주장 중 상당수가 측정 방식에 따라 무너질 가능성이 있다는 거지.

DJ 렌:

평가 기반으로서 Judge 모델을 사내에서 사용하고 있는 팀에게는 꽤 큰 경고야.

DJ 미오:

더 큰 흐름은, 에이전트는 챗봇으로서가 아니라 시스템으로서 평가하라는 거야.

Jules는 지향해야 할 모델이 "반응만 하는 에이전트"가 아니라, 인지하고, 앞서 나가며, 파트너가 되는 에이전트라고 말하고 있어.

DJ 렌:

@rseroter도 코딩 에이전트를 사용하는 것자율적인 코딩 하네스(Coding Harness)를 설계하는 것은 전혀 다르다고 강조하고 있지.

이날의 주요 토픽――GLM의 실제 하네스 검증, OpenAI Daybreak, Fugu 비판――를 봐도 초점은 전부

  • 도구(Tool)
  • 메모리(Memory)
  • 검증(Verification)
  • 장시간 실행(Long-running execution)

여기에 있어.

DJ 미오:

즉, "단발적인 일문일답에서 똑똑함"만으로는 불충분해.

지금 요구되는 것은 실제 워크플로우 속에서 무너지지 않고 가치를 낼 수 있는가인 거지.

DJ 렌:

여기서부터는 Reddit 이야기.

먼저 LocalLlama 커뮤니티에서는 역시 GLM-5.2가 뜨거워.

DJ 미오:

DeepSWE의 비용 대비 스코어 차트에서는 GLM-5.2 [max]가 44%, 평균 비용은 태스크당 3.92달러야.

GPT-5.x나 Claude 계열의 탑 모델에는 미치지 못하지만, 가격 대비 성능 면에서는 상당히 좋은 위치에 있어.

DJ 렌:

게다가 독자들의 반응이 흥미로워.

「체감상 Sonnet이나 Kimi보다 강력하게 느껴진다」, 「하지만 Opus 4.8이나 GPT-5.5에는 아직 미치지 못한다」라는 목소리가 있으며, 실제 체감과 벤치마크(Benchmark)가 크게 어긋나지 않고 있다.

DJ 미오:

그리고 무엇보다, “이것이 오픈 웨이트(Open weights)이며, 자체 호스팅(Self-hosting)이 가능하다”는 점이 크다.

토큰 단가는 사라지는 대신 하드웨어 비용과 운영 난도는 늘어나지만, 그 트레이드오프(Trade-off)를 고려하더라도 가치가 있다고 여겨지고 있다.

DJ 렌:

한편으로는 도표를 보여주는 방식에 대한 비판도 있었다.

비용 축이 반전되어 0이 오른쪽에 있는 등, 시각적으로 오해를 불러일으킨다는 지적이다.

이런 세세한 그래프 설계도 기술 토론에서는 의외로 중요하다.

DJ 렌:

다음은 상당히 “DIY 정신”이 넘치는 이야기.

어떤 사용자가 RTX 3090 4장, DDR5 192GB의 컨슈머(Consumer)급 PC를 약 6,000달러로 조립하여, GLM-5.2를 로컬(Local)에서 운용하고 있다는 보고다.

DJ 미오:

Linux에서 각 GPU를 **200W로 전력 제한(Power cap)**하는 동시에, RAM을 5200에서 5600 MT/s로 오버클럭(OC).

용도로는,

  • GLM 5.2를 플래너(Planner)로 사용 시
    약 7 tok/s
  • MiniMax 2.7을 코딩용으로 사용 시
    약 45 tok/s
  • Qwen3.6 27B q8를 확인 및 테스트용으로 사용 시
    약 50 tok/s
  • Flux2Klein으로 2GPU 배치(Batch) 시
    6초에 1장 정도

와 같은 운용 방식이다.

DJ 렌:

댓글란에서는,

  • 어떤 양자화(Quantization)를 사용했는지
  • MiniMax M3가 아니라 왜 2.7인지
  • 메인보드는 무엇인지
  • 4GPU 연결에 라이저(Riser)나 PCIe 분기가 필요한지
  • 쿨링은 어떻게 하고 있는지

등, 상당히 실무적인 질문들이 쏟아졌다.

DJ 미오:

이런 부분은 로컬 LLM(Large Language Model) 업계가 정말 “연구”와 “자작 PC 문화”가 섞여 있는 것 같다.

DJ 미오:

다음은 로컬파에게 피할 수 없는 이야기, 토크노믹스(Tokenomics).

DJ 렌:

어떤 게시물에서는, 예를 들어 2만 달러의 하드웨어로 20 tok/s를 낸다고 가정했을 때, GLM-5.2 API 가격(입력 1.40달러 / 출력 4.40달러당 100만 토큰 정도)과 비교하면 손익분기점까지 5.5년이 걸린다는 추산이 나왔다.

DJ 미오:

하지만 댓글에서는 “숫자의 근거가 모호하다”, “전제가 적절하지 않다”라며 상당한 반박을 받았다.

게다가 논점은 단순한 토큰 단가가 아니었다.

DJ 렌:

맞다. 로컬 운용의 의의로 언급된 것은,

  • 프라이버시(Privacy)
  • 중단되지 않는 것
  • 자유로운 제어
  • 취미성
  • 파인튜닝(Fine-tuning) 및 실험
  • 고가동 SME(중소기업) 용도

등이다.

클라우드는 배치(Batch)를 통해 높은 가동률을 실현할 수 있기 때문에, 단순한 비용 싸움에서는 유리해지기 쉽다.

DJ 미오:

하지만 로컬 측에도,

  • 하드웨어는 매각 가치가 남는다
  • API 요금은 사용하면 사라진다
  • API 가격이 미래에도 같으리라는 보장이 없다

라는 반론이 있다.

따라서 결론적으로는, **“싸니까 로컬을 쓰는 것”이 아니라, “필요한 제어와 지속성을 원하기 때문에 로컬을 쓰는 것”**에 가깝다.

DJ 렌:

다음은 상당히 실전적이다.

llama.cpp를 위한 로컬 추론 최적화 가이드가 화제가 되고 있는데, 내용은 다음과 같다.

  • VRAM 피팅(Fitting)
  • KV-cache의 크기와 양자화(-ctk / -ctv q8_0)
  • 플래시 어텐션(Flash Attention)
  • MoE(Mixture of Experts)의 레이어 배치
  • MTP / 투기적 디코딩(Speculative decoding)
  • CPU 및 P-core 튜닝
  • XMP/EXPO
  • OOM(Out of Memory) 및 로드 실패 대처

등이다.

DJ 미오:

특히 댓글에서 중요했던 것은, 멀티모달(Multimodal) 특유의 함정이다.

비전(Vision) 계열의 경우,

  • mmproj는 로드 시 연속된 VRAM이 필요함
  • --fit-target을 너무 과하게 설정하면 추론 시가 아니라 로드 시에 오류가 발생함
  • 이미지가 수백 토큰에 달하므로, --ubatch-size가 이미지 토큰 수보다 작으면 어서트(Assert) 오류가 발생함

이라는 이야기다.

DJ 렌:

즉, 단순히 텍스트 모델을 돌리는 것과는 달리, 멀티모달에서는 메모리 단편화나 배치 설정이 더욱 까다롭다.

DJ 미오:

벤치마크 환경도 공유되었는데, RTX 4070 12GB, i5-12600K, DDR5-6000 32GB라는 꽤 현실적인 구성이었다.

한편 「문장이 AI 같아서 읽기 어렵다」라는 불만도 있어서, 내용은 유용하지만 가독성 문제는 남아있는 듯하다.

DJ 렌:

그리고 ik_llama.cpp에 대한 표현이 부정확하지 않느냐는 기술적 지적도 있었습니다.

"아직 upstream 되지 않았다"가 아니라, 애초에 공식 llama.cpp에 들어갈 전제가 아니다라는 이해가 더 가깝다는 이야기죠.

DJ 미오:

다음은 Gemma 4의 QAT와 KV 캐시 (KV cache) 양자화 이야기.

WikiText 16k 문맥에서 Gemma 4 26B에 대해, KV 캐시 (KV cache) 양자화 시의 KL 발산 (KL divergence)이 비교되었는데, **QAT 모델 쪽이 상당히 견고하다 (robust)**는 결과가 나왔어.

DJ 렌:

비 QAT 버전에서는 99.9% KLD가

18.815 / 17.256 / 14.576

였던 것에 반해, QAT 버전에서는

4.409 / 3.436 / 2.385

까지 떨어져.

즉, Q8_0 KV cache가 다시 현실적이 될 수도 있다는 시사야.

DJ 미오:

다만 댓글에서는,

  • 그 KLD가 실제 운용상 무엇을 의미하는지 알기 어렵다
  • 재현용 코드가 필요하다
  • 24GB GPU로 시도해보고 싶다

같은 반응도 있었어.

DJ 렌:

게다가 반례도 있어서, Gemma 31B의 비전 태스크 (vision task)에서는 q8 KV cache가 bf16보다 나빴다는 보고도 있어.

그러니까 이것은, 모든 태스크와 모든 모델에 보편적인 개선은 아닐 가능성이 높아.

DJ 미오:

"QAT의 부작용으로 KV 양자화 내성이 높아진 것 아니냐"는 시각도 있었고, QAT Gemma 자체에 알려진 문제가 있는 것 아니냐는 우려도 남아 있었지.

DJ 렌:

나아가, RTX 5090 32GB에서 Qwopus3.6 27B v2 MTP를 구동하는 LM Studio 구성에 대한 보고도 있었습니다.

문맥 길이는 약 16만 토큰 (tokens), GPU 오프로드 (offload)와 KV cache offload, Flash Attention, VRAM 한계치 설정이었죠.

DJ 미오:

여기서의 실무적인 결론은 흥미로운데, 로컬 LLM에서는

  • 거대한 "영웅 프롬프트 (hero prompt)" 한 방보다는
  • 작게 나눈 태스크
  • 체크포인트 (checkpoint)
  • 단계별 진행
  • rules/skills 파일의 지속적인 관리

가 더 잘 통한다는 이야기야.

DJ 렌:

굉장히 에이전트 (agent) 운용 방식이네요.

또한, Q5_1의 V-cache 양자화나, Evaluation Batch Size / Physical Batch Size를 2~4배로 늘려 속도를 높이는 제안도 있었습니다.

다만 LM Studio 상에서의 결과는, 개선되는 부분도 있지만 만만치 않다는 느낌이야.

DJ 미오:

그리고 마지막에는 심플하게 "llama.cpp를 쓰면 되잖아?"라는 댓글도 있어서, 로컬 커뮤니티의 정석 같은 느낌이 들었어.

DJ 미오:

다음은 하드웨어 마니아라면 참을 수 없는 이야기.

중국의 한 하드웨어 모더 (modder)가 NVIDIA Tesla V100의 패키지/기판 인터페이스인 2963핀을 1년에 걸쳐 분석하여, 단일 슬롯 하프 하이트 (half-height) 형태의 "Tesla V100 v4" 기판으로 재구성했다는 이야기야.

DJ 렌:

게다가 NVLink 대응이라서 8-way 구성도 염두에 두고 있다고 합니다.

가격도 충격적인데,

  • 16GB 버전이 1499 RMB (약 220달러)
  • 32GB 버전이 3999 RMB (약 590달러)
  • NVLink 어댑터가 2-way용 199 RMB, 8-way용 799 RMB

등입니다.

DJ 미오:

댓글에서는 32GB 카드 4장을 NVLink로 연결해 128GB HBM 같은 꿈 같은 구성을 기대하는 목소리가 많았어.

게다가 MCIO 스타일의 연결로 4-GPU 간 100 GB/s급이라는 이야기도 나오고 있어.

DJ 렌:

다만 최대의 문제는 신뢰성입니다.

중고 V100의 BGA 재작업(rework)에서는 인접한 HBM을 손상시킬 리스크가 높습니다.

그러므로 정말 중요한 것은 수율, 장기 안정성, 그리고 보증의 신뢰성입니다.

DJ 미오:

그리고 "정말로 클린룸 수준의 리버스 엔지니어링 (reverse engineering)이야? 기존의 PCB 파일이 유통되고 있었던 거 아니야?"라는 의구심도 있었지.

하지만 그럼에도 소형화와 재구현을 해낸 작업 능력에 놀라워하는 목소리는 컸어.

DJ 렌:

또 하나는, 유럽의 DDR5 가격 트래킹입니다.

25일간의 관측 결과, 독일, 네덜란드, 스페인, 벨기에 등에서 상당히 하락했다는 보고입니다.

DJ 미오:

예를 들면,

  • G.Skill DDR5 Aegis 2x16GB 6000: 579→419유로
  • Kingston FURY Beast RGB 2x16GB 6000: 499→369유로
  • G.Skill Trident Z Neo 2x32GB 6000: 1200→927유로

와 같이, 20~30%에 가까운 하락입니다.

DJ 렌:

특히 동일 EAN(European Article Number)인 G.Skill Trident Z5 RGB 2x32GB DDR5-6400이,

독일의 NBB에서 799유로,

네덜란드의 Megekko/Azerty에서 1180유로,

라는 상당히 큰 가격 차이가 소개되었습니다.

DJ 미오:

게시자는 로컬 LLM (Local LLM) 입문용으로는, DDR5-6000 2x16GB가 스위트 스팟 (Sweet Spot)이 되어가고 있다고 말하고 있습니다.

DJ 렌:

반면, 미국의 registered/server DDR5는 반대로 급등하여, 64GB DDR5-4800 RDIMM이 1530달러에서 1800달러로 올랐다는 이야기도 있습니다.

즉, EU 소비자용 DDR5는 하락하고 있지만, 서버용은 그렇지 않다는 것입니다.

DJ 미오:

게다가 댓글에서는 "시스템 RAM에 의존한다면, 오래된 DDR4 워크스테이션이 더 저렴하고 빠를 수도 있다"라는 논쟁도 있었습니다.

예를 들어 6채널의 오래된 Xeon DDR4-2400이, 듀얼 채널 DDR5-7000보다 실효 대역폭 (Effective Bandwidth) 면에서 이기는 케이스도 있을 수 있다고 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0