
Midnight AI Groove 26-06-17: Midjourney Medical부터 GLM-5.2까지, AI 뉴스 최전선을 파헤치다
요약
Midjourney가 의료 영상 스캔 시스템인 'Midjourney Scanner'를 공개하며 AI 기술의 물리적 영역 확장을 시도했습니다. 이 장치는 방사선과 자석을 사용하지 않는 저비용·고속 스캔을 지향하지만, 해상도와 수조 환경 필요성 등의 기술적 트레이드오프를 동반합니다.
핵심 포인트
- Midjourney의 의료용 스캐너 기술 공개 및 프로토타입 존재 확인
- 방사선과 자석을 사용하지 않는 비침습적 스캔 방식 지향
- CT/MRI 대비 낮은 해상도 및 수조 환경 필요성 등 기술적 제약 존재
- AI 기업의 하드웨어 및 의료 모달리티 확장 가능성 시사
SE: 심야의 신스웨이브, 여유로운 비트
DJ 미오:
안녕하세요, 미래와 현실 사이를 그루브하는 Midnight AI Groove. 내비게이터 DJ 미오입니다.
DJ 렌:
그리고 파트너 DJ 렌입니다. 오늘 밤도 AI 업계의 소식들을 가벼운 분위기로, 하지만 내용은 알찬 교육 프로그램처럼 전달해 드리겠습니다.
DJ 미오:
오늘의 중심 테마는 상당히 이색적입니다. 이미지 생성 회사로 알려진 Midjourney가 무려 의료용 스캐너를 발표했다는 소식으로 시작합니다.
DJ 렌:
게다가 단순한 이미지나 연구 구상이 아니라, 실제 데모 기기를 접한 사람까지 있었다는 점이 포인트지.
여기에 더해 이번에는 그 주변에서 논의되었던 AI 연구, 오픈 모델 (Open Model), 추론 최적화 (Inference Optimization), 코딩 에이전트 (Coding Agent), 보안, 그리고 업계 인사까지 상당히 넓은 범위를 한꺼번에 살펴보는 회차입니다.
DJ 미오:
그럼 먼저, 오늘 밤의 톱 스토리.
「Midjourney Medical: scan your organs like you step on a scale」.
“체중계에 올라타듯, 장기를 스캔한다”라는 상당히 인상적인 헤드라인입니다.
DJ 렌:
이번에 일어난 일을 정리하면, Midjourney가 **“Midjourney Scanner”**라고 불리는 의료 영상·의료 스캔 계열 시스템을 공개하고, 나아가 그 technical dive, 즉 기술적인 해설까지 내놓았다는 흐름이야.
DJ 미오:
이 발표가 흥미로웠던 점은 사람들의 반응이 단순히 “대단하다!”뿐만 아니라,
놀람, 호기심, 회의론, 전략적 관점까지 섞여 있었다는 점이죠.
“AI 랩이 의료 하드웨어로 간다고?”라는 영역의 경계 초월 그 자체가 화제가 되었습니다.
DJ 렌:
맞아. Midjourney는 보통 이미지 생성 서비스 회사로 알려져 있으니까, 갑자기 스캐너, 그것도 의료 쪽이라는 것은 상당히 비연속적으로 보여.
그렇기에 단순한 신제품 발표 이상으로 “AI 기업이 지금 어디까지 물리 세계에 발을 들이는가”라는 상징적인 뉴스로 받아들여진 거야.
DJ 미오:
이 부분이 중요하므로, 먼저 **사실 기반 (Fact-based)**으로 정리하겠습니다. 본문에서 명시된 요소는 대략 다음과 같습니다.
-
Midjourney가 **“Midjourney Scanner”**의 기술적 소개를 공개했다.
-
그 스캐너는 적어도 소개상으로는
방사선을 사용하지 않음
자석을 사용하지 않음
고속
저비용
이라고 되어 있다. -
반면,
물에 잠기는 탱크가 필요함
해상도는 CT나 MRI보다 거침
이라는 제약도 있다.
- 그리고 실제로 어떤 사람이
손을 데모기에 넣고 테스트했다고 말하고 있어, 개념도뿐만 아니라 실물 프로토타입 같은 것이 존재하고 있었다.
DJ 렌:
즉, “꿈의 만능 스캐너가 탄생했습니다”라는 이야기가 아니라,
명확한 트레이드오프 (Trade-off)를 동반하는 새로운 모달리티 (Modality) 같은 것으로 등장한 셈이네.
DJ 미오:
네. 게다가 이 단계에서는 본문에 있는 정보로 한정하자면,
CT나 MRI를 전부 대체한다는 주장은 하지 않고 있습니다.
오히려 반대로 “해상도는 CT/MRI보다 낮다”라고 적혀 있는 점이 중요합니다.
DJ 렌:
여기서부터는 본문이 보여주는 범위 내에서의 추정이나 기술적 해석이겠네.
우선 “방사선을 사용하지 않으므로” X선 CT 계열은 아닐 것 같아.
그리고 “자석을 사용하지 않으므로” MRI도 아니지.
DJ 미오:
더 큰 힌트는 물에 잠기는 탱크입니다.
이것은 파동 계열, 특히 **음향 이미징 (Acoustic Imaging)**이나 어떤 파동의 전파 (Wave Propagation)를 사용하는 계측을 연상시킵니다.
물은 발신기·인체 조직·수신기 사이의 결합을 좋게 하는 용도로 사용되는 경우가 있어서, 이 점이 상당히 강력한 단서가 되고 있습니다.
DJ 렌:
본문에서도 확정된 것은 아니지만, acoustic imaging이나 wave propagation 같은 문맥이 전면에 나와 있어.
요컨대 빛, 초음파, 전류, 기타 파동을 사용하는 계측은 X선처럼 “거의 직진하는 것을 찍는 것”보다 재구성 문제 (Reconstruction Problem)가 어려운 경우가 많지.
DJ 미오:
맞습니다. John Whitaker의 기술적 코멘트로 소개된 것이,
빛이나 초음파나 전류 등을 사용하는 방식은 X선보다 역문제 (Inverse Problem)가 어렵다는 점입니다.
신호가 단순한 직선 경로로 진행하지 않기 때문에, 내부 구조를 이미지로 복원하는 것이 상당히 복잡해집니다.
DJ렌:
이 '역문제(Inverse Problem)'라는 것은 교육 프로그램으로 한마디로 말하자면,
관측된 신호로부터 원래의 내부 구조를 추정하는 문제입니다.
보이는 결과로부터 보이지 않는 원인을 추리하는 것이죠. 의료 영상에서는 이것이 핵심입니다.
DJ미오:
그리고 이러한 종류의 장치에서는 하드웨어 자체뿐만 아니라,
재구성 알고리즘(Reconstruction Algorithm), 노이즈 제거, 초해상도(Super-resolution), 나아가 해석 지원까지 AI나 기계 학습(Machine Learning)이 큰 역할을 할 수 있습니다.
Midjourney의 브랜드가 '학습된 시각 시스템'과 연결되어 있기 때문에, 사람들이 그곳에 기대감을 투영했다는 맥락도 본문에서 지적되었습니다.
DJ렌:
현재까지의 본문을 읽어보면, 이 장치의 강점은
최고 화질이 아니라 접근성과 운용성 개선에 있을 가능성이 높습니다.
DJ미오:
구체적으로는,
- 방사선이 없다 -
- 자기장도 사용하지 않는다 -
- 빠르다 -
- 저렴하다
라는 조건입니다. 이게 사실이라면, 의료 현장에서의 용도는 '최고 정밀도의 정밀 검사'라기보다는 오히려 -
스크리닝(Screening) -
트리아지(Triage) -
CT/MRI가 사용하기 어려운 환경에서의 대체 수단 -
반복 촬영이 필요하고 방사선을 피하고 싶은 장면 -
수조 방식에서도 허용되는 특정 부위/특정 워크플로우
같은 곳이 후보가 될 것입니다.
DJ렌:
본문에도 이것은 '모든 면에서 MRI/CT보다 좋다'가 아니라,
고급 지표에서는 뒤처지지만, 비용이나 휴대성, 접근성에서 승리하는 타입의 파괴적 혁신 노선일 수 있다고 되어 있었습니다.
그 부분이 굉장히 현실적인 시각이네요.
DJ미오:
물론 회의적인 시각도 강합니다. 본문에 있는 논점을 정리하자면, 우선 첫째로,
해상도가 CT/MRI보다 낮다.
이는 의료 분야에서 상당히 큰 문제입니다. 이미지 품질은 진단 능력에 직결될 수 있기 때문에 '조금 거칠다'는 것은 가벼운 단점이 아닙니다.
DJ렌:
다음으로, 물 탱크 안에 들어갈 필요가 있다.
이 역시 현장 도입에서는 상당히 큰 제약입니다. 일부 용도라면 허용될 수 있지만, 일상 진료나 일반 소비자에게 확대하기에는 인체공학적으로나 운용상으로 난관이 있습니다.
DJ미오:
그리고 세 번째가 아까의 모달리티(Modality)의 어려움입니다. 파동이 곧게 나가지 않고 복잡하게 산란하며, 경계 조건의 영향도 받습니다. 그런 신호로부터 안정적으로 임상적으로 신뢰할 수 있는 이미지를 재구성할 수 있는지에 대한 문제가 있습니다.
DJ렌:
즉, 화려한 데모가 그대로 임상의 견고함을 의미하는 것은 아니다. 의료 기기는 겉모습이 재미있는 것만으로는 전혀 부족합니다.
DJ미오:
본문에서는 이 뉴스에 대한 반응을 몇 가지 입장에 나누어 설명했습니다. 먼저 지지/낙관파입니다.
DJ렌:
이 계층은 '바로 이런 이상한 것을 하는 창업자가 필요하다'고 봅니다. 채팅 UI나 작은 개선이 아니라, 비연속적이고 비합의적인 발명에 도전하고 있다는 자체를 높이 평가합니다. 'let inventors invent(발명가들이 발명하게 두자)' 같은 분위기죠.
DJ미오:
게다가 실물 장치에 만져본 사람이 있다는 점에서, '논문을 읽었다', 'PV를 봤다'가 아니라 실제로 접할 수 있는 이상한 장치가 거기에 있다는 신체적 감각의 임팩트도 강했습니다.
DJ렌:
다음은 중립/기술 호기심파입니다. 이 입장이 가장 현실에 발을 붙이고 있으며,
'방사선 없음・자석 없음・빠름・저렴하지만, 물 탱크가 필요하고 해상도는 낮다'라는, 말 그대로 장단점의 요약을 냉정하게 바라봅니다.
DJ미오:
더 나아가,
- 어떤 송수신기 배치를 하는지
- 기계적으로 움직여 스캔하는지
- 장래에는 분산된 검출기/에미터(Emitter)를 다수 배치하여 실시간화할 수 있는지
등, 설계 방향성에 대한 호기심이 언급되었습니다.
DJ렌:
그리고 세 번째가 신중파/회의파입니다. 노골적인 적의는 적지만,
- 해상도 부족
- 물탱크라는 실용적 제약
- 역문제의 어려움
- '보기 좋은 데모'와 '견고한 임상 성능' 사이의 거리
를 생각하면 쉽게 신뢰하기 어렵다는 것입니다.
DJ미오:
이 뉴스가 주목받은 가장 큰 이유는 장치 자체의 성능보다,
Midjourney가 그곳에 있다는 사실 자체에 있습니다.
DJ렌:
맞습니다. Midjourney는 본래 이미지 생성 회사로 유명합니다.
거기서부터 현실 세계의 센싱(Sensing) 하드웨어 및 의료 장치로 넘어옵니다.
이것은 단순한 사업 다각화가 아니라, AI 기업의 자기 정의가 변하고 있다는 징후로 읽을 수 있습니다.
DJ 미오:
본문에서도 "모델 벤더(Model Vendor)"가 아니라,
물리 세계를 향한 새로운 인터페이스를 만드는 회사로서 AI 인접 기업들이 자신을 재정의하기 시작했다는, 2025년 이후의 흐름으로 위치 지어져 있었습니다.
DJ 렌:
게다가 의료 영상은 단순한 소프트웨어와는 달리,
- 물리적 계측 (Physical Measurement)
- 신호 처리 (Signal Processing)
- 영상 재구성 (Image Reconstruction)
- ML(머신러닝) 기반의 해석
이 전부 얽혀 있는 깊은 영역이죠.
AI 회사가 이곳에 진입한다는 건, 상당히 진심인 **풀스택 응용 발명 (Full-stack Applied Invention)**이라고 봐야 해요.
DJ 미오:
다만, 본문이 강조했듯이 중요하지만 아직 불분명한 점이 많습니다.
DJ 렌:
우선 규제와 승인의 경로입니다.
의료 기기로 사용하려면 승인, 검증 시험, 임상 검증 (Clinical Validation)이 필요합니다.
하지만 본문의 범위 내에서는 이것이 연구용인지, 아니면 임상 전개를 진심으로 목표로 하는 것인지는 불분명합니다.
DJ 미오:
다음은 재구성 스택 (Reconstruction Stack)의 내용입니다.
기술적 심층 분석 (Technical Dive)이라고는 하지만, 여기서 인용된 게시물들만으로는 알고리즘의 핵심을 볼 수 없습니다.
제약이 큰 센싱 조건으로부터 어디까지 유용한 영상을 끌어낼 수 있는가, 그 부분이 승부처입니다.
DJ 렌:
나아가 유스케이스 (Use Case)의 특정입니다.
해상도가 CT/MRI보다 낮더라도, 좁은 용도에서 "충분히 유용"하다면 승산이 있을 가능성은 있습니다.
하지만 "어떤 질환"을, "어느 부위"를, "어떤 워크플로우 (Workflow)"를 겨냥하고 있는지는 이 본문에서 명확히 드러나지 않습니다.
DJ 미오:
**폼 팩터 (Form Factor)**도 큰 문제입니다.
수조(Tank) 형태가 시제품이라서 임시로 만든 형태인지, 아니면 이 방식에 본질적으로 필요한 것인지 말이죠.
그 차이에 따라 미래상은 크게 달라집니다.
DJ 렌:
그리고 비용과 처리량 (Throughput)의 현실성입니다.
"빠르다", "싸다"라고 말해도,
- 실제 촬영 시간
- 장치 가격
- 소모품
- 오퍼레이터 부하
- 영상 판독 및 후처리 작업
같은 수치가 없으면 비교할 수 없습니다.
DJ 미오:
마지막으로, AI의 역할은 어디에 있는가입니다.
- 하드웨어 설계인가
- 역문제 (Inverse Problem)의 해법인가
- 노이즈 제거(Denoising)나 초해상도(Super-resolution)인가
- 자동 진단 지원인가
- 혹은 이들을 통합한 스택 전체인가
이 부분도 향후의 핵심이 되겠네요.
DJ 렌:
본문에서는 Midjourney Scanner 자체뿐만 아니라, 다른 AI 기업과의 비교도 다뤄졌습니다.
어떤 반응에서는 훨씬 더 수수한 웨어러블 카메라 계열의 AI 하드웨어보다, Midjourney가 압도적으로 대담하다는 경쟁적 프레이밍 (Competitive Framing)이 나왔습니다.
DJ 미오:
즉, "타사가 라펠 카메라 같은 것을 만들고 있는 동안, Midjourney는 의료 스캐너를 만들고 있는 것인가"라는 관점이군요.
물론 이것은 감정적이고 과장된 면도 있지만, AI 기업의 야심을 보여주는 방식으로서는 강렬했다는 뜻입니다.
DJ 미오:
Midjourney Medical 이후, 본문은 더 넓은 AI 연구와 에이전트(Agent) 이야기로 넘어갑니다.
먼저 메타적인 이야기로, 중국의 오픈 소스 문헌은 추적할 가치가 높다는 코멘트가 있었죠.
DJ 렌:
"alpha is insanely huge"라는, 요컨대 정보 우위가 매우 크다는 주장이지.
실제로 이번 본문에서도 후반부는 GLM-5.2 이야기가 상당히 비중 있게 다뤄집니다.
DJ 미오:
그전에 연구 관련 소식을 짚어보자면, PapersWithCode의 트렌드 논문으로 VibeThinker-3B가 언급되었습니다.
3B라는 작은 규모의 모델임에도 **검증 가능한 추론 (Verifiable Reasoning)**을 탐구하는 방향성이 주목받았고, DeepSeek V3.2나 GLM-5, Gemini 3 Pro급의 성능대에 진입할 것이라는 이야기가 있었습니다.
DJ 렌:
에이전트 계열에서는 PreAct라는 논문이 흥미롭습니다.
성공한 에이전트 실행을 **재생 가능한 상태 머신 (Reproducible State Machine)**으로 컴파일하여, 동일한 경로라면 매번 LM을 순차적으로 호출할 필요가 없게 만듭니다.
결과적으로 8.5배에서 13배 빠른 재생이 가능하다는 이야기죠.
DJ 미오:
이것은 실무적으로 매우 중요합니다.
에이전트는 "똑똑함"보다 동일한 성공 절차를 저렴하고 안정적으로 재사용할 수 있는가가 가치가 되는 경우가 있습니다.
매번 전체 추론을 수행하면 비용과 지연 시간(Latency)이 너무 크니까요.
DJ 렌:
또 하나는, LLM-as-Environment-Engineer입니다.
실패하면 다음 훈련 환경을 스스로 재구성한다는 발상입니다.
벤치마크는 MAPF-FrozenLake입니다.
에이전트가 환경 설계에 개입한다는, 메타 학습 (Meta-learning)에 가까운 개념입니다.
DJ 렌:
DJ 미오:
실운용 관점에서는, Omar Sar0의
“코딩 에이전트에는 검증기와 견고한 가드레일 (Guardrails)이 필요하며, 맹목적인 자율 루프는 안 된다”
라는 주장도 소개되었습니다.
최근 트렌드로, 무엇이든 자율에 맡기기보다 **제약된 에이전트 실행 (Constrained Agent Execution)**이 더 높게 평가받고 있습니다.
DJ 렌:
David Khourshid의
“AI가 작성한 코드도 읽어야 한다. 읽지 않는 것은 디버깅 부채 (Debug Debt)를 미루는 것뿐이다”
라는 지적도, 상당히 미미해 보이지만 중요하네요.
DJ 미오:
RL (강화학습) 이론 이야기도 있었습니다. John Schulman이,
PPO가 LLM 시대에 재평가되고 있는 이유는, 원 논문에서 예기치 못했던 효과가 작용하고 있기 때문이다
라고 언급했습니다.
DJ 렌:
구체적으로는, 중요도 비율 (Importance Ratio)의 목적 함수 (Objective Function)가,
- 수치 오차
- 비동기 학습 (Asynchronous Learning)
- Forward Pass의 노이즈
로 인한 편향 (Bias) 보정에 도움이 되고 있다고 합니다.
게다가 클리핑 (Clipping)이 엔트로피 (Entropy)에 미치는 영향도 나중에야 이해가 진전되었다고 하네요.
DJ 미오:
관련하여, Chris Wolfe가
DAPO, Dr. GRPO, GSPO, TIS와 같은 post-GRPO 분석 논문들을 높게 평가했습니다.
추론이나 에이전트 문맥에서, PPO 계열의 목적 함수를 제대로 분석하는 연구가 더 필요하다는 흐름입니다.
DJ 렌:
그리고 John Carmack의 이야기도 있었죠.
Temporal Differences for visual representation learning에 대한 비판 말이에요.
프레임 인코더 (Frame Encoder)와 “모션 인코더 (Motion Encoder)”를 학습하여,
latent(frame1) + delta ≈ latent(frame2)가 되도록 하는 0.25초 스트라이드 (Stride) 방식인데,
Carmack은 DINO의 EMA anti-collapse 선택이나, delta 구성의 건전성에 의문을 제기했습니다.
DJ 미오:
이 부분은 과연 연구자·구현자 커뮤니티답게, 상당히 날것의 토론이네요.
DJ 렌:
인프라·추론 최적화 이야기도 흥미로웠습니다.
먼저 Xenova가 종료된 Fable 5 프로젝트 유래의 커널 (Kernel)과 데모를 공개하며,
Gemma 4를 WebGPU로 255 tok/s까지 끌어올렸다고 주장했습니다.
DJ 미오:
브라우저 내·온디바이스 (On-device) 추론에 있어서, 커널 최적화가 상당히 효과적이라는 이야기군요.
단순히 모델을 경량화하는 것뿐만 아니라, 에이전트적으로 추론 커널을 최적화할 여지가 큽니다.
DJ 렌:
영상 계열에서는 Fal이 Kling 3.0 Turbo와 O3의 업그레이드를 발표했습니다.
개선점은 상당히 구체적이었는데,
- 생성 속도 향상
- 비용 절감
- 립싱크 (Lip-sync) 향상
- 모션 안정화
- Omni에서의 프롬프트·참조 일관성 향상
- 최대 15초 클립
- 4K 생성
- 스토리보드 및 멀티샷 (Multi-shot) 개선
등이 나열되었습니다.
DJ 미오:
코딩 지원 측면에서는, GitHub Copilot의 Auto mode가
추론 깊이, 코드 복잡성, 디버깅 난이도, 도구 오케스트레이션 (Orchestration)의 필요성에 따라
**커스텀 라우팅 모델 (Custom Routing Model)**로 최적의 모델을 선택하게 되었다는 공유도 있었습니다.
DJ 렌:
이것은 “단일 모델에게 전부 시키는 것”에서,
상황에 따라 백엔드에서 모델을 전환하는 설계로의 이행이네요.
향후 프로덕트 설계의 기본 패턴이 될 것 같습니다.
DJ 미오:
다음은 업계 인재 뉴스입니다. Midjourney 외에 가장 큰 소식으로,
Noam Shazeer가 Google을 떠나 OpenAI로 옮긴다는 뉴스가 올라왔습니다.
DJ 렌:
이건 정말 엄청난 뉴스예요. Noam Shazeer는
Transformer, T5, Switch Transformer
등의 공동 저자이자, 특히 **희소 MoE (Sparse MoE)**의 선구자로서 매우 중요한 인물입니다.
본문에서도 “올해 가장 중요한 AI 인재 이동”이라고 부르는 목소리가 있었습니다.
DJ 미오:
Sam Altman은 환영의 메시지를 남기며,
“OpenAI is SOTA in noams”와 같은 농담까지 던졌다.
Aidan Clark는 Noam과 함께 일하게 된 것에 대한 흥분을 표하면서도, RSI(Recurrent Sub-Intelligence)가 다가오고 있다는 느낌에 대해서도 언급했다.
DJ 렌:
주변의 해석으로는,
- DeepMind/Brain 통합의 부작용으로 Anthropic이나 OpenAI가 이득을 본 것이 아니냐는 의견
- Anthropic은 Karpathy를, OpenAI는 Noam을 얻었다는 점
- Google에 대한 실망도 이직 이유 중 하나일 것이라는 점
같은 관점들이 나오고 있었지.
게다가 기업 가치 측면에서 OpenAI가 Anthropic을 넘어섰다는 포스트도 소개되었어.
DJ 미오:
이 부분은 상당히 추측이 섞여 있는 영역이지만,
인재·자본·평판이 서로 경쟁 역학(competition dynamics)을 만들어내고 있다는 점은 분명해 보여.
DJ 렌:
모델 품질에 관한 이야기로는, Blanche Minerva가
ChatGPT와 Claude가 두 논문의 인용 중복과 같은 구체적인 질문에서조차 의견이 엇갈린다며 불만을 토로했어.
응용 지식 태스크(applied knowledge tasks)에서는 여전히 신뢰성 문제가 남아 있다는 이야기지.
DJ 미오:
그리고 여러 포스트가 GLM을 포함한 중국계 모델들의 진보를 찬양하고 있었습니다.
GLM 팀을 “heroic(영웅적)”이라고 부르는 목소리나, 최신 세대가 이전의 예상을 뛰어넘어 Opus급에 근접했다는 견해도 있었어.
DJ 렌:
능력 향상의 원천으로서, 앞으로는 사전 학습(pre-training) 규모보다 RL(강화학습, Reinforcement Learning) 레시피가 더 중요해지지 않을까 하는 추측도 소개되었지.
한편, “Claude다움”이 출력에 나타난다는 식의 밈(meme)적이거나 반쯤 스테가노그래피(steganography)적인 추측도 있었지만, 이는 본문에서도 명확히 확립된 사실은 아니다라고 언급되었어.
DJ 미오:
그 외에도 Tacit Labs 참여와 관련하여,
AI는 기지의 지식을 재조합하는 것을 넘어, 생물학과 같은 영역에서 진정으로 새로운 지식을 발견해야 한다
라는 문제의식이 이야기되고 있었습니다.
DJ 렌:
반대로, 백악관이 정지 문제(halting problem)의 해결을 요구하고 있다는 식의 농담도 있었어.
이는 AI 정책 논의가 때때로 깊은 계산 이론상의 불가능성을 단순한 행정적 요구사항처럼 압축해버리는 것에 대한 풍자라고 볼 수 있지.
DJ 미오:
자율주행에 대해서는 Waymo나 Tesla를 통해 실현 가능성이 높아지는 것처럼 보이는 한편,
새로운 AV(자율주행차, Autonomous Vehicle) 스타트업이 별로 나오지 않는다는 관찰도 있었습니다.
영역 자체가 가능해 보이는 것과 신규 진입의 용이함은 별개라는 뜻이겠네요.
DJ 렌:
Reddit 요약의 중심 역시 역시 GLM-5.2였어.
우선 큰 뉴스로는, GLM-5.2가 Terminal-Bench 2.1에서 80%를 넘긴 최초의 open-weights model이라는 평가야.
DJ 미오:
구체적으로는 81.0을 기록하며, open model 중에서는 상당히 강력한 수치야.
다만 closed model인 Claude Opus 4.8이 85.0, GPT-5.5가 84.0으로 아직은 더 높은 위치에 있어.
DJ 렌:
여기서 중요한 주의점은, Terminal-Bench 2.1이 2 버전보다 쉬워졌을 가능성이 있다는 거야.
타임아웃이나 규칙이 완화되어 있어서, 단순 비교하면 점수가 부풀려져 보일 수도 있거든.
따라서 “최초 80% 돌파”는 사실일지라도, 세대 간 비교에는 신중함이 필요해.
DJ 미오:
더 나아가 논쟁이 된 부분은,
“open weights”가 “local(로컬)”을 의미하는가? 하는 점이었어.
다운로드 가능하다면 로컬이라는 의견도 있지만,
99%의 사람들에게는 하드웨어적으로 실행이 불가능하므로 로컬이라고 부르는 것은 현실과 동떨어져 있다는 반론도 있었지.
DJ 렌:
다른 포스트에서는 GLM-5.2를 가정에서 돌리기보다는,
증류(distillation)나 합성 데이터 생성(synthetic data generation)의 소스로서 중요하다고 정리했어.
모델은 MIT 라이선스의 MoE(Mixture of Experts) 구조이며, 총 파라미터 753B, 토큰당 약 40B active라는 거대한 규모를 가지고 있어.
DJ 미오:
메모리 추정치도 나왔는데, FP8 기준 744~890GB, 4bit 기준 476~500GB, 2bit 기준 241~280GB, 1bit dynamic quant 기준 176~180GB 수준이야.
게다가 **1M 컨텍스트(context)**를 실제로 사용한다면 KV cache가 훨씬 더 많이 늘어나게 돼.
즉 "작동하느냐"뿐만 아니라, 제대로 된 속도로 사용할 수 있느냐가 별개의 문제라는 것이죠.
DJ 렌:
댓글에서는,
- 512GB Mac
- GB10 클러스터
- 여러 대의 AMD AI Max 128GB 기기
- 커스텀 멀티 GPU 서버
같은 이야기들이 나오고 있었다.
어떤 사람은 9,000달러 미만의 서버에서 약 7 TPS라면 쓸만할지도 모른다고 말했지만, 일반 가정용이라고 하기에는 어렵다.
DJ 미오:
게다가 긴 문맥(long context)에서는 Mac Studio가 50K를 넘어가면 실용성이 떨어진다는 지적도 있었다.
메모리 용량이 있더라도, 프롬프트 처리(prompt processing)와 토큰 생성(token generation) 속도가 나쁘면 실무에서는 힘들다.
DJ 렌:
모델 카드(model card) 성격의 게시물에서는 GLM-5.2가
안정적인 1M token context - 강화된 코딩/에이전트 성능
reasoning effort의 가변 설정 - SGLang, vLLM, Transformers, KTransformers, Ascend NPU 지원
등을 언급하고 있었다.
DJ 미오:
기술적으로는, IndexShare라는 희소 어텐션(sparse attention) 인덱서 재사용을 통해,
1M context 시 per-token FLOPs를 2.9배 절감했다고 주장한다.
나아가 MTP speculative decoding의 수용 길이(acceptance length)가 최대 20% 늘어났다고도 적혀 있었다.
DJ 렌:
자기 신고(self-reported) 수치로는 DeepSWE 46.2라는 스코어도 있어서,
Claude Opus 4.6이나 Sonnet을 상회하며, 4.7보다는 약간 아래에 위치한다는 코멘트도 있었다.
물론 독립적인 검증이 전제되어야 하지만, 상당히 강력한 주장이다.
DJ 미오:
한편, Hugging Face 상의 모델 파일은 약 1.51TB라는 거대한 크기다.
그래서 다들 더 작은 파생 버전이나 **양자화(quantization)**를 기다리고 있는 것이죠.
GLM-5.2-Flash-32B-A4B를 원하는 목소리나, 0.5Q를 농담 반 진담 반으로 기다리는 목소리까지 있었다.
DJ 렌:
게다가 GLM-5.2가 Design Arena에서 1위를 차지했다는 게시물도 있었다.
Elo 1360으로, 현재 이용 불가능한 Claude Fable 5의 1350을 근소한 차이로 앞선다.
DJ 미오:
다만 댓글에서는,
"아직 이르다, 며칠 더 기다려 순위가 안정되는 것을 봐야 한다"
라는 신중론이 나오고 있었다.
아레나(Arena) 계열은 투표가 축적될 때까지 변동성이 크니까요.
DJ 렌:
더불어, 텍스트 전용 모델이 디자인 워크플로우에서 정말 강력한가라는 의문도 있었다.
현실적인 디자인은 시각적 확인과 반복이 필요하기 때문에, OCR이나 비전(Vision) 모델과의 연계가 필요하지 않겠느냐는 문제 제기다.
DJ 미오:
Unsloth가 GLM-5.2-GGUF를 업로드하기 시작했다는 이야기도 있었다.
아직 README만 있는 단계였지만, 다들 양자화 버전을 기대하고 있었다.
DJ 렌:
하지만 댓글의 분위기는,
"그래서, 결국 얼마나 양자화해야 로컬에서 돌아가?
"
"1M context의 KV cache는 어떻게 해?"
라는, 상당히 현실적인 것이었다.
가중치(weight)만 수용된다고 해도, 긴 문맥의 KV cache에서 막힌다는 지적은 타당하다.
DJ 렌:
다음은 로컬 추론의 최적화.
먼저, 브라우저 상에서의 Gemma 4 E2B 이야기.
WebGPU 커널을 Fable 5 유래의 최적화 방식으로 사용하여, Apple M4 Max에서 255 tok/s를 기록했다는 데모다.
DJ 미오:
댓글에서는,
- UI를 오픈 소스로 공개해 주길 바란다
- Firefox 미지원은 WebGPU나 브라우저 호환성 문제인가
- llama.cpp 같은 네이티브 런타임과 비교하면 어떤가
- 2GB나 줄어든 모델 데이터를 어떻게 삭제하는가
같은 실무적인 논점들이 올라오고 있었다.
DJ 렌:
또 다른 비교로, A10G에서 Gemma E4B를 약 500 TPS까지 최적화하려는 시도도 언급되었다.
물론 환경 차이가 크지만, 협업 에이전트(collaborative agent)를 통한 추론 최적화가 테마가 되고 있다.
DJ 미오:
AMD 진영에서는, CUDA 독점을 피하고 싶다, AMD는 대안이다라는 게시물.
RX 7800 XT 16GB 위에서 ROCm 6.4.4, llama.cpp/llama-server를 돌리며,
Qwopus 계열 및 Qwen 계열 GGUF를 최대 131072 context로 구동하고 있었다.
DJ 렌:
여기서 흥미로운 점은 **KV cache의 양자화 (Quantization)**이다.
K=q8_0, V=q4_0를 사용하여 KV cache 메모리를 약 5.6배 절감했으며,
가중치(Weights) + 128K KV cache를 VRAM의 96% 정도에 수용하여 CPU spill(메모리 스필) 없이 구현했다고 한다.
성능은 prefill 약 210 tok/s, decode 11~17 tok/s, 소비 전력 약 188W 정도였다.
긴 문장 정합성에는 YaRN RoPE scaling이 효과를 발휘하고 있다는 내용도 적혀 있었다.
DJ 미오:
이는 로컬 추론이 단순히 "어떤 GPU를 살 것인가"의 문제가 아니라,
**어텐션 (Attention), KV 양자화, 오프로드 (Offload), RoPE 스케일링, 런타임 설정 (Runtime settings)**의 종합적인 기술이 되어가고 있음을 보여줍니다.
DJ 렌:
다음은 로컬 코딩 에이전트와 증류 모델 (Distilled models)에 대한 주의 사항이다.
먼저, Qwen/Claude 증류 모델에는 주의가 필요하다는 게시물이 있었다.
DJ 미오:
주장은, 최근 흔히 보이는 Qwen 기반 Claude 증류 모델이나 Qwopus 계열의 일부는,
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기