
Midnight AI Groove 26-06-24
요약
OpenAI가 Broadcom과 협력하여 자사 최초의 LLM 추론용 커스텀 AI 칩인 'Jalapeño'를 발표했습니다. 이는 GPU 의존도를 낮추고 계산 자원 스택 전반을 직접 통제하려는 전략의 일환입니다.
핵심 포인트
- OpenAI, 추론용 커스텀 칩 'Jalapeño' 발표
- Broadcom과 협력하여 칩, 커널, 메모리 등 스택 직접 소유 전략
- 범용 GPU 공급 및 가격 의존도 탈피 목적
- 설계부터 테이프아웃까지 9개월이라는 빠른 개발 속도
등장인물
DJ 미오 (DJ Mio): 밝고 정리 정돈을 잘함. 리스너의 관점에서 이야기를 풀어내는 타입. -
DJ 렌 (DJ Ren): 약간 기술적인 편. 배경이나 구조를 연결하여 설명하는 타입.
DJ 미오:
안녕하세요, Midnight AI Groove 시간입니다. 내비게이터는 DJ 미오입니다.
DJ 렌:
DJ 렌입니다. 오늘 밤도 AI 업계의 공기를 노이즈가 아닌 그루브(Groove)로서 전달해 드리겠습니다.
DJ 미오:
오늘 다룰 내용은 AINews의 "not much happened today"라는 호인데…… 아니 아니, 제목과는 다르게 읽어보니 평범하게 화제들이 가득하더라고.
DJ 렌:
맞아. 겉으로는 "조용한 날"이라고 하지만, 실제로는,
- OpenAI의 추론용 커스텀 칩 (Custom Chip for Inference)
- Anthropic의 Slack 네이티브 에이전트 UI (Slack-native Agent UI)
- Qwen의 AgentWorld
- GLM-5.2를 비롯한 중국계 오픈 모델 (Chinese Open Models)의 존재감
- AI 데이터 센터에 대한 사회적 반발과 옹호
- 그리고 Reddit발 로컬 LLM (Local LLM)・OCR・이미지・영상・소문
등 상당히 폭넓어.
DJ 미오:
게다가 서두에서 AINews 스스로가 "2026년 6월 23일부터 24일에 걸쳐 12개의 subreddit, 544개의 Twitter 계정, 그리고 Discord는 이번에 추가 사항 없음"을 체크했다고 말하고 있어.
또한 "AINews는 이제 Latent Space의 일부로, 과거 호 검색도 가능하며 메일 빈도도 선택할 수 있습니다"라고도 했고.
DJ 렌:
응. 그리고 마지막에는 "Discord 접속이 오늘로 중단되어 이 형태로는 더 이상 계속하지 않지만, 새로운 AINews를 낼 것이다"라고도 했어. 즉, 정보 소스의 구조 자체도 변화하고 있다는 뜻이야.
DJ 미오:
그럼 오늘 밤은 이 호의 Twitter Recap, Reddit Recap, 그리고 Less Technical한 화제까지 전부 하나의 흐름으로 정리해 봅시다.
DJ 미오:
먼저 큰 화제부터. OpenAI가 Jalapeño라는, 자사 최초의 **LLM 추론용 커스텀 AI 칩 (Custom AI Chip for LLM Inference)**을 발표했다는 이야기.
DJ 렌:
이거 상당히 중요해. 게다가 Broadcom과 협력하고 있으며, 용도는 ChatGPT, Codex, API 트래픽, 그리고 향후의 에이전트 제품까지 시야에 넣고 있어.
메시지는 명확해. "스택 (Stack)을 더 직접 소유하겠다"는 것이지.
DJ 미오:
스택이라는 게 칩뿐만이 아니라는 거지?
DJ 렌:
맞아. AINews의 요약에 따르면,
chips (칩)****kernels (커널)****memory (메모리)****networking (네트워킹)****scheduling (스케줄링)-
deployment (배포)
까지 포함해서, 즉 계산 자원의 토대부터 운용까지 장악함으로써,
"범용 GPU (General-purpose GPU)의 공급이나 가격에 너무 의존하지 않는 체제를 만든다"는 전략을 읽을 수 있어.
DJ 미오:
@gdb는 성능 대비 소비 전력의 효율성을 강조했고, @kimmonismus는 설계부터 테이프아웃 (Tape-out)까지 9개월이라는 상당히 이례적인 속도에 주목했어. 게다가 OpenAI 자신의 모델이 그 가속화에 도움이 되었다는 이야기도 있더라고.
DJ 렌:
9개월 만에 고성능 ASIC을 가져가는 건 만약 사실이라면 상당히 빠른 거야. 게다가 커뮤니티 측의 "역산"이라고 할까, 비공식적인 해석으로는 이 Jalapeño가 TPU에 가까운 구성이 아니냐는 시각도 있어.
DJ 미오:
예를 들어 @scaling01의 추측으로는,
Reticle에 가까운 사이즈의 다이 (Die)HBM3E가 약 216GB대역폭이 약 7.1~7.4TB/s-
FP4로 약 10PFLOPS
와 같은 수치가 나왔었지. 물론 비공식적이지만.
DJ 렌:
그래, 확정된 정보는 아니야. 하지만 중요한 건 수치의 진위보다, 최전선의 AI 연구소들에게 "하이퍼스케일러형 추론 전용 실리콘 (Hyperscaler-style Inference-specific Silicon)"이 상식이 되어가고 있다는 시그널이라는 점이야.
DJ 미오:
즉 "좋은 모델을 만드는 것"뿐만 아니라, "어떻게 올릴 것인가", "어떻게 돌릴 것인가"가 경쟁의 본체가 되고 있다는 거네.
DJ 렌:
정확해. 그리고 같은 날, 컴파일러나 런타임의 지도도 조금 움직였어. Chris Lattner가 Qualcomm이 Modular를 인수할 것이라고 발표했거든.
한편 Modular 측은 Mojo의 오픈 소스화는 예정대로 진행될 것이라고 말하고 있다.
DJ 미오:
이 부분도 의미심장하네. NVIDIA/CUDA의 독주에 맞서, 수직 통합된 추론 스택 (Inference Stack) 경쟁이 더 본격화될 수도 있다는 뜻이니까.
DJ 렌:
맞아. 칩, 컴파일러, 런타임, 서빙(Serving)까지 전부 연결되어 있으니까.
게다가 인프라 측면에서는, NVIDIA의 NeMo AutoModel이 MoE 모델에 대해
Expert Parallelism
DeepEP
TransformerEngine kernels
을 사용함으로써, 3.4~3.7배의 학습 스루풋 (Throughput) 향상을 실현했다고 발표했어.
DJ 미오:
학습뿐만 아니라 서빙 측면에서도 움직임이 있어. SkyPilot은 소유한 클러스터를 가로질러 통합적으로 추론을 제공하는 Endpoints를 출시했지.
Modal은 오픈 소스 추론 구성이 독점적 (Proprietary) 제공자보다 레이턴시 (Latency) 측면에서 승리할 수 있다고 주장하고 있고.
DJ 렌:
더 나아가 로컬 최적화 맥락에서는, @jon_durbin이 커스텀 DFLASH draft/speculator 모델을 훈련했을 때, 현실적인 디코딩 속도가 30~50% 향상되었다고 보고했어.
DJ 미오:
여기까지 보면, '모델 성능'보다 '얼마나 빠르고, 저렴하고, 안정적으로 돌릴 수 있는가'의 중요성이 점점 커지고 있네.
DJ 렌:
응. 프런티어 AI 경쟁은 이제 단순한 연구 경쟁이 아니라, 풀스택 (Full-stack) 산업 경쟁이 되었다는 뜻이야.
DJ 미오:
다음 큰 테마는 Anthropic의 Slack 네이티브 에이전트. 이건 단순히 "Slack 봇이 나왔다"는 이야기가 아니라, UI를 생각하는 방식 자체가 변하고 있다는 이야기였지.
DJ 렌:
맞아. @karpathy는 "모두가 이 이야기를 과소평가하고 있다. 이것은 '단순한 기능'도 '단순한 Slack 봇'도 아닌, **조직 전체를 위한 하네스 (Harness)**다"라고 말했어.
즉, 채팅 UI 안에 AI가 있는 것이 아니라, 조직의 업무 흐름 그 자체에 AI가 내장되는 것이지.
DJ 미오:
@gallabytes는 Claude Code가 "페어 프로그래밍 (Pair Programming) 파트너"처럼 느껴지는 반면, Tags는 "팀을 관리하는 감각"이라고 표현했었지.
DJ 렌:
게다가 @dabit3는 "머지않아 인간이 명시적으로 에이전트를 태그(Tag)하지 않아도 될지도 모른다"며 한 발 더 나아갔어.
즉, 에이전트 호출이 명시적 조작에서 상존하는 협업으로 옮겨갈 가능성이 있다는 거야.
DJ 미오:
하지만 거기서 갑자기 어려워지는 문제가 바로, 누구로서 행동할 것인가, 무엇에 접근할 수 있는가라는 문제야.
DJ 렌:
Anthropic은 그 부분에 대해 에이전트 고유의 ID 모델을 설명하고 있어.
Claude는 인간 사용자의 "대리 로그인"이 아니라, 자신만의 자격 증명 (Credentials)을 가져.
그 ID로 행동하며, **감사 가능 (Auditable)**하고, 중앙에서 접근 권한을 취소할 수 있지.
DJ 미오:
언뜻 보기에는 상당히 건전해 보여. 감사 로그도 남길 수 있고, 책임 소재도 명확히 보이니까.
DJ 렌:
맞아. 다만 찬반양론이 있어.
@KentonVarda는 "에이전트별 명시적 권한 설정은 확장성(Scale)이 없다"고 주장하며, 대신 capability-based security, 즉 능력 기반으로 세밀하게(Fine-grained) 태스크 단위의 권한을 부여하는 메커니즘을 밀고 있어.
DJ 미오:
"이 에이전트는 Slack 접근 가능, GitHub 접근 가능" 같은 거친 관리가 아니라,
"이 태스크를 이 범위 내에서 수행하기 위해, 이 능력만 일시적으로 부여한다" 같은 생각인 거지.
DJ 렌:
그래. 현대의 에이전트에게는 길게 유지되는 항구적인 권한보다, 제한된 능력 토큰의 묶음이 더 적합하다는 관점이야.
한편 @random_walker는 Claude Tag를 "모든 것을 기억하고 있으며, 사고할 때마다 과금되는 동료"라고 표현하며,
- 암묵지의 벤더 락인 (Vendor Lock-in)
- 프롬프트 인젝션 (Prompt Injection) 리스크
- 예산의 불투명성
을 경고하고 있어.
DJ 미오:
"회사의 지성"이 외부 벤더의 공유 에이전트에 침전되어 버리면, 빠져나올 수 없게 된다는 뜻이네.
DJ 렌:
맞아. @JubbaOnJeans 도,
- 쓰기(write) 계열 액션의
귀속의 모호함 (ambiguity of attribution) - Slack처럼 경계가 비교적 명확한 환경 밖에서의
액세스 제어의 복잡화 (increased complexity of access control)
를 지적하고 있어.
DJ 미오:
즉, UI로서는 굉장히 자연스러워졌어. 하지만 자연스러워질수록 보안이나 비용, 책임 분계가 불분명해지지.
DJ 렌:
정확해.
그리고 흥미로운 점은, 이에 대한 오픈/DIY 측의 즉각적인 반응이 이미 나타나고 있다는 거야.
Hugging Face는 자사 내 Slack 기반 코딩 에이전트인 Moon Bot을 소개하며,
self-hosting, custom tools, auditable sessions-
zero lock-in
을 강조했어.
DJ 미오:
게다가 @calebfahlgren 은,
- GitHub
- Athena
- analytics
- MongoDB
- Elasticsearch
- HF Buckets
까지 포함하는 실운용 통합 사례를 나열했지.
DJ 렌:
요컨대, 모두가 agent-native UX는 원해. 하지만 그 **하네스 (harness)**나 **기억층 (memory layer)**까지 외부 벤더에게 맡기는 것은 싫다는 팀이 늘어나고 있는 거야.
DJ 미오:
“에이전트를 쓰고 싶다”와 “조직 지식을 넘겨주고 싶지 않다”가 동시에 존재하고 있는 셈이네.
DJ 미오:
다음은 에이전트 연구 쪽 이야기. Alibaba Qwen이 Qwen-AgentWorld를 발표했어.
DJ 렌:
이건 상당히 흥미로워. Qwen은 이를 language world model, 즉 “언어 세계 모델”로 정의하고 있어.
하나의 모델 안에서,
- MCP
- Search
- Terminal
- SWE
- Web
- OS
- Android
라는 7개의 환경을 시뮬레이션해.
DJ 미오:
실제 세계의 툴이나 OS를 직접 호출하는 대신, 그 동작을 모델이 하나의 “세계”로서 예측한다는 느낌인가.
DJ 렌:
맞아. Qwen의 주장은 두 가지 축으로 나뉘어.
시뮬레이터 자체를 만든다-
세계 모델화 (world modeling)를 에이전트의 사전 학습 (pre-training)에 사용한다
는 것.
그리고 Qwen-AgentWorld-35B-A3B와 AgentWorldBench를 오픈 소스로 공개했어.
모델은 35B MoE로, 활성 파라미터는 약 3B, 컨텍스트 길이는 256K야.
DJ 미오:
게다가 주목할 만한 결과로, 단일 턴(single-turn) 환경 예측 학습이 다중 턴(multi-turn) 에이전트 태스크로 전이되어, 도메인 내외의 벤치마크에서 성능이 개선되었다고 하더라고.
DJ 렌:
이 부분이 중요해. 에이전트는 지금까지 “툴을 호출한다”거나 “시행착오를 겪는다”는 점에 주목하기 쉬웠지만, 그 전 단계로서 환경이 어떻게 반응할지를 내부적으로 얼마나 잘 모델링할 수 있는가가 핵심이라는 이야기야.
DJ 미오:
Reddit에서도 “예를 들어 ls -la를 입력했을 때 어떤 출력이 돌아올지 예측할 수 있다면, 모크(mock) 환경이나 평가 하네스에 유용할 것”이라는 코멘트가 있었지.
DJ 렌:
응. 실제 터미널이나 브라우저를 매번 실행하지 않아도, 오프라인 평가나 합성 궤적 생성 (synthetic trajectory generation), 툴 사용 훈련을 하기 쉬워져.
일부에서는 Yann LeCun 식의 세계 모델 개념을 LLM 에이전트에 직접 도입한 것으로 보고 있어.
DJ 미오:
그리고 또 다른 흐름으로, OpenThoughts-Agent도 소개되었어.
DJ 렌:
이건 @iScienceLuvr 와 @RichardZ412 가 다루었던, 에이전트 모델을 위한 오픈 데이터 정비 및 훈련 파이프라인이야.
100개 이상의 **통제된 어블레이션 (controlled ablation)**을 수행하고, 100K 사례의 학습 세트를 만들어 Qwen3-32B를 파인튜닝(fine-tuning)했어. 결과적으로 7개의 에이전트 계열 벤치마크에서 평균 44.8%의 정확도를 달성했지.
DJ 미오:
실무적으로 흥미로운 인사이트도 많았어.
instruction choice의 영향이 크다, 가장 강력한 벤치마크 교사가 반드시 최상의 교사는 아니다, 긴 실행 트레이스 (execution trace)가 효과적이다, 출처의 다양성이 동일 패턴의 반복보다 중요하다는 점이었지.
DJ 렌:
DJ 렌:
이건 현장감이 느껴지네. 단순히 “고품질 데이터”라고 말할 수도 있지만, 어떤 지시문(prompt)으로, 어떤 궤적(trajectory)을 그리며, 얼마나 다양한 기원을 갖느냐가 상당히 결정적이야.
DJ 미오:
그리고 이 섹션의 마지막에 강력하게 등장하는 것이 바로 **메모리 (memory)**야.
DJ 렌:
맞아. AINews에서는 “메모리가 에이전트의 미결 과제로서 높은 시그널을 모으는 논의가 되고 있다”라고 정리했지.
예를 들어 Weaviate의 Engram GA는 메모리를 단순히 긴 문맥(long context)을 채워 넣는 것이 아니라,
- 추출 (extraction)
- 중복 제거 (deduplication)
- 모순 조정 (contradiction mediation)
- 스코프 제어 (scope control)
을 수행하는 **비동기 인프라 계층 (asynchronous infrastructure layer)**으로 다루고 있어.
DJ 미오:
“기억한 것을 전부 그대로 문맥에 넣는 것”이 아니라, “기억을 가공·정리·수명 관리하는 계층”으로 보는 거구나.
DJ 렌:
게다가 @hwchase17은 LangSmith/Context Hub에서 이른바 sleep-time compute, 즉 “자는 동안의 계산”처럼 트레이스 (trace)를 오프라인으로 분석하여 거기서 메모리를 다시 쓰는 (write-back) 워크플로우를 소개했어.
DJ 미오:
실시간으로 전부 하는 게 아니라, 나중에 정리해서 “내일의 나”를 위해 저장하는 느낌이네.
DJ 렌:
그리고 @dair_ai가 언급한 논문에서는 에이전트 메모리를 블랙박스로 취급하여 최종 태스크의 성공 여부로만 평가할 것이 아니라,
- storage (저장)
- retrieval (검색)
- update (업데이트)
- consolidation (통합)
- lifecycle (생애 주기)
라는 데이터 관리 계층 전체로서 평가해야 한다고 주장하고 있어.
DJ 미오:
이거 정말 중요하다. 지금까지는 “얼마나 똑똑한가”가 중심이었다면, 앞으로는 “무엇을, 어디까지, 어떻게 기억하고, 어떻게 잊을 것인가”가 차별화 포인트가 되겠어.
DJ 렌:
맞아. 에이전트의 다음 경쟁 축은 능력뿐만 아니라, 기억의 시스템 설계라고 생각해.
DJ 미오:
다음 묶음은 중국계 오픈 모델의 존재감이야. 우선 GLM-5.2가 상당히 강력하게 언급되었어.
DJ 렌:
응. 여러 포스트에서 GLM-5.2가 현재 최강급 오픈 웨이트 (open-weight) 후보라고 자리매김하고 있어.
CoreWeave는 Artificial Analysis나 Agent Arena에서의 상위권을 강조했고, Baseten이나 Cursor에서 이용 가능해지면서 배포 및 구현 측면의 상승세도 빨라.
DJ 미오:
@nutlope는 GLM 5.2를 Opus 4.8과 웹 태스크 (web task)에서 비교하며,
- 품질은 비슷함
- 출력 토큰은 약 2배
- 그런데도 여전히 빠름
- 게다가 약 3배 저렴함
이라고 보고했지.
DJ 렌:
게다가 Arena에 따르면, GLM-5.2 Max는 Code Arena: Frontend에서도 강한 위치에 있어.
즉, 지식 계열뿐만 아니라 코딩이나 에이전트 영역에서도 “같은 방에 있는” 존재가 된 거야.
DJ 미오:
다만 벤치마크를 읽는 법은 신중해야 한다는 이야기도 있었어. GLM-5.2는 ARC-AGI-2에서도 화제였는데, @fchollet은 “오픈 소스 모델로서는 지금까지 중 최강의 결과”라고 불렀지만, 그 **22.8%**를 어떻게 평가할지에 대해서는 의견이 갈렸어.
DJ 렌:
맞아. 어떤 사람은 “엄청난 진전”이라고 보는 반면, 어떤 사람은 “여전히 프론티어 모델과의 격차는 크다”고 보지.
하지만 AINews가 말하고자 하는 본질은 단일 벤치마크 수치가 아니라, 중국의 오픈 모델이 코딩·에이전트·지식 노동의 여러 영역에서 지속적으로 존재감을 나타내고 있다는 점이야.
DJ 미오:
상용화 측면에서는 Moonshot의 Kimi API가 AWS Marketplace에 들어온 것도 커. 기업 조달이 쉬워져서 청구 일원화나 EDP 소진이 가능해졌으니까.
DJ 렌:
이건 은근히 중요해. 성능이 좋아도 기업이 살 수 없다면 확산되지 않으니까.
그리고 국내 계산 자원 이야기에서는, @teortaxesTex가 Huawei가 950 SuperPOD급 대규모 시스템을 데모할지도 모른다는 보고에 주목했어.
만약 사실이라면, 중국 국내에서 대규모 NPU 클러스터를 실용 수준의 규모로 구축할 수 있다는 뜻이 되고, 모델 제공의 **경제성과 레질리언스 (resilience)**가 크게 개선될 거야.
DJ 미오:
즉, 모델뿐만 아니라 그 배후의 **국산 계산 기반 (Domestic Computing Infrastructure)**도 갖춰지고 있을지도 모른다는 이야기네.
DJ 미오:
여기서부터는 정책과 인재 이야기. Anthropic이 여러 의미에서 중심에 있었어.
DJ 렌:
우선 정책 면에서는, @kimmonismus가 트럼프 시대의 AI 수출 규제에 대한 첫 번째 큰 법적 도전을 보도했어.
Legion의 주장은, "**호스트형 모델에 대한 액세스 (Access to hosted models)**는 모델 가중치(weights)나 기술 데이터의 수출과 동일하지 않다"는 것이야.
DJ 미오:
이거 정말 현대적인 논점이다. 모델 그 자체를 넘겨주는 것이 아니라, API를 통해 사용하게 하는 것이 수출인지 무엇인지에 대한 문제잖아.
DJ 렌:
맞아. AI 규제는 **가중치의 이전 (Transfer of weights)**과 **능력에 대한 원격 액세스 (Remote access to capabilities)**를 어떻게 구분하느냐가 핵심이 될 거야.
동시에, 이전에 화제가 되었던 Mythos 건에 대해서도 Reuters/AP의 맥락이 보충되었어. Anthropic의 모델이 제한된 테스트 환경에서 미국의 기밀 시스템의 취약점을 발견했다는 이야기지.
다만 일부 코멘트에서는 초기 보도가 과장되었을 가능성도 있다고 경계하고 있어.
DJ 미오:
자극적인 헤드라인에 너무 달려들지 말고, 사실관계와 검증 조건을 살펴봐야 한다는 뜻인가.
DJ 렌:
그리고 더 지정학적으로 큰 것이 증류 (Distillation)와 액세스 제어 이야기야.
마찬가지로 @kimmonismus에 따르면, Anthropic은 Alibaba 관련 운영자가 약 25,000개의 부정 계정과 2,880만 건의 Claude 대화를 사용하여 Qwen급 시스템에 대한 증류를 수행했다고 비난하고 있어.
DJ 미오:
만약 사실이라면, 이건 단순한 "약관 위반"이 아니라 상당히 큰 문제네.
DJ 렌:
응. 이건 "적대적 증류 (Adversarial Distillation)" 논의를 루머 수준에서 집행 및 국가 전략 수준으로 끌어올리는 이야기가 돼.
프론티어 랩(Frontier Lab)에게 API 공개는 보급을 위해 필요하지만, 그것이 **능력 추출의 공격 표면 (Attack surface for capability extraction)**이 될 수도 있으니까.
DJ 미오:
인재 면에서도 움직임이 있었어. Arthur Conmy가 Anthropic에 참여한 것은 얼라이먼트 (Alignment) 분야에서 주목할 만한 일이라고.
DJ 렌:
게다가 새로운 랩들도 생겨나고 있어.
Mirendil AI는 **2억 달러의 시드 (Seed)**로 설립되어, 과학 분야를 위한 **자기 가속적 AI R&D (Self-accelerating AI R&D)**를 내걸고 있어.
영국에서는 BOLD Lab과 SOFAIR라는 두 개의 국가적 기초 AI 연구소에 총 6,000만 파운드의 시드 자금이 투입되었고, UCL DARK는 BOLD에 합류해.
DJ 미오:
그리고 상업 면에서는, Bloomberg 보도를 바탕으로 Google DeepMind에서 Anthropic으로의 인재 유출도 계속되고 있어.
역시 스타트업적인 업사이드 (Upside)가 최전선의 인재들을 끌어당기고 있나 보네.
DJ 렌:
맞아. 기술 경쟁뿐만 아니라 규제·액세스·인재·자금의 모든 것이 경쟁 환경을 만들고 있어.
DJ 미오:
AINews는 마지막으로 그날의 Top Tweets도 정리했었지. 대략 정리하면,
OpenAI Jalapeño
그날 가장 임팩트 있는, 제품 및 인프라 양면의 발표. -
GPT-5.5 Instant update
OpenAI가 의도 이해, 제약 처리, 대화 스타일을 개선한 업데이트 버전을 롤아웃. -
Qwen-AgentWorld
Qwen이 에이전트용 **언어 월드 모델 (Language world models)**을 발표하고 오픈 소스화. -
Anthropic의 에이전트 ID 모델
Slack상의 Claude가 **고유 자격 증명 (Unique credentials)과 감사 추적 (Audit trails)**을 갖는 설계를 명확화. -
Cursor x Notion
Cursor의 태스크를 Notion에서 직접 위임할 수 있게 되어, 에이전트 워크플로우가 단독 채팅 앱이 아니라 기존 팀 소프트웨어로 매립되어 가는 흐름을 보여줌.
DJ 렌:
이 목록만 봐도 2026년 AI의 중심이,
- 모델 그 자체
뿐만 아니라, 인프라, 에이전트 UX, 기존 업무 도구로의 통합으로 이동하고 있다는 것을 알 수 있어.
DJ 미오:
여기서 Reddit. 우선 /r/LocalLlama과 /r/localLLM의 화제. 첫 번째는 상당히 뜨거웠던, 중국 AI 칩 기업 맵이야.
DJ 렌:
해당 게시물에서는 중국의 AI 가속기(AI Accelerator) 기업으로 다음 7개사를 꼽았다.
- Huawei Ascend
- Alibaba T-Head
- Baidu Kunlunxin
- MetaX
- Moore Threads
- Biren
- Iluvatar CoreX
게다가 이들 중 상당수가 **최근 6개월 내에 IPO(기업공개)**를 진행했으며, 현 세대는 대체로 H100급, 차세대 모델은 H200급을 목표로 하고 있다는 공격적인 전망을 내놓았다.
DJ 미오:
구체적으로는 다음과 같은 이야기들이 나열되어 있었다.
- Huawei Ascend 910C / 910D / 950의 로드맵
- 중국 내 HBM(고대역폭 메모리) 관련 이야기
- Alibaba의 16×96GB PG1 서버로 총 1.536TB VRAM 확보
- MetaX C600의 144GB HBM3e
- Moore Threads S5000의 80GB 및 1 PFLOPS
- Biren 및 Iluvatar의 FP8/FP4 및 에지 추론(Edge Inference) 모듈
DJ 렌:
게시물 전체의 주장은 중국의 AI 인프라가 NVIDIA/CUDA 의존에서 국산 스택(Stack)으로 이동하고 있다는 것이다.
OAM 스타일의 모듈, 독자적인 인터커넥트(Interconnect), SMIC 제조, 높은 가동률, 그리고 Qwen/DeepSeek/GLM과 같은 중국계 오픈 웨이트(Open-weight) 모델들이 우선 비(非) NVIDIA 환경에 맞춰 최적화될 가능성도 시사했다.
DJ 미오:
하지만 댓글창은 상당히 회의적이다.
"그래서 실제로 어디서 살 수 있는데? 유럽에서? AliExpress에서?"와 같은 실용적인 의문도 있었고, 더 본질적으로는 병목 현상(Bottleneck)은 소프트웨어 스택에 있다는 지적이 강했다.
DJ 렌:
맞다.
- CUDA 호환성
- 드라이버
- 컴파일러/런타임(Compiler/Runtime)의 성숙도
- 프레임워크 통합
이 갖춰지지 않으면 하드웨어 스펙만으로는 승부할 수 없다. 게다가 어떤 기술적으로 해박한 댓글은 이 게시물이 실제 운용 가능성을 과장하고 있다고 비판했다.
DJ 미오:
예를 들어, 합계 1,536GB의 VRAM으로는 약 1,510GB 규모의 BF16 모델을 구동하기에 부족하지 않겠느냐는 것이다. 실제로 런타임 오버헤드(Runtime Overhead), KV 캐시(KV Cache), 활성화(Activation), 단편화(Fragmentation), 분산 실행(Distributed Execution) 비용이 필요하기 때문이다.
DJ 렌:
정확하다. 또한 Huawei Ascend 950PR에 대해, 설령 128GB VRAM, 1.6TB/s, 1 PFLOPS FP8 사양이라 하더라도, NVIDIA H200의 144GB, 4.8TB/s, 2 PFLOPS dense FP8과 비교하면 대역폭과 연산 능력 모두 크게 뒤처진다는 비교도 있었다. 따라서 "H100/H200급"이라는 표현에는 상당한 유보가 필요하다는 뜻이다.
DJ 미오:
Kunlun M100에 대해서도 공개된 정보만으로는 핵심 사양을 충분히 추적할 수 없다거나, vLLM 대응이 구세대 모델용이 아니냐는 지적이 있었다. Moore Threads의 C600에 대해서도 현재 출하되는 것은 사실상 C500/C550 클래스이며, 64GB GDDR6 정도가 아니냐는 지적이 있었다.
DJ 렌:
그리고 거기서 바로 HBM3e 양산으로 넘어가는 것은 제조 및 실장 측면에서 검증되지 않은 거대한 도약이다. 요컨대, 하드웨어의 "로드맵"과 "현장에서 돌아가는 제품"은 다르다는 것이다.
DJ 미오:
또 다른 주목할 만한 게시물은 Chip Security Act다. 이는 미국의 최첨단 AI 칩에 위치 추적 메커니즘을 의무화하는 법안이 업계의 일정 수준 지지를 얻고 있다는 이야기다.
DJ 렌:
기술적으로는 수출 규제 대상 칩에 하드웨어 또는 펌웨어 레벨의 위치 정보·아테스테이션(Attestation)·통보 기능을 넣는 발상이다. 목적은 고성능 AI 칩이 제한 지역으로 밀수(橫流)되는 것을 방지하는 것이다.
DJ 미오:
하지만 댓글창은 상당히 부정적이었다. "중국에 대한 경쟁력을 스스로 떨어뜨리는 것뿐 아닌가"라거나, "새로운 보안/프라이버시 허점을 만드는 것뿐이다"라는 반응이 많았다. 어떤 이는 비꼬듯 "정말 최고의 위치 추적 기능이네, 보안 문제는 전혀 없을 것 같아"라고 말하기도 했다.
DJ 렌:
수출 관리를 강화할수록 신뢰할 수 있는 하드웨어란 무엇인가, 감시 기능이 공격 표면(Attack Surface)이 되지는 않을까 하는 문제가 발생한다. 매우 어려운 문제다.
DJ 미오:
다음은 오픈 모델 공개 소식이다. 우선 Baidu의 Unlimited-OCR.
DJ 렌:
이것은 ModelScope에서 공개된 MIT 라이선스의 3.3B 다국어 OCR/문서 분석 모델이다.
단일 이미지뿐만 아니라, 다중 페이지 문서나 PDF도 원샷(one-shot)으로 처리할 수 있으며, 최대 32K 출력 토큰을 지원한다.
DJ 미오:
GitHub에서는 Transformers 추론과, **OpenAI 호환 스트리밍을 지원하는 SGLang 서빙 (SGLang serving)**에 대한 안내도 있었지.
게다가 이미지/레이아웃용으로 base와 gundam이라는 두 가지 모드가 있어.
DJ 렌:
하지만 댓글에서는 다음과 같은 의문이 많았어.
PaddleOCR-VL-1.6과 비교하면 어떤가 - 처리량(throughput)과 정밀도(accuracy) 사이의 트레이드오프(trade-off)는?
32K 출력으로 실제로 몇 페이지나 들어가는가 - 애초에 말이야.
gundam mode는 무엇인가? - 왜 Paddle 대응이 없는가?
DJ 미오:
“Hugging Face의 모델 카드(model card)는 여기”라는 링크도 걸려 있었지만, 요컨대 공개된 것 자체는 환영받으면서도, 비교 평가와 용어의 명확화가 요구되고 있는 셈이네.
DJ 렌:
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기