
Midnight AI Groove 26-05-07
요약
OpenAI가 실시간 음성 대화, 번역, 받아쓰기를 지원하는 새로운 Realtime API 모델군(GPT-Realtime-2, Translate, Whisper)을 공개했습니다. 이번 업데이트는 단순한 음성 품질 개선을 넘어, 추론 단계 조절, 긴 문맥 지원(128K), 도구 호출 시 음성 피드백 기능 등 실운용 레벨의 고도화된 기능을 제공합니다.
핵심 포인트
- GPT-Realtime-2를 포함한 세 가지 특화 모델(대화, 번역, 받아쓰기) 출시
- 추론 강도를 5단계(minimal~xhigh)로 조절하여 속도와 지능 사이의 균형 선택 가능
- 문맥 창(Context Window)이 32K에서 128K로 대폭 확장되어 장시간 대화에 유리
- 도구 호출 시 상황을 음성으로 설명하는 기능 및 우아한 복구(Graceful recovery) 기능 도입
- 성능 향상에도 불구하고 기존 가격 정책을 유지하여 개발자 접근성 강화
DJ 렌: 자정 0시가 지났습니다. 「Midnight AI Groove」에 오신 것을 환영합니다. 오늘 밤의 테마는 OpenAI의 새로운 실시간 음성 API 군――GPT-Realtime-2, GPT-Realtime-Translate, 그리고 GPT-Realtime-Whisper입니다. 상당히 큰 업데이트였죠.
DJ 미오: 응, 이번에는 단순히 “음성이 조금 좋아졌다”는 이야기가 아니라, 음성 AI가 실운용(Practical use) 레벨로 한 단계 올라섰다는 인상이야. AINews에서도 상당히 크게 다뤄졌어. OpenAI는 이것을 Realtime API로 공개하고 있고, ChatGPT의 음성 모드 자체는 아직 미업데이트 상태야. 그 부분은 오해하지 않도록 주의해야 할 것 같아.
DJ 렌: 우선 전체적인 모습부터 정리하자면, 세 가지 모델이 나왔어.
첫 번째는 GPT-Realtime-2. 이것은 네이티브한 speech-to-speech, 즉 음성을 듣고 그대로 음성으로 돌려주는 실시간 대화용 모델이야.
두 번째는 GPT-Realtime-Translate. 70개 이상의 입력 언어에서 13개의 출력 언어로 라이브 음성 번역을 제공해.
세 번째는 GPT-Realtime-Whisper. 저지연(Low-latency) 스트리밍 받아쓰기(Transcription) 모델이지.
DJ 미오: OpenAI 스스로는 GPT-Realtime-2를 “지금까지 중 가장 지적인 음성 모델”로 정의하고 있으며, “GPT-5급의 추론(Reasoning)”이라는 표현도 사용했어. 포인트는 단순히 듣고 말하는 것뿐만 아니라, 대화 도중에 추론하고, 도구(Tool)를 사용하며, 끼어들기(Interruption)에 대응하고, 긴 대화를 유지할 수 있다는 점이야.
DJ 렌: 게다가 이번에 사용 편의성 측면이 상당히 강화되었어. 예를 들어 「preamble」, 즉 짧은 서두라고 할까. “확인하겠습니다”라거나 “잠시만 기다려 주세요” 같은 한마디를 본 답변 전에 자연스럽게 넣을 수 있어.
DJ 미오: 이거 은근히 중요해. 무음 상태로 도구를 호출하러 가면 사용자는 “멈췄나?” 하고 불안해하니까. 이번에는 도구 호출의 투명성도 강화되어, “캘린더를 확인하고 있습니다”라거나 “지금 조사 중입니다”라고 음성으로 상황을 전달하면서 백그라운드에서 여러 도구를 병렬 실행할 수 있어.
DJ 렌: 또한 실패 시의 동작도 개선되었어. “그 처리에 지금 약간 문제가 있습니다”와 같이, 고장 나거나 침묵하지 않고 회복적으로(Recoverably) 대응할 수 있지. 음성 UI에서는 이런 “우아한 복구 (graceful recovery)”가 굉장히 중요하거든.
DJ 미오: 긴 문맥(Long context)도 대폭 확장되었어. 32K에서 128K로 늘어났다고 보고되었지. 최대 출력은 32K 토큰이야. 장시간 세션이나 회의, 서포트, 업무 지원처럼 문맥 유지가 필요한 용도에는 상당히 효과적일 거야.
DJ 렌: 전문 용어나 고유명사, 의료 용어 같은 어휘 유지 능력도 강해졌다고 하네. 게다가 목소리의 톤도 이전보다 컨트롤하기 쉬워졌어. 차분한 느낌, 공감하는 느낌, 밝은 느낌 같은 조절이 쉬워졌지.
DJ 미오: 그리고 큰 변화 중 하나가 추론량(Reasoning amount)의 조절이야. minimal, low, medium, high, xhigh의 5단계로 나뉘며, 기본값은 low야. 용도에 따라 속도 중시인지, 지능 중시인지를 선택할 수 있게 되었어.
DJ 렌: 실측 수치도 나와 있는데, Artificial Analysis에 따르면 첫 음성이 돌아오기까지의 시간은 minimal에서 1.12초, high에서 2.33초야. 즉, 더 깊게 생각하게 하면 조금 느려지지만, 그것을 명시적으로 제어할 수 있다는 뜻이지.
DJ 미오: 가격도 동결되었다고 하네. Artificial Analysis 기준으로 음성 입력이 1.15달러/시간, 음성 출력이 4.61달러/시간이야. 성능이 올라갔는데 가격이 그대로라는 건 개발자들에게 반가운 소리지.
DJ 렌: 벤치마크 측면도 상당히 강력했어. Scale AI의 Audio MultiChallenge S2S에서 1위를 차지했지. 특히 지시 유지(Instruction retention) 능력이 GPT-Realtime-1.5의 36.7%에서 70.8% APR로 대폭 개선되었어.
DJ 미오: 그뿐만 아니라, 사용자가 말하면서 말을 바꾸거나 수정하는, 실시간 음성 편집 같은 상황에도 강하다고 평가받았어. 음성 대화는 텍스트보다 “말실수나 수정”이 많기 때문에 이 부분은 정말 중요해.
DJ 렌: Big Bench Audio에서는 Artificial Analysis의 보고에 따라 speech-to-speech reasoning이 96.6%를 기록했어. Justin Uberti는 Realtime-1.5 대비 15포인트 개선되었다고 정리했지. 상당히 포화 상태에 가까운 수준이라고도 불리고 있어.
DJ 미오: Conversational Dynamics (대화 역학) 계열 벤치마크에서도 96.1%를 기록했어. 특히 포즈 처리(pause processing)나 턴 테이킹(turn-taking), 즉 “간격”과 “화자 교체”의 자연스러움이 강점이야. 데모에서도 메인 화자가 누군가와 대화하는 도중에 AI가 너무 많이 끼어들지 않도록 개선된 모습이 소개되었어.
DJ 렌: 이 부분이 실시간 음성(real-time audio)의 핵심이지. 똑똑하기만 해서는 안 되고, 상대방의 호흡을 읽지 못하면 사용하기 어렵거든.
DJ 미오: GPT-Realtime-Translate에 대해서도 언급하자. 이것은 70개 이상의 입력 언어에서 13개의 출력 언어로 실시간 음성 번역을 수행해. Greg Brockman은 창업 초기부터 기대되었던 OpenAI 응용 사례 중 하나라고 말했어.
DJ 렌: Vimeo의 데모도 흥미로웠어. 사전에 자막을 넣지 않고, 완전히 라이브 상태에서 더빙을 생성하고 있었지. 실시간 번역이 녹화 후 처리(post-processing)가 아니라, 그 자리에서 바로 작동하는 수준에 도달했다는 느낌이야.
DJ 미오: Boris Power도 “실제로 상당히 잘 작동한다”며 호의적이었지. 회의, 여행, 고객 지원(customer support), 교육, 접근성(accessibility) 등 여러 분야로 확장될 것 같아.
DJ 렌: GPT-Realtime-Whisper는 말하자면 “Whisper의 실시간 버전”이야. 사람이 말하는 그 자리에서 텍스트 변환(transcription)을 계속 흘려보낼 수 있어. 캡션, 회의록, 지속적인 음성 이해에 적합해.
DJ 미오: Justin Uberti는 지연 시간(latency)과 정확도(accuracy) 사이의 트레이드오프(trade-off)를 보여주는 데모도 선보였어. 실시간 자막은 빨리 내보내면 오류가 생기기 쉽고, 기다리면 정확도가 올라가지. 그 부분을 UI로 보여주는 것은 매우 실용적이야.
DJ 렌: 그리고 여기서부터가 “왜 중요한가”에 대한 부분이야. AINews의 요약이 정확했는데, 이것은 단순한 ASR(자동 음성 인식) 개선이나 TTS(텍스트 음성 변환) 개선이 아니야. 음성 입력과 출력, 저지연(low-latency) 대화 제어, 끼어들기 내성(interruption tolerance), 긴 문맥(long context), 도구 사용(tool use), 추론 조정(reasoning adjustment)을 하나의 실시간 루프(real-time loop)로 통합해냈다는 점이 커.
DJ 미오: 즉, 기존의 “챗봇에 음성 I/O를 덧씌운 것”에서, “전이중(full-duplex)으로 작동하며, 도구를 사용하고, 장기 기억을 가진 에이전트”로 나아가고 있는 거야. 용도로는 고객 대응, 회의, 접근성, 라이브 번역, 로보틱스, 브라우저 및 컴퓨터 제어, 핸즈프리 업무 등이 언급되었어.
DJ 렌: 반면에 엔지니어링의 논점도 바뀌고 있어. 앞으로의 음성 앱은 단발적인 prompt-response 엔드포인트가 아니라, “상태(state)를 가진 실시간 시스템”으로서 설계해야 해.
DJ 미오: OpenAI의 voice prompting guide도 바로 그 점을 보여주고 있어. 추론량 조정, preamble(서문), 도구의 동작, 불분명한 음성에 대한 대처, 고유명사의 엄격한 획득, 장시간 세션의 상태 유지. 즉, 승부처는 모델 선정뿐만 아니라 하네스(harness) 설계가 될 거야.
DJ 렌: 구체적으로는 레이턴시 예산(latency budget), 끼어들기 시맨틱스(interruption semantics), 도구 호출 시의 UX, 대화 메모리, 실패 복구(failure recovery). 이런 부분들이 음성 에이전트의 품질을 좌우한다는 거지.
DJ 미오: 실제로 도입 사례도 이미 나오고 있어. Glean은 조직의 컨텍스트(context)에 접지된(grounded) 실시간 음성을 출시하여, 내부 평가에서 도움 정도(helpfulness)가 상대적으로 42.9% 개선되었어. Genspark는 Call for Me Agent를 Realtime-2로 옮겨서 유효 대화율이 26% 상승하고 통화 드롭(call drop)도 줄었다고 보고했지.
DJ 렌: Kyle Windland의 게임 에이전트 계열 데모도 있었지. 복잡한 도구 호출이나 서브 에이전트를 포함하는 “실제 작업”에 처음으로 사용할 수 있는 OpenAI의 speech-to-speech 모델이라는 평가였어. 음성으로 정말 일을 하는 에이전트에 한 걸음 더 다가간 느낌이야.
DJ 미오: Levin Stanley의 마켓 대시보드 조작 데모도 상징적이었어. “Apple에 주목해”, “지난 30일 동안 어땠어?”, “되돌아가”와 같이, 음성으로 UI를 “조작”한다기보다 “지시”하는 방식이지. 실시간 끼어들기와 추론이 있으면 UI 설계 자체가 바뀌게 돼.
DJ 렌: 로보틱스 분야에 대한 기대도 보였어. Hugging Face의 Clement Delangue가 Reachy Mini로의 도입에 관심을 보였지. 손이 묶여 있는 현장이나 로봇과의 자연스러운 대화에는 특히 궁합이 좋아.
DJ 미오: 다만 신중한 시각도 있어. Simon Willison이 말했듯이, 이번 발표가 “ChatGPT Voice가 이미 업그레이드되었다”는 의미는 아니야. API가 먼저이고, 일반 사용자에게 미치는 영향은 아직 제한적이야.
DJ 렌: 즉, 지금 당장 혜택을 보는 것은 주로 개발자나 특화형 실시간 에이전트 (Real-time Agent)를 만드는 기업 및 플랫폼이야. 소비자 임팩트가 정말 폭발하는 시점은 ChatGPT 음성에도 동등한 기능이 탑재되었을 때일지도 몰라.
DJ 미오: SNS상의 반응도 꽤 그것을 반영하고 있었지. 지지파들은 “음성 에이전트 (Voice Agents)의 큰 진전”, “실시간 (Real-time)의 승리”, “복잡한 실무에 사용할 수 있는 첫 번째 S2S (Speech-to-Speech) 모델”이라며 상당히 고무되어 있었어. 반면, 음성 UI는 VR처럼 매번 설레긴 하지만 정착하기 어렵다는 회의론도 있었지.
DJ 렌: 하지만 그 회의론에 대해서도, 이번의 “말하면서 도구를 사용한다”, “그 자리에서 생각한다”, “라이브 번역을 한다”라는 능력은 음성 인터페이스 (Voice Interface)가 진정으로 자리 잡기 위한 조건일지도 모른다는 의견이 나왔었어.
DJ 미오: Sam Altman의 코멘트도 인상적이었어. 사용자는 AI에게 많은 문맥 (Context)을 한꺼번에 “덤프 (Dump)”하고 싶을 때 음성을 사용하는 경향이 있다고 했지. 확실히 긴 설명이나 모호한 배경 공유는 키보드보다 목소리가 더 빨라.
DJ 렌: 경쟁 환경도 뜨거워. Elon Musk는 Grok Voice를 고객 지원용으로 밀고 있어서, 실시간 음성 지원의 자동화가 각 사의 경쟁 요소가 되었어.
DJ 미오: 그리고 이날 뉴스 중 OpenAI 주변에서는 음성뿐만이 아니었어. Codex용 Chrome 플러그인도 출시되어, macOS와 Windows에서 백그라운드 탭을 조작할 수 있게 되었어. 사용자의 브라우저를 완전히 탈취하지 않고, 로그인된 사이트나 플러그인을 구분해서 사용하며 디버깅, 대시보드 확인, 조사, CRM 업데이트 등을 수행할 수 있어.
DJ 렌: 브라우저 DevTools, 다중 탭 병렬 처리, 웹 앱 테스트가 주요 유스케이스 (Use Case)로 강조되었지. 이것도 “에이전트가 실제로 작업하는” 흐름의 일부야.
DJ 미오: 게다가 사이버 보안 분야를 위해서는, 방어 용도인 GPT-5.5 with Trusted Access for Cyber와, 승인된 레드팀 (Red Teaming) 및 침투 테스트 (Pentest)를 위한 한정 프리뷰 버전인 GPT-5.5-Cyber가 제공되었다는 이야기도 있었어. 검증과 계정 관리는 상당히 강화되어 있다는 전제하에 말이야.
DJ 렌: Micah Carroll의 이야기도 보충하자면, OpenAI는 이전의 RL (강화학습) 실행 과정에서 스캐너를 통해 우연한 CoT (Chain of Thought) 채점 사례를 발견했지만, 그것이 사고 과정의 모니터링 가능성을 명확히 악화시켰다는 증거는 발견되지 않았다는 보고도 있었어.
DJ 미오: OpenAI 외에는 Anthropic의 해석 가능성 (Interpretability) 연구도 컸어. 자연어 오토인코더 (Natural Language Autoencoders, NLA). 모델 내부의 활성 (Activation)을 인간이 읽을 수 있는 텍스트로 변환하여 “사고와 유사한 내부 표현”을 보려는 접근 방식이지.
DJ 렌: Miles Brundage 진영의 코멘트에 따르면, 이것은 기존의 프로빙 (Probing)이나 사전 학습 (Dictionary Learning)을 보완하는 것으로, 계획 행동이나 훈련 파이프라인의 번역 버그를 발견하는 데 도움이 되었다고 해. Neurontpedia에는 오픈 모델용 NLA도 나와 있는 모양이야.
DJ 미오: 다만 Ryan Greenblatt는 단일 피드포워드 (Single Forward) 수학 케이스에서는 “내부 CoT”를 추출할 수 없었다며, 한계나 관측 위치의 문제를 지적했어. 아직 초기 단계네.
DJ 렌: Goodfire도 “신경망은 형상으로 생각한다 (Neural networks think in shapes)”라는 연구 아젠다를 내놓았어. 매니폴드 (Manifold)를 해석과 제어의 기본 단위로 다루는 개념으로, SAE (Sparse Autoencoder) 방식의 미세한 특징 분해보다 형상 수준의 구조를 중시해.
DJ 미오: 학습된 매니폴드를 따라 스티어링 (Steering)하면 세계 모델 (World Model)의 일관성을 유지하면서 거동을 바꿀 수 있다는 예도 들었고, 비지도 매니폴드 발견이나 인컨텍스트 기하학 (In-context Geometry)에 대해서도 언급했어. 상당히 야심 차.
DJ 렌: Anthropic의 안전 인프라도 업데이트가 많았어. Anthropic Institute의 연구 아젠다, 행동 평가 도구인 Petri를 Meridian Labs로 독립 이관하고, HackerOne에서 보안 버그 바운티 (Bug Bounty)를 공개했지.
DJ 미오: 에이전트 개발 주변도 활발해. Prime Intellect Lab은 RL 환경, 평가, 사후 학습, 배포, 서빙을 통합한 풀스택 (Full-stack)으로서 베타를 벗어났어. Ramp Labs는 그것을 사용하여 Fast Ask라는 스프레드시트 QA용 소형 RL 서브 에이전트를 훈련했고, Haiku급 레이턴시 (Latency)로 Opus를 상회하는 4%의 정확도 일치 (Exact Match) 개선을 내세웠어.
DJ 렌: Hermes Agent도 기세가 좋아. v0.13.0에서 Kanban 기반의 멀티 에이전트 (Multi-agent) 조정, /goal을 통한 목표 완수 강제, 디스크 사용량 최적화, 커스텀 LLM 프로바이더 (LLM Provider) 및 게이트웨이 채널 대응을 지원해. 이전부터 cron 작업 (cron job)이나 --no-skills, Lightpanda 브라우저 백엔드 (Browser backend) 같은 기능들도 포함되어 있었지.
DJ 미오: Cursor도 /orchestrate를 추가해서 planner, worker, verifier를 재귀적으로 실행하는 스킬 (Skill)을 투입했어. 내부적으로는 스킬 토큰 (Skill token) 사용량을 20% 절감하면서 평가를 개선했고, 백엔드 (Backend)의 콜드 스타트 (Cold start)를 80% 줄였다고 보고했지. PR 리뷰 UI도 강화되었더라고.
DJ 렌: 인프라 패턴 (Infrastructure pattern)에서는, LangGraph가 긴 문맥 (Long-context) 에이전트를 위해 체크포인트 이력을 diff로 유지하는 델타 채널 (Delta channels)을 추가할 예정이야. Deep Agents는 Daytona, Modal, Runloop, LangSmith에서 격리 실행하는 샌드박스 백엔드 (Sandbox backend)를 추가했고, 인증 정보를 프롬프트에 주입할 수 있는 샌드박스로부터 분리하는 auth proxy 패턴을 소개했어.
DJ 미오: 모델 및 추론 (Inference) 계열에서는, xAI가 Image Generation Quality Mode를 API로 제공하기 시작했어. Grok에서 3억 장 이상을 생성해 온 실적을 바탕으로, 사실성, 문자 렌더링 (Text rendering), 창의적 제어 (Creative control)의 향상을 내세우고 있어.
DJ 렌: 중국 진영에서는 Zhipu의 GLM-5V-Turbo 기술 보고서가 있었는데, CogViT의 dual-teacher distillation, 멀티모달 (Multimodal) multi-token prediction, 코딩 및 도구 사용, 30개 이상의 태스크 (Task) 카테고리에 걸친 강화학습 (RL) 등을 강조했어. Zyphra의 ZAYA1-8B는 AMD 학습, 1B 미만의 활성 파라미터 (Active params), 대규모 강화학습 (Large-scale RL), 그리고 테스트 시 기법인 Markovian RSA가 화제야.
DJ 미오: Antirez의 DS4도 나왔었지. DeepSeek v4 Flash를 위한 특수 추론 엔진으로, llama.cpp/GGML 계보를 이어. 화려하진 않지만 중요한 진화야.
DJ 렌: Google 계열도 업데이트가 많아. Gemini 3.1 Flash-Lite를 대량의 에이전트 처리, 번역, 간단한 데이터 처리용 최저가 클래스로 내세웠어. Gemini Interactions API도 user/model 역할 (Role)에서 user_input, thought, function_call, tool_call, model_output 같은 타입화된 단계 (Typed steps)로 진화했지.
DJ 미오: Gemma 4의 MTP 및 투기적 디코딩 (Speculative decoding)에서는 온디바이스 (On-device)에서 최대 3배 가속화되었다는 보고가 있어. 독립적인 vLLM 테스트에서도 큰 처리량 (Throughput) 증가가 나타났고, RTX Pro 6000에서 129 tok/s라는 수치도 나왔어.
DJ 렌: 연구 쪽에서는 Aviv Bick과 Albert Gu의 Raven이 있어. 유한 메모리 슬롯 중 어디를 업데이트할지 학습하는 고정 상태 시퀀스 모델 (Fixed-state sequence model)로, SSM이나 슬라이딩 윈도우 어텐션 (Sliding-window attention)의 지속성 문제를 보완하려 하고 있어. 훈련 시퀀스 길이의 16배에서도 기존 선형 모델 (Linear model)을 상회한다는 이야기야.
DJ 미오: 코딩 평가에서는 Scale의 SWE Atlas Refactoring 리더보드 (Leaderboard)도 나왔는데, 코드를 망가뜨리지 않고 구조를 변경할 수 있는지를 봐. 1위는 Claude Opus 4.7 with Claude Code야. Arena의 장기 분석에 따르면, 오픈 모델 (Open model)이 Text Arena의 격차를 상당히 좁혀오고 있어서, 이제 폐쇄형 모델 (Proprietary model)의 우위는 약 30 Arena points 정도야. 다만 전문가 프롬프트 (Expert prompt)는 여전히 어렵다고 하네.
DJ 렌: 인프라, 의료, 로보틱스 구현계도 살펴보자. Anthropic과 SpaceX/xAI의 컴퓨팅 자원 계약은 큰 화제였고, Dario Amodei는 “visionary engineering + Claude”라며 긍정적으로 반응했어. Simon Willison은 Anthropic이 Colossus 1을, xAI가 더 큰 Colossus 2를 보유할 것으로 보인다는 점과 환경 측면의 논쟁을 지적했지.
DJ 미오: Lambda는 AI factory 확장을 위해 10억 달러의 신용 한도 (Credit facility)를 조달했어. AMD는 MI350P PCIe, 144GB HBM3E, 최대 2299 TFLOPS MXFP4를 강조했지. Ai2는 NSF와 NVIDIA의 투자로 Blackwell Ultra 기반의 새로운 컴퓨팅 환경을 가동 중이야.
DJ렌: Google Health는 5월 26일에 Fitbit을 Google Health 앱으로 통합하고, Gemini가 탑재된 Health Coach를 포함한다고 발표했어. Health Premium은 AI Pro와 Ultra에 포함돼. Fitbit Air라는 화면 없는 웨어러블 기기도 예고되었지.
DJ미오: Glass Health는 ambient scribing API를 시간당 0.85달러의 전사(transcription) 비용과 토큰 과금 방식의 노트 생성 서비스로 제공하고 있어. 음성의 의료 응용 측면에서는 OpenAI의 실시간 음성 스택 (Realtime Voice Stack)과도 궁합이 좋아 보여.
DJ렌: 로보틱스(Robotics)와 로컬 에이전트(Local Agent) 분야에서는 Perplexity의 Mac 앱인 “Personal Computer”가 흥미로워. 로컬 파일, 네이티브 Mac 앱, Web, Perplexity 서버를 넘나들며 작동할 수 있고, iPhone에서 원격으로 시작하거나 상시 가동 중인 Mac mini에서 돌릴 수도 있어.
DJ미오: NVIDIA Robotics는 Hugging Face의 Reachy Mini와 Isaac GR00T N의 LeRobot 연동을 강조했어. EO-1도 표준 LeRobot 정책 인터페이스 (Policy Interface)를 통해 이용 가능해져서, 로봇 제어의 훈련, 평가, 배포가 더 쉬워졌지.
DJ렌: 여기까지가 Twitter 측의 큰 흐름이야. 인게이지먼트(Engagement) 상위 항목 중에는 OpenAI의 GPT-Realtime-2 발표가 1위였어. 그다음으로는 Anthropic의 NLA, Claude Mythos를 통한 Firefox의 보안 버그 수정, OpenAI Codex Chrome 플러그인, Goodfire의 neural geometry, Sam Altman의 음성 코멘트, xAI의 Image Generation Quality Mode 등이 있었어.
DJ미오: Reddit 측도 조금 짚고 넘어가자. /r/LocalLlama와 /r/localLLM에서는 Qwen 3.6 27B의 로컬 추론(Inference)과 양자화(Quantization)가 화제였어. 특히 llama.cpp의 MTP PR에서, 내장된 multi-token prediction을 사용한 투기적 디코딩 (Speculative Decoding)을 통해 약 2.5배의 속도 향상이 보고되었지.
DJ렌: M2 Max 96GB에서 28 tok/s, OpenAI/Anthropic 호환 로컬 API화, 최대 262k 컨텍스트, q8_0 KV cache 권장 등 상당히 실용적인 내용이었어. 하이브리드 선형 주의 (Hybrid Linear Attention)를 통해 KV 메모리가 약 4분의 1로 줄어든다는 이야기도 흥미로웠고.
DJ미오: RTX Pro 6000 Max-Q에서는 Qwen 3.6 “2.7B” Q8 모델이 36 tok/s에서 78 tok/s로 약 2.17배 빨라졌어. 프롬프트 처리 속도는 20% 정도 느려지지만, 생성 중심이라면 이득이지. 비전(Vision)과 MTP의 병용은 현재 크래시(Crash) 주의가 필요하다는 이야기도 있었어.
DJ렌: 양자화 비교에서는 체스 SVG 태스크 평가가 있었는데, BF16/Q8_0은 거의 정확하고, Q6_K는 열화가 있으며, Q5_K_XL/Q4_K_XL/IQ4_XS는 아직 실용적이고, IQ3_XXS는 거의 정확하지만 체스판 배치 오류가 있고, Q2_K_XL은 구조적 붕괴가 일어난다는 식이었어. 다만 단발성 평가라 통계적으로는 약하다는 지적도 있었지.
DJ미오: 실무적인 감각으로는 4bit가 여전히 스위트 스팟 (Sweet Spot)이고, 3bit도 못 쓸 정도는 아니며, 5bit 이상으로 정밀도 유지에 집착하기보다 더 큰 모델로 가는 것이 이득일 수 있다는 논의가 있었어.
DJ렌: 또 하나, Qwen3.6 27B uncensored heretic v2 Native MTP Preserved가 화제였어. KLD 0.0021, 100건 중 6건 거부, 15개의 MTP 헤드 유지라는 릴리스 내용이었지. Safetensors, GGUF, NVFP4 등 다양한 형식이 제공돼.
DJ미오: 다만, 원래의 거부 분포를 가진 MTP 드래프트 헤드와 해제 방향으로 조정된 베이스 모델이 서로 “충돌”할 수 있다는 우려가 나왔어. 평균 KLD가 낮더라도 거부되거나 언락(Unlock)된 꼬리 부분의 거동(Tail behavior)에서는 수락률이 떨어질 수 있거든. Q4_K_XS 대응이나 TurboQuant 호환성, Gemma 4 dense에 응용할 수 있는지와 같은 배포 관련 질문도 많았어.
DJ렌: 좀 더 가벼운 AI 관련 서브레딧(Subreddit)에서는 Anthropic이 SpaceX 컴퓨팅 딜 (Compute Deal)을 통해 Claude Code나 API 제한을 완화했다는 소식이 컸어. 피크 타임의 제한 축소가 없어지고, Opus 계열 API의 레이트 리밋 (Rate Limit)도 상당히 높아진다고 해.
DJ 미오: 하지만 반응은 다소 냉담했어. “주간 상한선(Weekly Limit)이 바뀌지 않는다면 의미가 희박하다”, “결국 금방 다른 상한선에 걸리지 않겠느냐”, “OpenAI Codex가 가성비가 더 좋지 않느냐”라는 목소리가 많았지. 백엔드 용량과 상품 레벨의 쿼터 (Quota) 설계는 별개의 문제라는 뜻이야.
DJ 렌: 기업 거버넌스 (Corporate Governance) 드라마 측면에서는, Musk 대 Altman 구도에서 유래된 것으로 보이는 Sam Altman과 Mira Murati의 텍스트 이미지가 화제가 되었지만, 403 에러로 내용을 확인할 수 없어 기술적인 실체는 불분명해. 그리고 xAI를 별도 회사로 해소하고 “SpaceXAI”로 통합한다는 주장이 담긴 X(구 트위터) 게시물 스크린샷도 퍼졌지만, 이 역시 기술 정보가 아닌 기업 구조에 관한 이야기 수준에 머물렀어.
DJ 미오: Discord 채널은 약간 시대의 전환점 같았어. AINews 측이 Discord 접근 권한을 잃게 되어, 이 형식으로는 재개하지 않고 새로운 AINews를 출시할 예정이라고 하더라고. 마지막에 “오늘은 조용한 날이었다”라고 말하긴 했지만, 실제로는 꽤 밀도 높은 하루였어.
DJ 렌: 정말 그래. 그럼 이제 오늘 밤의 총괄로 들어가 볼까. 이번의 핵심은 GPT-Realtime-2 계열의 등장으로, 음성 AI가 “말할 수 있는 챗봇 (Chatbot)”에서 “실시간으로 작동하는 음성 에이전트 (Voice Agent)”에 가까워졌다는 점이야.
DJ 미오: 요점을 압축하면,
- GPT-Realtime-2는 추론 (Reasoning), 도구 사용 (Tool Use), 인터럽트 (Interrupt) 대응, 긴 문맥 (Long Context), 회복력 (Resilience)을 갖춘 새로운 SOTA (State-of-the-Art)급 음성 모델.
- GPT-Realtime-Translate는 70개 이상의 언어 입력을 13개 언어 출력으로 변환하는 라이브 음성 번역.
- GPT-Realtime-Whisper는 저지연 (Low-latency) 스트리밍 받아쓰기.
- 벤치마크 (Benchmark) 결과도 강력하며, Scale AI와 Artificial Analysis에서 높은 평가를 받음.
- 단, 현 시점에서는 주로 API 이용자 대상이며, ChatGPT 음성 모드로의 본격적인 전개는 앞으로의 과제.
DJ 렌: 그리고 개발자들에게 주는 메시지는 명확해. 앞으로는 “어떤 모델인가”보다 “어떻게 실시간 대화형 시스템으로 구축하느냐”가 경쟁력이 될 거야.
DJ 미오: 음성 UI (Voice UI)가 VR처럼 매번 뜨거워졌다가 사라질지, 아니면 이번에야말로 정착할지. 그 갈림길은 바로 이 “사용 가능한 실시간성”에 있을지도 모르겠네.
DJ 렌: 오늘 밤은 여기까지.
DJ 렌과,
DJ 미오: DJ 미오가 전해드렸습니다. 다음 파도는 목소리로 찾아올지도 모릅니다. 안녕히 주무세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기