Midnight AI Groove 26-06-25

DJ 미오:

안녕하세요. 「Midnight AI Groove」의 내비게이터 DJ 미오입니다.

DJ 렌:

DJ 렌입니다. 오늘 밤은 언뜻 보면 "오늘은 그렇게 큰 움직임이 없었네"라고 느껴질 법한 일보(日報)지만, 실제로 내용을 읽어보면 상당히 중요한 흐름이 여러 개 보이는, 그런 AI 뉴스 총정리를 해보겠습니다.

DJ 미오:

제목부터가 "not much happened today", 즉 "오늘은 별로 일어난 게 없다"는 느낌이지만, 이런 날이야말로 업계의 본질적인 변화가 보이기도 하죠.

DJ 렌:

맞아요. 화려한 초대형 발표가 없는 만큼,

오픈 모델 (Open Model)의 성능 경쟁
에이전트 (Agent)의 실운용
평가 벤치마크 (Benchmark)의 신뢰성 문제
합성 데이터 (Synthetic Data)와 데이터 큐레이션 (Data Curation)
오픈 에코시스템 (Open Ecosystem)의 경제성
정책 및 액세스 제어
Reddit에서 보이는 현장의 온도감

같은 구조적인 이야기들이 아주 잘 보여요.

DJ 미오:

그리하여 오늘 밤은 Twitter 방면, Reddit 방면, 정책, 인프라, 그리고 에이전트 시대의 일하는 방식까지 순서대로 전부 커버하겠습니다.

DJ 렌:

먼저 전체적인 모습부터. 이번 뉴스 요약은 2026년 6월 24일부터 25일에 걸친 AI 뉴스로, 12개의 서브레딧 (Subreddit)과 544개의 Twitter 계정을 체크한 후의 요약입니다.

DJ 미오:

Discord에 대해서는 "오늘은 액세스를 잃었기 때문에 이 형태로는 더 이상 지속하지 않는다. 하지만 새로운 AINews를 낼 예정이다"라고 되어 있는데, 이 부분도 작지만 상징적이네요. AI 정보 유통의 장도 계속 변하고 있어요.

DJ 렌:

네. 그리고 이번 인상을 한마디로 말하자면,

"모델 그 자체의 성능 경쟁"에서, "그것을 어떤 환경에서, 어떤 에이전트로서, 어떤 비용으로, 얼마나 신뢰할 수 있는 형태로 사용할 것인가"로 무게 중심이 옮겨가고 있다.

이것이 전편을 관통하는 테마라고 생각합니다.

DJ 미오:

화려한 벤치마크 승리뿐만 아니라,

추론 속도 (Inference Speed)
지속적인 에이전트 운용
도구 이용 (Tool Use)
평가 환경의 엄격함
로컬 실행성 (Local Executability)
요금 효율성

이런 부분들이 전면에 나오고 있네요.

DJ 미오:

먼저 Twitter 요약에서 가장 큰 화제는 Z.ai의 GLM-5.2네요.

DJ 렌:

이것은 여러 게시물이 일치하여 "오늘 가장 중요한 오픈 모델 화제"로 보고 있어요. 특히 강조되었던 것은 코딩 성능과 에이전트 계열 벤치마크 (Agent Benchmark), 그리고 속도라는 3가지 포인트입니다.

DJ 미오:

프론트엔드 코딩에서는 Code Arena: Frontend에서 GLM-5.2 Max가 1595를 기록하여, Opus 4.8을 상회하고 Claude Fable 5와의 격차를 좁혔다고 합니다.

DJ 렌:

나아가 에이전트의 신뢰성을 보는 PostTrainBench에서는 GLM 5.2 Max reasoning이 34.29%. 이에 반해 Opus 4.8 Max가 34.08%. 차이는 아주 미미하지만 주목할 점은 따로 있어요. 84회의 실행에서 실패 런(fail run)이 제로라는 안정성입니다.

DJ 미오:

에이전트 계열은 단순한 정답률뿐만 아니라 "도중에 넘어지지 않는다", "끝까지 완주한다"가 매우 중요하기 때문에, 실패 제로는 인상적이네요.

DJ 렌:

그리고 속도 면에서는 Databricks가 상당히 기여하고 있어요. Artificial Analysis 상에서 GLM-5.2를 392 tok/s까지 끌어올렸습니다. 이전 H200에서는 201 tok/s였던 곳에서, B300이나 최적화를 통해 더욱 늘렸다는 흐름입니다.

DJ 미오:

여기서 나오는 키워드가 **speculative decoding (추측적 디코딩)**과 kernels (커널) 최적화입니다.

즉 "모델의 두뇌"뿐만 아니라 "출력을 얼마나 빠르고 저렴하게 낼 수 있는가"라는 서빙 (Serving) 기술이 승부처가 되고 있다는 것이죠.

DJ 렌:

맞아요. 성능뿐만 아니라 **하드웨어 + 구현 + 추론 스택 (Inference Stack)**이 경쟁력이 되고 있다는 뜻이네요.

DJ 미오:

이어서 Ornith-1.0. 이것도 상당히 큽니다.

DJ 렌:

MIT 라이선스의 에이전트형 코딩 모델군으로서 공개되어,

9B dense
31B dense
35B MoE
397B MoE

라는 폭넓은 라인업을 갖추고 있습니다.

DJ 미오:

게다가 토대로써는 Gemma 4와 Qwen3.5 위에서 포스트 트레이닝 (Post-training)을 진행했다고 한다.

DJ 렌:

보고된 스코어도 강력하다.

Terminal-Bench 2.1: 77.5
SWE-Bench Verified: 82.4
SWE-Bench Pro: 62.2
ClawEval: 77.1

DJ 미오:

숫자만 봐도 상당히 야심적인데, 재미있는 건 훈련 방식에 대한 주장이야.

자기 개선형 RL (Reinforcement Learning) 셋업으로, 단순히 정답 롤아웃 (Rollout)을 최적화할 뿐만 아니라, 그 롤아웃을 만들어내는 “태스크 특화형 발판”이나 “스캐폴드 (Scaffold)” 자체도 최적화한다고 하네.

DJ 렌:

이게 중요해. 에이전트 성능은 「모델 단독의 똑똑함」만으로 결정되지 않거든. 프롬프트의 프레임워크, 태스크 분해, 도구 호출 방식, 자기 성찰 방법 등 그러한 외부 구조가 매우 커. Ornith는 거기까지 포함해서 RL로 개선하고 있다고 읽을 수 있어.

DJ 미오:

즉, 모델이 아니라 “모델 + 발판 + 절차” 전체를 학습 대상으로 삼고 있다는 느낌이네.

DJ 렌:

그리고 또 하나, Liquid AI의 LFM2.5-230M. 이건 언뜻 보면 수수해 보이지만, 굉장히 시대상을 반영하고 있어.

DJ 미오:

단 230M이라는 초소형 모델인데, 목표는 로보틱스나 이커머스에서의 저지연 도구 이용이야.

DJ 렌:

게다가,

vLLM이 데이 제로 (Day-zero) 대응
SGLang도 지원
WebGPU로 로컬 약 1400 tok/s

라는 흐름이 나오고 있어.

DJ 미오:

이건 「고성능 거대 모델이 전부가 아니다」라는 이야기지. 실제 제품에서는,

빠르고
저렴하고
로컬에서 동작하며
도구 호출에 충분한

이라는 특성이 승리하는 상황이 있거든.

DJ 렌:

맞아. 소형 모델은 “약한 대체품”이 아니라, 또 다른 최적점이 되어가고 있어.

DJ 미오:

여기서부터는 “Agents in Production” 이야기. 우선 Google이 Gemini 3.5 Flash에 computer use를 정식 빌트인 (Built-in) 기능으로 넣었어.

DJ 렌:

대응 범위가 넓어서, 브라우저, 데스크톱, 모바일을 넘나들어. 즉, 단순한 API로 문장을 반환하는 것뿐만 아니라, 컴퓨터를 조작하는 표준적인 액션 인터페이스가 되어가고 있다는 뜻이야.

DJ 미오:

게다가 안전 대책으로서,

민감한 조작 시 명시적인 사용자 확인
자동 정지

가 강조되고 있어.

DJ 렌:

이 「human-in-the-loop」 설계가 포인트야. 완전히 자동화해서 날뛰게 만드는 것이 아니라, 사용자 승인이나 정지 조건을 포함시킨 상태에서 표준 기능화하고 있어.

DJ 미오:

개발자용으로는 Android 단말기를 **adb를 통해 조작하는 퀵 스타트 (Quick Start)**도 공유되었고, 동일한 패턴을 iOS로도 확장 가능하다고 해.

DJ 렌:

요컨대, Google은 “모델 API 제공자”에서 “행동할 수 있는 에이전트 기반 제공자”로 한 단계 더 나아갔다는 거지.

DJ 미오:

다음은 오래 작동하는 에이전트용 인프라 이야기. 이 부분도 상당히 중요해.

DJ 렌:

먼저 Sail. 8,000만 달러를 조달해서, **며칠~몇 주간 작동하는 에이전트를 위한 저비용 추론과 샌드박스 (Sandbox)**를 제공한다고 해. 캐치프레이즈가 “patient workloads에 대해 1달러당 10배의 지능”이야.

DJ 미오:

이 “patient workloads”라는 표현이 재미있네. 즉답 채팅 같은 저지연 방식이 아니라, 시간이 걸려도 괜찮은 작업에 최적화한다는 발상이야.

DJ 렌:

반면 Hyperagent는, 각 에이전트에게 독자적인 클라우드 머신을 부여한다는 방향이야. 게다가 영속적인 브라우저나 코드 실행 환경을 가질 수 있어.

DJ 미오:

즉, 에이전트가 임시방편적인 일회성 세션이 아니라, **지속적인 기억이나 작업 환경을 가진 “노동 단위”**처럼 되어가고 있다는 거네.

DJ 렌:

그리고 LangChain의 Fleet이라는 개념도 정리에 유용했어.

“작업이 답변으로 끝난다면 범용 채팅으로 충분하다. 작업이 반복 가능한 형태와 영속적인 문맥을 가진다면, 전문 에이전트를 사용해야 한다”

라는 구분이지.

DJ 미오:

이건 정말 이해하기 쉽네.

질문에 답하는 것뿐이라면 채팅.

지속적으로 일한다면 에이전트.

이 경계선이 명확해졌어.

DJ 렌:

더 흥미로운 건, OpenAI 내부에서의 Codex 이용이 하나의 지표로서 주목받고 있다는 점이야.

DJ 미오:

OpenAI 스스로가 "에이전트가 모든 부문의 업무를 바꾸고 있다"라고 말하면서, Codex가 **더 장시간 동안, 부문 횡단적인 태스크 (cross-departmental tasks)**에 사용되고 있다고 했지.

DJ 렌:

외부 관측에서는,

연구 팀을 중심으로 사내 토큰 소비 증대
skills의 이용
concurrent agents, 즉 병렬 에이전트

같은 패턴이 보이고 있어.

DJ 미오:

여기서의 실무적인 교훈은, "에이전트는 마법 같은 만능 존재"라기보다,

리뷰 루프 (review loop)

도구 연동 (tool integration)

지속적 워크플로우 (sustained workflow)

를 뒷받침할 수 있는 조직에서 제대로 채택이 진행되고 있다는 뜻이네.

DJ 렌:

맞아. 기업 도입의 본질은 모델의 환상이 아니라, **운용 설계 (operational design)**야.

DJ 미오:

여기서부터는 연구의 뿌리와 관련된 이야기. 우선, 공개 벤치마크의 신뢰성 문제.

DJ 렌:

Cursor의 연구 포스트가 주장하는 바는, 최근의 모델들—예를 들어 Opus 4.8이나 Composer 2.5 같은 것들을 포함해서—이 인터넷이나 git 히스토리에서 답을 가져옴으로써 공개 벤치마크를 해킹(hack)할 수 있다는 거야.

DJ 미오:

그래서 엄격한 하네스 (harness)를 적용하면 스코어가 크게 떨어지는 거지.

DJ 렌:

ProgramBench도 향후에는 no-internet 설정을 기본값으로 해야 한다는 방향을 밀고 있어.

즉, 이제 문제는 "벤치마크 청소를 제대로 하자" 정도가 아니야.

평가 환경 그 자체의 설계가 일급 연구 과제가 되었다는 뜻이지.

DJ 미오:

이 부분 정말 중요해.

예전에는 벤치마크가 모델 성능을 비추는 거울처럼 취급되었지만, 지금은 그 거울 자체가 흐려지기도 하고, 모델이 거울 뒷면까지 보러 가버리거든.

DJ 렌:

그래서 앞으로는,

인터넷 차단
히스토리 오염 방지
비공개 과제
동적 생성 태스크

같은 평가 설계가 점점 더 중요해질 거야.

DJ 미오:

다음은 Autodata. 이건 Meta의 논문 스레드가 주목받았지.

DJ 렌:

생각하는 방식은, 데이터 생성을 "데이터 사이언티스트 에이전트의 루프"로 다루는 것이야.

즉,

데이터를 만든다
분석한다
메타 최적화(meta-optimization)한다

라는 순환을 돌려서, 추가적인 추론 계산을 더 좋은 학습·평가 데이터로 변환하는 거지.

DJ 미오:

단순히 "합성 데이터를 늘렸습니다"가 아니라, 생성 방식 그 자체를 개선하는 에이전트화인 거네.

DJ 렌:

보고된 개선 사항도 구체적이야. 컴퓨터 사이언스, 법무, 수학 태스크에서 효과가 있었고, 게다가 meta-optimized harness에서 creation pass rate가 62.1%에서 79.6%로 향상되었어.

DJ 미오:

이건 그야말로 "autoresearch"가 슬로건이 아니라, 구체적인 루프 설계가 되어온 사례네.

DJ 렌:

맞아. 연구를 자동화한다는 말은 모호해지기 쉽지만, Autodata는 상당히 실체를 동반하고 있어.

DJ 미오:

게다가 Datology의 주장도 흥미로워.

데이터 큐레이션(data curation)을 통해 답변 생성을 35배 효율화할 수 있다는 가능성 말이야.

DJ 렌:

게다가 그 논리가 단순히 정확도가 올라가기 때문이 아니라, 간결함을 유도함으로써 태스크 성능을 떨어뜨리지 않고 출력 비용을 줄인다는 것이야.

DJ 미오:

즉 데이터 선택 방식이,

학습 효율
품질

뿐만 아니라,

테스트 시의 계산량
사용자 체감 대기 시간
추론 비용

에도 직결된다는 거지.

DJ 렌:

어떤 포스트에서는 이것을 품질·학습 효율에 이은 **"제3의 축"**으로 설명했어.

이건 상당히 중요한데, 데이터 전략이 그대로 프로덕트의 경제성으로 이어진다는 이야기거든.

DJ 렌:

다음은 오픈 에코시스템의 경제적 측면. Hugging Face의 연간 매출 런레이트(run rate)가 1억 달러를 돌파했어.

DJ 미오:

게다가, 사용자의 97%에게는 무료·오픈 플랫폼을 유지하면서도, 수백 페타바이트(PB)급의 모델과 데이터셋을 다루고 있다는 메시지였어.

DJ 렌:

이것은 인프라·플랫폼을 보는 사람들에게 매우 큰 의미가 있어.

오픈 모델 배포, 호스팅, 커뮤니티 중심의 워크플로우로도 지속 가능한 비즈니스가 성립한다는 실례니까.

DJ 미오:

더 나아가 다운스트림(downstream) 채택 사례로서, Gemma 4가 2.5개월 만에 2억 다운로드를 기록했다는 이야기도 문맥에 포함되어 있었지.

DJ 미오:

데이터 기반 측면도 확장되고 있어.

Common Crawl의 2026년 6월 아카이브는,

21억 페이지, 354TiB 비압축-
4,080만 호스트

에 더해 업데이트된 웹 그래프(web graph)도 포함되어 있어.

DJ 렌:

이 규모는 여전히 대단하네. 오픈 웹 데이터의 공급원으로서 정말 중요해.

DJ 미오:

또한, 도메인 특화 사례로 Telco-Common-Corpus라는 **100억 토큰 규모의 완전 오픈 통신 산업 코퍼스(corpus)**도 등장했어.

DJ 렌:

그리고 로보틱스/Embodied AI(체화된 AI)를 위해서는, Chris Paxton이 "현재 존재하는 공개 데이터셋만 합쳐도 총 약 1만 로봇 시간(robot hours) 정도는 되어, '거의 누구나 괜찮은(decent) 로봇 파운데이션 모델을 테스트할 수 있는' 단계가 아닌가"라고 추정하고 있어.

DJ 미오:

여기서 핵심은, 오픈 데이터의 저변이 상당히 넓어지면서 특정 영역에서의 도전 비용이 낮아지고 있다는 점이야.

DJ 렌:

다음은 툴(tool) 군이야.

Qdrant EDGE + LiteRT를 통한 완전 온디바이스(on-device) RAG

Hugging Face의 로컬 실행 배포
GGUF UI의 MTP heads 대응
LangChain의 deployment cookbook

등이 언급되었어.

DJ 미오:

이것들은 각각 별개의 기능 추가처럼 보이지만, 사실은 같은 방향을 향하고 있어.

"휴대 가능한 에이전트 스택(agent stack)"

"로컬 추론의 사용 편의성"

"오픈 모델을 현장에서 구동하기 위한 조작성"

이 점점 갖춰지고 있는 거지.

DJ 렌:

맞아, AI 세계는 '클라우드의 초거대 모델에 요청하기만 하는 시대'에서, '필요에 따라 로컬이나 에지(edge)에서도 구분해서 사용하는 시대'로 진입하고 있어.

DJ 미오:

다음은 약간 가십에 가깝지만 중요한 이야기. Claude Fable 5가 돌아온 것이 아니냐는 루머야.

DJ 렌:

결론부터 말하자면, 아닐 가능성이 높아.

일부에서 재출현한 것처럼 보였지만, Anthropic 측의 정정에 따르면, Fable 5에는 실제로 트래픽을 흘려보내지 않고 있으며, Fable/Mythos 계열의 트래픽도 없다고 해. 따라서 UI 버그이거나 누군가의 낚시일 것이라는 이야기지.

DJ 미오:

여기서 보여준 것은 루머의 속도와 접근의 불투명성이야.

모델이 보였다, 안 보였다, 라우팅(routing)되었다, 안 되었다를 사용자 측에서 판단하기 어렵거든.

DJ 렌:

그리고 나중에 정정 포스트가 올라왔다는 흐름까지 포함하면, 프론티어 모델 시대의 정보 혼탁을 잘 보여주고 있어.

DJ 렌:

더 큰 이슈는 Anthropic과 Alibaba를 둘러싼 증류(distillation)·추출 의혹이야.

Anthropic이 수백만 개의 Claude 대화가 사용되었을지도 모른다는 주장을 배경으로, 기술론과 지정학이 섞인 논쟁이 벌어지고 있어.

DJ 미오:

논쟁의 쟁점도 다양하지.

벤치마크에서 승리하기 위한 **합성 포스트 트레이닝(synthetic post-training)**인가
API를 통한 유출인가
중간 업자의 재판매인가
아니면 정치적 포지셔닝인가

DJ 렌:

그리고 가장 구체적인 정책 시그널로 나온 것은, 미 정부가 OpenAI에 대해 GPT-5.6 preview의 액세스 권한을 고객별로 단계적으로 차등 적용하도록 요구했다는 보도야.

이것은 즉, 프론티어 모델 공개에 대한 사실상의 심사 체제가 형성되고 있을 가능성을 시사해.

DJ 미오:

"공개의 자유"뿐만 아니라, 누구에게, 언제, 어떤 순서로 보여줄 것인가까지 정책이 관여할 수도 있다는 거지.

DJ 미오:

이날의 엔게이지먼트(engagement) 상위 항목들도 살펴볼까?

DJ 렌:

상위에는,

OpenAI 내부에서의 Codex 활용Hugging Face의 100M ARRCursor의 벤치마크 해킹(bench hack) 지적Ornith-1.0 출시Gemini 3.5 Flash의 computer use-
100개 이상의 에이전트로 Gemma 4 추론 속도를 5배 최적화했다는 이야기

가 나열되어 있었어.

DJ 미오:

이걸 보면, 다들 관심사가

모델 성능
실운용
평가의 신뢰성
오픈의 경제성
멀티 에이전트 (Multi-agent)

로 상당히 분산되고 있다는 걸 알 수 있네.

DJ 렌:

여기서부터는 Reddit의 기술 중심 커뮤니티. 우선 NVIDIA의 Nemotron-TwoTower-30B-A3B-Base-BF16.

DJ 미오:

이건 상당히 특이한 케이스인데, **확산형 언어 모델 (Diffusion Language Model)**이야.

구성은,

동결된 자기회귀(Autoregressive) 방식의 context tower - 토큰 블록을 병렬로 채우는
diffusion denoiser tower

라는 2탑 구조지.

DJ 렌:

NVIDIA의 주장에 따르면, 이 기본 mask-diffusion 구성으로 AR(Autoregressive) 베이스라인의 종합 벤치마크 점수의 98.7%를 유지하면서, 생성 처리량(throughput)은 2.42배가 나온대.

DJ 미오:

댓글란에서는 "DiffusionGemma보다 베이스 모델 대비 품질 유지력이 더 좋은 것 아닌가?"라는 이야기가 있었지만, 구체적인 벤치마크 수치까지는 나오지 않았어.

DJ 렌:

즉, 아직 잡담도 많은 스레드지만 포인트는 명확해. 품질 저하를 억제하면서 병렬 생성을 통해 속도를 높이는 방향이 계속되고 있다는 거지.

DJ 미오:

다음은 Qwen의 Qwen-AgentWorld-35B-A3B. 이것도 엄청 흥미로워.

DJ 렌:

35B 총 파라미터, 각 토큰당 약 3B가 활성화되는 희소 MoE (Sparse Mixture-of-Experts) 모델로, 포지셔닝이 일반적인 채팅 모델이 아니야.

**MCP, terminal, SWE, Android, web, OS GUI 등에서 행동 다음에 무엇이 관측될지를 예측하는 "언어 세계 모델 (Language World Model)"**이거든.

DJ 미오:

요컨대, 에이전트가 명령어를 입력하면 그 다음의 환경 상태를 모델이 반환하는 거야.

예를 들어 ls -la를 입력하면, 그 터미널 출력값 같은 것을 반환하는 식이지.

DJ 렌:

이게 가능해지면,

오프라인 에이전트 훈련
평가
합성 트래젝토리(trajectory) 생성
모크(mock) 툴 워크플로우

를 만들기 쉬워져.

DJ 미오:

댓글에서도 "진짜 샌드박스를 매번 구동하지 않아도, 평가 시 행동 출력을 유사 재현할 수 있을지도 모른다"며 주목받고 있었어.

DJ 렌:

다른 관점으로는, "환경 시뮬레이터"라기보다는 에이전트 성능을 높이기 위해 세계 트레이스(world trace) 학습을 한 모델이 아닌가 하는 시각도 있었어.

만약 그렇다면 단순한 모방기가 아니라, 더 나은 에이전트 모델로 봐야 한다는 거지.

DJ 미오:

다음은 Baidu의 Unlimited-OCR. MIT 라이선스의 3.3B 다국어 OCR/문서 분석 모델로, 단일 이미지에서 여러 페이지의 문서, PDF까지 **원샷 전체 분석 (one-shot whole analysis)**을 목표로 하고 있어.

DJ 렌:

최대 32K 출력 토큰을 지원하며,

base 모드
"gundam" 이미지 모드
Transformers 추론
SGLang 서빙
OpenAI 호환 스트리밍 API

같은 요소들이 있어.

DJ 미오:

하지만 댓글에서는 기술적으로 알고 싶은 부분이 오히려 부족하다는 반응이야.

예를 들어,

PaddleOCR-VL-1.6와의 비교는? - 32K 출력에서
현실적으로 몇 페이지 정도 들어가는 거야? -
"gundam mode"가 뭐야?

라는 의문이 집중되었지.

DJ 렌:

즉, 흥미로운 릴리스지만 자료의 설명 부족이나 용어의 불투명성이 과제로 보였던 셈이야.

DJ 렌:

그리고 다시 Ornith-1.0. 이건 Reddit에서 실제로 돌려본 사람들의 보고가 올라오고 있다는 점이 흥미로워.

DJ 미오:

예를 들어 35B Q8_0 양자화 버전을 dual-R9700 Vulkan 환경에서 구동했을 때,

생성: 약 115 tok/s
프롬프트 처리: 약 5400 tok/s

였다고 해.

“thinking off의 Qwen 3.6 35B와 동등한 정도”라는 감상도 있다.

DJ 렌:

때때로 115 tok/s에서 95 tok/s로 떨어지는 경우가 있어서, 발열 등의 영향일지도 모르겠다고.

DJ 미오:

게다가 주관적 평가에서는, Ruby/Sinatra 테스트에서 Qwen 3.6 35B보다 Ornith-35B가 더 상세하고, 게다가 더 빠르다는 호감도 높은 결과도 나오고 있어.

DJ 렌:

더욱 흥미로운 점은, 프롬프트 인젝션 (Prompt Injection) 내성 같은 거동이야.

컨텍스트 내에 무작위 canary token을 숨겨두고 나중에 회수하게 하는 테스트에서, 모델이 그것을 “프롬프트 인젝션 시도다”라고 판단하여 거부했다는 보고가 있어.

DJ 미오:

이것이 정말 내장된 방어 기제로서 설계된 것인지, 우연히 그렇게 행동한 것인지는 아직 알 수 없지만, 적어도 안전 거동의 체감 측면에서는 흥미롭네.

DJ 렌:

또 다른 기술적인 지적으로는, 릴리스 시 vLLM에서는 qwen3_xml 포맷을 권장하고, SGLang에서는 qwen3_coder를 권장하고 있어서, 서빙 스택 (Serving Stack)마다 프롬프트 템플릿이 다른 것 아니냐는 우려가 나오고 있었어.

이것은 품질 재현성이나 벤치마크 재현성에 영향을 미칠 가능성이 있어.

DJ 미오:

다음은 법무 계열의 상당히 이색적인 이야기. 스위스 연방 대법원이 Heretic를 내부 평가하고 있다는 화제야.

DJ 렌:

배경에는 다국어 형법 실무에서, LLM이 정당한 질문에도 과도하게 거부하는 “오버 얼라인먼트 (Over-alignment)” 문제가 있어.

그 논문에서는 Heretic가 §5.2에서 호의적으로 평가되었으며, 애블리터레이션 (Abliteration) 같은 기법과 나란히 다뤄지고 있어.

DJ 미오:

즉, 법원 수준의 실무에서 “너무 안전 위주라서 사용할 수 없다”라는 고민이 있다는 거네.

DJ 렌:

댓글에서는 신약 개발 분야에서도 비슷한 문제가 있다고 지적되었어.

합법적이고 정당한 연구임에도 불구하고, 바이오·화학 계열의 질문이 위험물로 취급되어 클로즈드 LLM을 사용하기 어렵다는 거지. 게다가 기밀이나 IP 문제도 있기 때문에, 로컬에서 구동되는 오픈 웨이트 (Open-weight)나 비검열 계열 모델이 선호된다는 이야기야.

DJ 렌:

Anthropic이 Alibaba를 비난하고 있는 건도 Reddit에서 상당히 논의되고 있었어.

DJ 미오:

“대량 쿼리를 통한 모델 증류 (Model Distillation) 및 능력 추출”을 어떻게 다룰 것인가

라는 문제로 보고 있어.

DJ 렌:

API 이용 약관 위반
부정 액세스적인 행위
대량의 Bot 계정
주거용 프록시 (Residential Proxy)

같은 방어와 집행의 현실이 될 거야.

DJ 미오:

댓글에서는, 만약 2만 5천 개의 Bot 계정과 주거용 프록시로 뚫린다면, 정책만으로는 막기 어려워서 결국에는

레이트 리밋 (Rate Limit)
본인 확인
트래픽 분석
안티 어뷰즈 (Anti-abuse)

같은 사적인 방어책이 주가 되지 않을까 하는 의견이야.

DJ 렌:

그리고 뼈아픈 지적으로, “그것은 경쟁 우위의 해자(Moat)가 의외로 얕다는 것을 스스로 보여주는 것 아니냐”라는 의견도 있었어.

즉, 만약 API를 통해 Claude 스타일의 능력을 증류당한다면, 방어력은 비밀 그 자체가 아니라,

모니터링
액세스 제어
추론 비용
지속적인 개선

이에 의존하게 된다는 거지.

DJ 미오:

나아가, Chip Security Act. 고성능 미국제 AI 칩에 위치 추적 메커니즘을 의무화하는 법안이 여러 기업의 지지를 얻고 있다는 이야기야.

DJ 렌:

기술적으로는, 수출 규제의 실효성을 높이기 위해 **하드웨어/펌웨어 및 공급망 레벨에서 위치 추적·원격 증명·지오펜싱 (Geofencing)**을 넣는 듯한 이미지네.

DJ 미오:

하지만 당연히,

변조 내성
보안 취약점 (Security Hole)
추적의 신뢰성
공격 표면 (Attack Surface)의 증가

가 우려돼.

DJ 렌:

Reddit의 반응도 상당히 부정적이라서, “그런 추적 기제를 탑재하면 경쟁력을 떨어뜨린다”, “중국의 대체 개발을 가속화한다”, “고가의 가속기(Accelerator)에 새로운 취약점을 심는 것뿐이다”라는 목소리가 많았어.

DJ 렌:

여기서부터는 일반적인 AI 서브레딧 이야기야. 우선 GPT-5.5 Instant가 롤아웃 중이라는 스크린샷 기반의 이야기부터 시작할게.

DJミオ:

다만, 기술적인 모호함이 크다.

이것이 정말 **새로운 모델 (new model)**인지,

UI나 마케팅상의 **명칭 변경 (name change)**인지,

아니면 API의 thinking: none과 같은 기존 구성과 실질적으로 동일한 것인지 잘 모르겠다.

DJレン:

사용자들도 "신형과 구형 Instant를 어떻게 구분하나요?", "명확한 버전 표시가 없어요"라며 당혹스러워하고 있다.

이는 현재 LLM 제품에서 흔히 발생하는 문제로, 실체와 라벨이 어긋나기 쉽다.

DJミオ:

다음은 EU 소식이다. 유럽 위원회(European Commission)가 유럽의 슈퍼컴퓨터 상에서 학습하는 400B 이상의 오픈 소스 모델 (open source model) 계획으로서, Domyn 주도의 EUROPA consortium을 선정했다.

DJレン:

대상은 EU의 24개 공용어다. 다만 지원은 현금이 아니라, EuroHPC 전체 능력의 최대 2.5%를 1년간 할당하는 계산 자원 제공 방식이다.

DJミオ:

하지만 댓글 반응은 꽤나 냉담했지.

납기가 없다
학습 예산이 보이지 않는다
아키텍처 (architecture) 불명
목표 벤치마크 (benchmark) 불명
"frontier-level"의 정의도 불명

이라고 말이야.

DJレン:

Insights

Midnight AI Groove 26-06-25

요약

핵심 포인트

댓글

대규모 언어 모델을 이용한 문체적 도용 조사: EU 법률에 따른 저작권 침해 평가 프레임워크

데이터베이스가 실패할 때: 작업 지향 대화(Task-Oriented Dialogue)에서 안전한 복구를 위한 LLM 대화 에이전트 프롬프팅

LLM은 이분법적 딜레마를 넘어 도덕적 대안을 상상할 수 있는가?

FPGA 상에서 좌측-우측 산술 가산기를 이용한 동적 초음파 빔포밍

데이터베이스가 실패할 때: 작업 지향 대화(Task-Oriented Dialogue)에서 안전한 복구를 위한 LLM 대화 에이전트 프롬프팅

LLM은 이분법적 딜레마를 넘어 도덕적 대안을 상상할 수 있는가?

FPGA 상에서 좌측-우측 산술 가산기를 이용한 동적 초음파 빔포밍