DiffusionGemma를 비난하는 대신 해킹해 볼 수 있을까요?
요약
DiffusionGemma의 환각 문제를 해결하고 추론 성능을 최적화하기 위한 다양한 방법론을 제안합니다. 샘플러 조정, 엔트로피 제한, 사고 모드 활용 등 Tier별 기술적 접근법을 통해 dLLM의 효율성을 높이는 방안을 다룹니다.
핵심 포인트
- 엔트로피 제한 샘플러를 통해 환각을 방지하고 속도를 2~3배 향상 가능
- 도구 호출 시 캔버스 크기 조절 및 작업별 엔트로피 하한선 설정 권장
- 사고 모드(Thinking Mode) 활성화와 깨끗한 대화 기록 유지가 추론 능력 향상의 핵심
- JSON 스키마 프리필(Pre-fill)을 통한 구조화된 출력 최적화
DiffusionGemma가 출시된 지 불과 일주일밖에 되지 않았다는 점을 고려하면, 모두가 자신들의 "단순한 (naive)" 추론이 너무 많은 환각 (hallucination)을 일으킨다고 불평하고 있습니다. 이미 이 문제를 해결하려는 논문들이 나와 있으므로, 저는 AI를 활용해 어떤 방법들이 dLLM (diffusion Large Language Models)이 무용지물이 되지 않게 만들 수 있는지 표로 정리해 보았습니다 (Mercury가 이미 폐쇄형 (proprietary) 분야에서 유사한 작업을 수행한 바 있습니다). 만약 AI의 결과물이 llama.cpp / vLLM 또는 기타 에이전트들이 추론 속도를 3배 가량 가속화하는 작업을 시작하기에 충분하지 않다면 저를 몰아붙이셔도 좋습니다.
범례: ⚙️ = 드롭인 (Drop-in, 현재의 프롬프트/설정) | 🛠️ = 래퍼 (Wrapper, 오케스트레이션/검증/검색) | 🔧 = 디코더 (Decoder, 가장 큰 이득을 위한 커스텀 샘플러/런타임).
방법론 유형 간결한 조치 예상 이점 (단순 256-토큰 렌더링 대비) 인용 클러스터
Tier 0: 기초 설정 (반드시 사용해야 하는 기준점 – 불만 사항의 약 80% 해결)
1 엔트로피 제한 샘플러 (Entropy-Bounded Sampler) + 적응형 중단 (Adaptive Stopping) ⚙️ 드롭인 누적 엔트로피가 임계값(0.1)을 초과할 때까지 가장 낮은 엔트로피를 가진 토큰을 확정(commit); argmax가 안정화될 때(2단계 이상) 및 평균 엔트로피가 0.005 미만일 때 중단 조기 종료/과도한 정제 환각 (over-refinement hallucinations) 방지; 작업 복잡도에 따른 동적 단계; 2~3배의 유효 속도 향상; Qwen 수준의 품질에 도달하기 위한 핵심 경로 Google 모델 카드 & HF 설정 (2026); Ben-Hamu et al.
(EB-Sampler, NeurIPS 2025, arXiv:2505.24857)
2 Canvas Cap + Task-Tuned Entropy ⚙️ Drop-in
256-토큰 캔버스(canvas)를 유지하되, 도구 호출(tool calls)을 위해 max_new_tokens를 짧게(64–128) 설정; 도구/결정론적(deterministic) 작업에는 낮은 하한선(0.03–0.05), 사실/추론 작업에는 높은 하한선(0.15–0.2) 설정
짧은 구조화된 출력(structured outputs)에서의 노이즈/낭비 감소; 결정론적 도구 선택; 후보 다양성(candidate diversity)을 보존하여 조기 환각(premature hallucination)을 줄이고 추론 능력 향상
Google 서빙 예시 (2026); EB-Sampler 제품군 + 환각 모드 관련 논문 (2026)
3 Thinking Mode + Clean History ⚙️ Drop-in
추론/도구 선택을 위해 enable_thinking=True를 추가; 다회차 대화 기록(multi-turn history)에는 최종(비-사고) 응답만 유지
도구 선택, 논거 발견, 지시 이행(instruction following) 및 추론 능력을 강력하게 향상; 에이전트에서의 컨텍스트 오염(context pollution) 방지 (Qwen 대비 주요 격차 해소)
Google 모델 카드 (2026): “함수 호출(Function calling)은 사고 모드(thinking mode)에서 가장 잘 작동함”; 모범 사례(best-practices) 참고
Tier 1: 고수익(High-ROI) 워크플로우 및 구조화된 출력 (Wrapper – 도구 사용 및 에이전트에 필수적)
4 S³ Schema Scaffolding ⚙️ Drop-in / 🛠️ Wrapper
출력 컨텍스트에 올바른 JSON/함수 골격(중괄호, 키, 열거형(enums), 문장 부호)을 미리 채움(Pre-fill); 모델은 값만 채움
양방향 전역 정제(bidirectional global refinement)를 활용하여 구조적 준수율 +65%, 충실도(fidelity) +48%, 환각 -17% 달성; 거의 완벽한 JSON/도구 구문 (Qwen과의 주요 격차 해소)
Xiong et al.
(Self-Adaptive Schema Scaffolding, ~arXiv:2507.04504, 2025); 구조화된 출력 확산 (structured-output diffusion) 연구
5 Rich Schemas + Validate-Before-Execute + Draft-Serialize Split 🛠️ Wrapper: 상세한 의미론적 도구 설명 (verbose semantic tool descriptions)을 사용하고, 실행 또는 히스토리 추가 전에 항상 파싱/검증을 수행하며, 계획(planning)에는 DiffusionGemma를, 최종 직렬화(serialization)에는 전문 모델(specialist)을 사용합니다. 이는 기호적 취약성 (symbolic brittleness), 간접적 요청, 스키마 드리프트 (schema drift) 문제를 해결하며, 추론과 정확한 구문을 분리하고 에이전트의 잘못된 실행을 방지합니다. Google function-calling 가이드 (2026); 에이전트형 dLLM 논문들 (2025–2026 클러스터)
6 Faithful Mode + Mid-Denoising Retrieval (SARDI 스타일) 🛠️ Wrapper: 사실 관계/도구 기반/추론 작업의 경우, 예산(budget)을 높이고 (60–80 단계), 확산 과정(denoising) 중 신뢰도가 낮은 잠정적 토큰(tentative tokens)으로부터 검색(retrieval)을 트리거합니다. 이는 dLLM 특유의 실패 사례(조기 종료, 불완전한 확산, 컨텍스트 침범)를 방지하며, 높은 처리량(throughput)에서 사실성, 추론 및 멀티홉(multi-hop) 에이전트 성능을 향상시킵니다. “Lost in Diffusion” 분석 (2026); SARDI 스타일의 확산 중 검색 (retrieval-during-denoising) 논문들 (2025–2026)
7 Never Stream Raw Denoising States 🛠️ Wrapper: 사용자에게는 최종적으로 수렴/확정된(converged/committed) 구간만 보여주고, 스트리머(streamer)는 디버깅 용도로만 제한합니다. 이는 수렴 전의 깨진 중간 단계로 인해 발생하는 UX 저하와 환각에 대한 잘못된 인식을 방지합니다. Google HF 추론 노트북 (2026)
Tier 2: 고급 샘플링, 캐싱 및 제약 조건 (디코더 업그레이드 – Qwen/SOTA와의 격차를 줄이기 위한 가장 높은 ROI)
8 KLASS / Confidence-Aware Commit 🔧 Decoder: 기본 확정(commit) 방식을 타임스텝 간 토큰 수준의 KL 발산 (KL divergence, 또는 전체 신뢰도 프로필 선택)으로 교체하여 안정적인 토큰을 식별합니다. 원시 엔트로피(raw entropy) 대비 우수한 안정성 탐지 능력을 갖추며, 탐욕적 확산 (greedy diffusion) 대비 2–2.78배의 실제 시간(wall-clock) 속도 향상과 추론 품질 이득을 제공합니다. Kim et al.
(KLASS-style, NeurIPS Spotlight 2025, arXiv:2511.05664); BACD/CadLLM/Prophet 클러스터 (2026)
9 Fast-dLLM 제품군 (근사 KV + 병렬 디코딩 (Parallel Decoding)) 🔧 디코더 (Decoder) 블록 단위 근사 KV 캐시 (KV cache) + 신뢰도 기반 병렬 언마스킹 (confidence-aware parallel unmasking) (Fast-dLLM 또는 v2) 양방향 KV 캐시 문제를 해결하며, 12% 미만의 정확도 손실로 최대 27.6배의 처리량 (throughput)을 달성합니다. 품질을 유지하면서 실질적인 멀티 캔버스 (multi-canvas) 사용을 가능하게 합니다. Wu et al. (Fast-dLLM, arXiv:2505.22618, ICLR 2026 & v2)50%의 FLOP 감소 또는 2~12배의 유효 속도 향상; 양자화된 긴 문맥 (long-context) 효율성과 에이전트 안정성에 필수적입니다. Oba et al. (SureLock-style, ICLR 2026); Ma/Hu/Liu (dKV-Cache, FreeCache, d²Cache, Elastic-dLLM 클러스터, 2025–2026)
10 SureLock / dKV-Cache / d²Cache 제품군 🔧 디코더 (Decoder) 수렴된 토큰을 잠금 (Lock) (어텐션 (attention)은 허용하되 Q/FFN은 건너뜀); 지연된 조건부 (delayed conditional) 또는 어텐션 인지 KV 선택 (attention-aware KV selection) 사용; 중복 마스크 압축 30
11 CFG / 제약된 이산 확산 (Constrained Discrete Diffusion, CDD) 🔧 디코더 (Decoder) 샘플링 중 문맥 자유 문법 (context-free grammar) 또는 정규 표현식 (regex)을 위반하는 업데이트를 거부 (최대 확률 유효 문자열을 위한 가산적 인필링 (additive infilling) 또는 동적 계획법 (dynamic programming) 사용) JSON/도구 호출 (tool calls)/코드에 대해 100%에 가까운 구문 정확도 달성 (중앙값 오버헤드 약 30%); 프롬프팅 (prompting)이나 스캐폴딩 (scaffolding)만 사용하는 것보다 훨씬 우수함; 도구 사용 (tool-use) 격차를 SOTA 수준으로 좁힘. Cardei et al. (Constrained Discrete Diffusion, arXiv:2503.09790, 2025); Mündler et al. (CFG 변형, arXiv:2508.10111, ICLR 2026); DINGO 스타일 방식
12 Remask / Review-Remask-Refine (R3/CORE) 🔧 디코더 (Decoder) 잘못되었거나 의심스러운 구간 (잘못된 JSON 필드, 코드 끝부분, 사실 오류)에 대해 해당 구간만 [MASK]로 재설정하고 다시 디노이징 (re-denoise) (손상된 문맥을 덮어쓰는 것을 방지) 도구 호출, 코드, JSON 및 멀티 턴 (multi-turn) 에이전트에서 정밀한 토큰 수준 수정에 강력함; 오류 전파를 방지하고 추론 일관성을 향상시킴. Mounier et al.
(Review, Remask, Refine (R3), arXiv:2507.08018, ICML 2025); CORE 클러스터 (2026)
Tier 3: 가변 길이, 자기 검증 및 고급 사실성 (Decoder/Wrapper – 복잡한 에이전트 및 추론용)
13 DAEDAL / 길이 인지 동적 캔버스 (Length-Aware Dynamic Canvas) + DyStruct 🔧 디코더(Decoder) 시작은 짧게; 조기 EOS/신뢰도(confidence) 또는 베이지안 블록 분할 (Chinese Restaurant Process)을 통해 동적으로 확장; 길이 분포가 명확해지는 첫 번째 디노이징(denoising) 단계 이후 크롭(crop); 짧은 도구 호출(tool calls) 시 전체 256-캔버스 비용을 방지; 예측 불가능한 에이전트 출력에 대한 적응형 구조; 강제된 길이에 의한 환각(hallucination)을 줄이고 효율성 향상. DAEDAL/Length-Aware Cropping/DyStruct/LR-DLLM 클러스터 (2025–2026); Block Diffusion 확장 연구 (Arriola et al., arXiv:2503.09573, ICLR 2025 Oral)
14 S2D2 / BlockBatch / Self-Rewarding SMC + Prophet Early-Answer 🔧 디코더(Decoder) / 🛠️ 래퍼(Wrapper) 대형 블록 초안 작성 + 소형 블록 (AR과 유사한) 검증에 동일 모델 사용; 신뢰도 재가중치(confidence reweighting)를 적용한 다중 분기/궤적(trajectory) 샘플링; 초기 단계에서 정답이 확인되면 조기 확정(early-commit). 자기 추측(Self-speculation)을 통해 NFE(Number of Function Evaluations)를 줄임 (최대 4–6배 속도 향상); 다중 입자(multi-particle) 방식은 어려운 추론/도구/에이전트 프롬프트에서 품질/신뢰성을 향상; 불필요한 정제(refinement)를 절감. S2D2, BlockBatch, TCCF, AsyncLane, Self-Rewarding SMC, Prophet 클러스터 (2025–2026); Block Diffusion (Arriola et al., 2025)
15 TDGNet 스타일 궤적 환각 탐지기 (Trajectory Hallucination Detector) + SARDI 검색(Retrieval) 🔧 디코더(Decoder) / 🛠️ 래퍼(Wrapper) 최종 출력뿐만 아니라 전체 디노이징 궤적(진화하는 어텐션 그래프 역학)을 점수화; 불안정한 궤적 거부; 디노이징 중 잠정적인 토큰(tentative tokens)으로부터 검색 트리거. 사실성을 종착점(endpoint)이 아닌 궤적의 속성으로 취급; 멀티홉 QA, 추론 및 에이전트 신뢰성을 위한 더 강력한 탐지기 + 확산 모델 네이티브(diffusion-native) 검색; DeepSeek/GLM과 같은 SOTA와의 격차 해소. TDGNet 및 궤적 탐지기 (2026 클러스터); SARDI 스타일 논문들 (2025–2026); R3/Remask 철학과 일치
/u/TomLucidor 에 의해 r/LocalLLaMA 에 제출됨
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기