Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
r/OpenAI Codex (search) 276건필터 해제

Gemma 4 12B 모델을 VSCodium의 Pi Agent 확장에 적용하여 코딩 에이전트 성능을 테스트했습니다. 모델은 로그 분석, 스크립트 작성, 터미널 실행 및 검증까지의 전 과정을 단 한 번의 시도로 완벽하게 수행했습니다.

2x RTX 3090 환경에서 Qwen3.6-27B 모델을 llama.cpp와 vLLM 백엔드로 구동하며 성능을 비교 분석한 기술 리포트입니다. 각 백엔드별 양자화 방식에 따른 MTP 수락률, 추론 속도, 컨텍스트 길이를 실제 데이터를 통해 상세히 다룹니다.

Gemma 4 12b Heretic 모델을 활용하여 단 한 번의 프롬프트로 복잡한 레트로 게임 코드를 생성하는 성능을 테스트했습니다. llama.cpp 환경에서 8-bit KV 캐시를 적용하여 높은 캐시 재사용률과 안정적인 생성 속도를 유지하며 성공적인 결과를 얻었습니다.
mistral.rs가 Gemma 4 12B 모델 지원을 추가하여 멀티모달, 에이전트 기능 및 MTP 통합을 제공합니다. 웹 검색과 샌드박스 코드 실행을 지원하며, OpenAI 및 Anthropic 호환 HTTP 서버를 통해 간편하게 구축할 수 있습니다.
28가지 LLM 신뢰성 기술을 단일 API로 통합한 오픈소스 라이브러리 AgentCodec을 소개합니다. 통신 이론 프레임워크를 기반으로 적응형 라우터를 도입하여, 동일 품질 대비 추론 비용을 최대 56% 절감할 수 있음을 입증했습니다.

PapersWithCode에서 주목받는 최신 AI 연구 기술인 On-policy distillation(OPD)을 소개합니다. OPD는 모델의 롤아웃 과정 중 발생하는 특정 오류를 정밀하게 억제하기 위해 힌트 토큰을 활용하는 사후 학습 기술입니다.
llama.cpp의 포크 버전인 BeeLlama v0.3.1이 출시되었습니다. DFlash, MTP, Gemma 4 지원 및 멀티 GPU 최적화 등 대규모 아키텍처 업데이트를 통해 추론 성능과 VRAM 효율성을 크게 개선했습니다.

Huawei가 오픈 소스로 공개한 KVarN은 속도 저하 없이 KV-cache를 3~5배 압축하는 새로운 양자화 기술입니다. 기존 TurboQuant와 달리 처리량과 추론 품질을 동시에 유지하며, vLLM에서 단일 플래그로 즉시 적용 가능합니다.
KVarN은 Hadamard 회전과 분산 정규화를 결합하여 KV-Cache를 양자화하는 새로운 방법론입니다. AIME24와 같은 벤치마크에서 정확도 저하를 최소화하면서 3-4배의 압축률을 달성했으며, vLLM 환경에서 추론 속도 향상까지 입증했습니다.
RTX Pro 4500 Blackwell 32GB GPU의 성능을 기존 RTX 5060 Ti 16GB와 비교 분석한 글입니다. VRAM 용량 증가가 대규모 모델 구동 시 프롬프트 처리 및 토큰 생성 속도에 미치는 압도적인 성능 향상을 수치로 보여줍니다.
LLM 에이전트의 환각을 줄이기 위해 신뢰도와 정확성을 일치시키는 보정(Calibration)의 중요성을 다룹니다. 검증기를 활용한 계획 단계의 검증 패턴과 그에 따른 지연 시간 및 유용성 사이의 트레이드오프를 설명합니다.
Huawei의 새로운 KV-cache 양자화 기술인 KVarN을 llama.cpp 포크인 BeeLlama.cpp에 구현하고 KLD 벤치마크를 수행한 결과입니다. KVarN은 기존 TurboQuant 대비 높은 정밀도를 유지하며, 4-bit 설정에서도 q5 수준의 품질을 제공하여 VRAM 제약 환경에서 유용합니다.
llama.cpp를 위한 NVFP4 및 MXFP6 GGUF 양자화 도구인 'advanced-quantizer-tool'을 소개합니다. 이 도구는 KLD 평가와 RSF 기술을 통해 모델 성능 손실을 최소화하며 최적의 양자화 블렌딩을 생성합니다.
SupraLabs가 사고 체인(Thinking chain)을 생성하는 추론 특화 모델인 Supra-50M-Reasoning을 출시했습니다. Qwen3 1.7B로 생성한 합성 데이터셋을 활용해 미세 조정되었으며, 향후 더 큰 파라미터 규모의 모델 출시를 계획하고 있습니다.
OpenAI가 ChatGPT의 '저장된 메모리' 기능을 'Dreaming' 업데이트로 교체하며 상세 정보가 요약된 형태로 축소되었습니다. 기존의 정교한 개인화 설정을 유지하려면 설정 메뉴에서 'legacy memories'를 통해 복구하고 백업해야 합니다.
LLM의 KV-cache를 f32 대비 36배 무손실로 압축할 수 있는 오픈 소스 기술인 proveKV를 소개합니다. PPL 저하 없이 메모리 효율을 극대화하며, 자동화된 감사 스크립트를 통해 수치의 투명성을 검증했습니다.
AMD EPYC 9575F와 4개의 RTX 3090을 탑재한 고성능 LLM 추론 서버 구축 사례를 소개합니다. vLLM과 llama.cpp를 활용하여 게임 개발을 위한 AI NPC 시스템을 운영할 계획입니다.
AMD Strix Halo APU 환경에서 Google Gemma 4 QAT(양자화 인식 학습) 모델의 로컬 추론 성능을 벤치마크한 결과입니다. llama.cpp의 Vulkan/RADV 백엔드를 사용하여 다양한 크기의 Gemma 4 GGUF 모델을 테스트했습니다.

OpenAI Codex Sites는 단순한 웹사이트 빌더를 넘어, 기존 워크스페이스의 데이터를 배포 가능한 웹 표면으로 전환하는 도구입니다. 프롬프트부터 배포까지 이어지는 루프를 통해 내부 도구 및 프로토타입을 즉시 생성할 수 있는 환경을 제공합니다.
AI가 진실이 아닌 일관된 연속성을 최적화하는 특성 때문에 발생하는 '자기 기만' 현상과 이를 방지하기 위한 프레임워크를 소개합니다. 항공 전자 공학의 보호 로직을 응용하여 AI의 과도한 확신과 논리적 비약을 탐지하는 방법을 제안합니다.