Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
r/OpenAI Codex (search) 276건필터 해제
터미널 환경에서 사용할 수 있는 경량 코딩 에이전트 도구인 agent-sh를 소개합니다. 셸 내에서 문맥을 인식하여 명령어 제안 및 문제 해결을 도와주며, 로컬 모델과 연동하여 가볍게 사용할 수 있습니다.

수학이나 머신러닝 사전 지식이 없어도 GPT2 스타일의 트랜스포머를 직접 구축할 수 있는 워크숍 가이드입니다. 기초적인 퍼셉트론부터 최신 LLM 아키텍처, 사전 학습 및 지시어 튜닝까지 전 과정을 코드와 엑셀 예제로 다룹니다.
Gemma 4 12B 모델의 도구 호출(Tool Calling) 기능 오류를 해결하기 위한 특수 채팅 템플릿 사용법을 안내합니다. llama.cpp 환경에서 특정 Jinja 템플릿을 적용하면 모델의 코딩 및 도구 활용 능력을 정상적으로 평가할 수 있습니다.
Claude Code 사용 중 권한 승인 프롬프트를 놓치는 문제를 해결하기 위해 Garmin 스마트워치용 알림 앱을 개발했습니다. 이 앱은 도구 호출, 파일 수정, 세션 상태 등을 실시간으로 시계에서 확인할 수 있게 해줍니다.
RedNote(Xiaohongshu)에서 출시한 2B 파라미터 규모의 오픈 소스 TTS 모델인 dots.tts를 소개합니다. 코덱 토큰 없이 완전 연속 구조를 채택하여 48kHz 고음질 합성과 제로샷 음성 복제가 가능합니다.

OpenLumara는 기존의 비효율적인 에이전트 프레임워크와 달리, 밑바닥부터 직접 코딩하여 토큰 사용량을 극도로 최적화한 로컬 AI 에이전트입니다. 모듈형 구조와 강력한 보안, 사용자 제어권을 특징으로 하며 로컬 모델 환경에 최적화되어 있습니다.
AMD 7900 XTX 환경에서 Gemma 4 QAT(양자화 인식 학습) 모델의 성능을 벤치마크한 결과입니다. QAT 모델은 기존 양자화 모델 대비 품질 저하 없이 속도는 향상시키고 VRAM 사용량은 줄이는 탁월한 효율성을 보여주었습니다.
Gemma 4 12B QAT 모델과 MTP(Multi-Token Prediction) 기술을 활용하여 12GB VRAM 환경에서 초당 120 tok/s 이상의 추론 속도를 달성한 벤치마크 결과입니다. llama.cpp와 Unsloth의 양자화 모델을 결합하여 효율적인 추론 환경을 구축했습니다.
AMD Strix Halo 플랫폼에서 StepFun 3.7 Flash 모델의 MTP(Multi-Token Prediction) 성능을 벤치마크한 결과입니다. MTP 적용 시 프리필 성능 저하 없이 디코딩 속도가 약 27.5% 향상됨을 확인했습니다.
Domino는 Speculative Decoding 과정에서 인과적 모델링과 자기회귀 초안 작성을 활용하는 새로운 방법론을 제안합니다. 이를 통해 Qwen3 모델에서 최대 5.8배의 처리량 향상을 달 수 있음을 입증했습니다.
Cohere가 공식 출시 전 테스트를 위해 30B 규모의 새로운 코딩 모델을 Hugging Face에 공개했습니다. 이 모델은 3B의 활성 파라미터를 사용하여 로컬 환경에서도 효율적인 실행이 가능하며, 사용자 피드백을 통해 모델을 개선할 계획입니다.
Debian Testing 환경에서 AMD MI50 GPU를 사용하여 llama.cpp의 성능을 벤치마크한 결과입니다. ROCm과 Vulkan 백엔드 간의 성능 차이를 분석하며, 특히 MTP(Multi-Token Prediction) 적용 시 토큰 생성 속도가 크게 향상됨을 확인했습니다.
Gemma 4 QAT 모델의 추측적 디코딩(MTP) 성능을 최적화하기 위한 QAT 매칭 어시스턴트 헤드가 HuggingFace에 공개되었습니다. 또한 llama.cpp 및 Atomic 포크에서 발생하던 PARALLEL=2 충돌 문제를 수정하고 관련 벤치마크 수치를 업데이트했습니다.
ChatGPT의 새로운 메모리 시스템 업데이트 이후, 저장된 메모리를 정확히 검색하지 못하고 최근 컨텍스트에만 의존하는 심각한 오류가 보고되었습니다. 이전 시스템으로의 복구도 불가능하며, 약어나 개인적 설정 등 구체적인 정보를 잘못 추측하는 현상이 발생하고 있습니다.
open-deepthink가 지식 증류(Knowledge Distillation) 모드를 탑재한 beta-0.0.3 버전을 출시했습니다. 멀티 에이전트 토폴로지를 통해 폐쇄형 모델의 지식을 구조화된 JSON 데이터셋으로 추출하여 오픈 소스 모델 파인튜닝에 활용할 수 있습니다.
NVIDIA의 DVLT 3D 트랜스포머 모델을 위해 CUDA와 C++로 밑바닥부터 구현한 경량 추론 엔진입니다. 외부 런타임 의존성 없이 cuBLASLt와 cuTLASS만을 사용하여 단일 5MB 바이너리로 동작합니다.
지속적인 판타지 세계 시뮬레이션을 위한 고도화된 게임 마스터(GM) 프롬프트를 소개합니다. 인과관계와 세계 상태의 연속성을 유지하며, 플레이어의 행동과 독립적으로 움직이는 살아있는 세계를 구축하는 원칙을 다룹니다.

사용자의 자연어 명령을 실시간으로 실행 가능한 동작 프로그램으로 컴파일하여 3D 아바타를 제어하는 기술을 소개합니다. 평이한 영어 설명을 루프나 병렬 트랙 같은 논리적 구조로 변환하여 브라우저 로컬 환경에서 실행할 수 있습니다.
1,700개의 Arxiv LLM 논문을 연구 관점과 '탐구 라인(inquiring lines)'으로 연결한 큐레이션 컬렉션을 공개했습니다. 주제별 분류를 넘어 공유된 연구 질문을 바탕으로 논문 간의 관계를 구조화하여 제공합니다.
Parakeet에서 Nemotron 3.5 ASR로 전환하여 다국어 지원과 스트리밍 성능을 개선한 사례를 소개합니다. Docker를 통해 컨테이너화되었으며, CPU 환경에서도 onnxruntime-genai를 활용해 실시간보다 4.5배 빠른 속도를 구현했습니다.