Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
r/OpenAI Codex (search) 276건필터 해제
5090, 6000 PRO MaxQ, 6000 PRO WS/SE 등 다양한 GPU 모델의 Diffusion 연산 성능을 비교 분석한 테스트 결과입니다. 각 그래픽 카드의 전력 제한 범위와 언더볼팅/오버클러킹 적용 여부에 따른 성능 차이를 다룹니다.
18년 된 RTOS와 90년대 CPU 에뮬레이터 환경에서 260K 파라미터 규모의 초소형 LLM을 실행하는 데 성공한 프로젝트입니다. FPU가 없는 환경을 극복하기 위해 INT8 양자화와 정수 연산 최적화 기법을 적용했습니다.
NVIDIA가 공개한 SOL-ExecBench 벤치마크를 통해 AI가 생성한 CUDA 커널의 성능 문제를 분석합니다. 실제 운영 환경에서 AI 생성 커널이 학습과 추론 성능을 저하시킬 수 있음을 보여줍니다.
CUDA 없이 Triton만으로 구현한 Fused MoE dispatch kernel을 소개합니다. Megablocks 대비 89-131%의 성능을 달성했으며, 메모리 트래픽을 35% 절감하고 AMD MI300X에서도 코드 변경 없이 동작합니다.
SWE-rebench 리더보드가 110개의 새로운 Python 작업을 포함하여 업데이트되었습니다. 모델이 실제 GitHub PR 이슈를 해결하고 테스트를 통과하는 능력을 평가하며, 향후 소형 모델 추가 및 다국어 작업 지원을 계획하고 있습니다.
MOSS-TTS-v1.5는 제로샷 음성 복제와 다국어 합성을 지원하는 최신 음성 합성 모델입니다. 1.0 버전 대비 음성 복제의 안정성과 언어 태그를 통한 다국어 성능, 문장 부호 기반 운율 제어 능력이 크게 개선되었습니다.
ChatGPT의 프로젝트 폴더 기능 사용 시 컨텍스트 격리가 완벽하지 않아 정보가 유출되는 현상이 발견되었습니다. 프로젝트 폴더 내 정보가 이후 생성되는 모든 스레드에 영향을 미치는 메모리 유출(memory bleed) 문제가 확인되었습니다.
로컬 LLM 채팅 로그를 분석하여 스스로 성능을 개선하는 자기 최적화(Self-optimizing) 에이전트 파이프라인을 소개합니다. 성찰 및 재작성 단계를 통해 추출된 교훈을 시스템 프롬프트에 자동으로 반영하여 에이전트의 능력을 지속적으로 향상시킵니다.
에이전트의 마크다운 스킬 파일을 학습 가능한 파라미터로 취급하여 최적화하는 SkillOpt 방법론을 소개합니다. 엄격한 검증 게이트를 통해 성능이 개선된 편집 사항만을 수용함으로써 효율적인 스킬 최적화를 달성합니다.
OSCAR는 2비트 KV 캐시 양자화를 위해 오프라인 스펙트럴 공분산 인식을 활용한 회전 행렬을 제안합니다. 이를 통해 모델의 성능 저하를 최소화하면서 KV 캐시 메모리 사용량을 약 7배 압축할 수 있습니다.
16GB VRAM 환경에서 Qwen3.6:27B 모델을 최적화하여 실행하는 방법과 성능을 분석합니다. MTP 양자화 및 레이어 오프로딩 설정을 통해 음성 비서 서비스에 적합한 추론 속도를 확보하는 과정을 다룹니다.
llama.cpp의 최신 b9274 버전에서 MTP(Multi-Token Prediction) 모델 사용 시 발생하는 VRAM 누수 문제가 해결되었습니다. 서버가 sleep 상태로 진입할 때 해제되지 않던 draft 리소스들을 명시적으로 정리하여 메모리 부족 오류를 방지합니다.
DeepSeek의 파격적인 저가 정책이 기존 미국 AI 기업들의 가격 결정력에 의문을 제기하며 시장의 거품론을 촉발했습니다. DeepSeek V4 Pro는 OpenAI와 Anthropic의 모델 대비 압도적으로 낮은 토큰 비용을 제시하며 마진 압박을 예고합니다.
에이전트 기반 코딩 시 컨텍스트 최적화를 위한 대화 기록 수정 과정에서 발생하는 전체 프롬프트 재처리 문제를 해결하기 위한 PR입니다. llama.cpp가 변경된 부분만 효율적으로 처리하도록 개선하여 에이전트의 반응성을 높였습니다.
Huawei Ascend NPU 환경에서 1.58비트 삼진 양자화 인식 학습(QAT)을 구현한 BitCPM-CANN 연구를 소개합니다. 기존 GPU 기반 파이프라인을 CANN 및 Megatron-LM으로 포팅하여, 전정밀도 모델 성능의 최대 97.2%를 유지하면서도 메모리 사용량을 획기적으로 줄였습니다.
사용자가 OpenAI의 지속적인 서비스 장애와 기능 결함을 보고했음에도 불구하고, 적절한 조치 없이 결제가 지속되고 보안 사고(계정 탈취)까지 발생한 사례를 다룹니다. 사용자는 기술적 분석을 제공하며 해결을 시도했으나 OpenAI의 미흡한 고객 지원과 인프라 문제를 비판합니다.
이미지가 포함된 긴 PDF 문서를 대상으로 시각 기능 LLM과 OCR 기반 파이프라인의 성능을 비교 벤치마킹한 연구입니다. Claude Sonnet 4.5를 활용해 정확도와 비용을 분석한 결과, 차트와 표가 많은 문서에서는 레이아웃 추출 기능이 포함된 OCR이 더 우수함을 확인했습니다.
llama.cpp 서버에 파일 읽기, 쓰기, 쉘 명령 실행 등 다양한 네이티브 도구가 포함된 실험적 플래그가 추가되었습니다. 이를 통해 별도의 복잡한 래퍼 없이도 llama-server를 미니 에이전트 하네스로 활용할 수 있습니다.
이번 주 급성장한 10개의 AI 관련 오픈소스 리포지토리를 소개합니다. AI 코딩 에이전트, 개인용 AI, 브라우저 자동화 및 로컬 개발 도구 등 최신 기술 트렌드를 반영한 프로젝트들이 포함되어 있습니다.
Llama.cpp가 Nvidia Blackwell GPU의 새로운 기능인 PDL(Programmatic Dependent Launch) 지원을 도입했습니다. 이를 통해 토큰 생성 단계에서 약 5~6%의 성능 향상을 기대할 수 있으며, 특정 빌드 플래그를 통해 활성화가 가능합니다.