본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

r/OpenAI Codex (search) 276건필터 해제

5090 (600, 475, 400W) vs 6000 PRO MaxQ (325W), 그리고 6000 PRO WS/SE (600W)의 전체 연산

5090, 6000 PRO MaxQ, 6000 PRO WS/SE 등 다양한 GPU 모델의 Diffusion 연산 성능을 비교 분석한 테스트 결과입니다. 각 그래픽 카드의 전력 제한 범위와 언더볼팅/오버클러킹 적용 여부에 따른 성능 차이를 다룹니다.

18년 된 RTOS 내부의 에뮬레이션된 90년대 CPU에서 실행되는 260K 파라미터 LLM

18년 된 RTOS와 90년대 CPU 에뮬레이터 환경에서 260K 파라미터 규모의 초소형 LLM을 실행하는 데 성공한 프로젝트입니다. FPU가 없는 환경을 극복하기 위해 INT8 양자화와 정수 연산 최적화 기법을 적용했습니다.

AI가 생성한 CUDA 커널이 학습과 추론을 조용히 망가뜨리는 현상

NVIDIA가 공개한 SOL-ExecBench 벤치마크를 통해 AI가 생성한 CUDA 커널의 성능 문제를 분석합니다. 실제 운영 환경에서 AI 생성 커널이 학습과 추론 성능을 저하시킬 수 있음을 보여줍니다.

순수 Triton으로 구현한 Fused MoE dispatch kernel: Megablocks의 89-131% 성능 구현 및 코드 변경 없이

CUDA 없이 Triton만으로 구현한 Fused MoE dispatch kernel을 소개합니다. Megablocks 대비 89-131%의 성능을 달성했으며, 메모리 트래픽을 35% 절감하고 AMD MI300X에서도 코드 변경 없이 동작합니다.

SWE-rebench 리더보드 (2026년 3월, 4월, 5월): GPT-5.5, Opus 4.7, Cursor (Composer 2.5)

SWE-rebench 리더보드가 110개의 새로운 Python 작업을 포함하여 업데이트되었습니다. 모델이 실제 GitHub PR 이슈를 해결하고 테스트를 통과하는 능력을 평가하며, 향후 소형 모델 추가 및 다국어 작업 지원을 계획하고 있습니다.

OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face

MOSS-TTS-v1.5는 제로샷 음성 복제와 다국어 합성을 지원하는 최신 음성 합성 모델입니다. 1.0 버전 대비 음성 복제의 안정성과 언어 태그를 통한 다국어 성능, 문장 부호 기반 운율 제어 능력이 크게 개선되었습니다.

ChatGPT 프로젝트 폴더는 무엇을 하든 컨텍스트(Context)가 유출된다는 사실이 명백해졌습니다.

ChatGPT의 프로젝트 폴더 기능 사용 시 컨텍스트 격리가 완벽하지 않아 정보가 유출되는 현상이 발견되었습니다. 프로젝트 폴더 내 정보가 이후 생성되는 모든 스레드에 영향을 미치는 메모리 유출(memory bleed) 문제가 확인되었습니다.

로컬 에이전트를 자기 최적화(Self-optimizing) 에이전트로 전환하기

로컬 LLM 채팅 로그를 분석하여 스스로 성능을 개선하는 자기 최적화(Self-optimizing) 에이전트 파이프라인을 소개합니다. 성찰 및 재작성 단계를 통해 추출된 교훈을 시스템 프롬프트에 자동으로 반영하여 에이전트의 능력을 지속적으로 향상시킵니다.

SkillOpt: 마크다운 스킬 파일을 적절한 최적화 메커니즘을 갖춘 학습 가능한 파라미터로 취급

에이전트의 마크다운 스킬 파일을 학습 가능한 파라미터로 취급하여 최적화하는 SkillOpt 방법론을 소개합니다. 엄격한 검증 게이트를 통해 성능이 개선된 편집 사항만을 수용함으로써 효율적인 스킬 최적화를 달성합니다.

OSCAR RotationZoo: 2비트 KV 캐시 양자화(Quantization)를 위한 오프라인 스펙트럴 공분산 인식 회전 행렬

OSCAR는 2비트 KV 캐시 양자화를 위해 오프라인 스펙트럴 공분산 인식을 활용한 회전 행렬을 제안합니다. 이를 통해 모델의 성능 저하를 최소화하면서 KV 캐시 메모리 사용량을 약 7배 압축할 수 있습니다.

Qwen3.6:27B 16GB VRAM 5080: MTP 양자화(Quant), 속도 및 설정

16GB VRAM 환경에서 Qwen3.6:27B 모델을 최적화하여 실행하는 방법과 성능을 분석합니다. MTP 양자화 및 레이어 오프로딩 설정을 통해 음성 비서 서비스에 적합한 추론 속도를 확보하는 과정을 다룹니다.

최신 b9274 버전에서 MTP VRAM 누수 문제 해결

llama.cpp의 최신 b9274 버전에서 MTP(Multi-Token Prediction) 모델 사용 시 발생하는 VRAM 누수 문제가 해결되었습니다. 서버가 sleep 상태로 진입할 때 해제되지 않던 draft 리소스들을 명시적으로 정리하여 메모리 부족 오류를 방지합니다.

DeepSeek가 미국의 AI 거품을 터뜨렸다

DeepSeek의 파격적인 저가 정책이 기존 미국 AI 기업들의 가격 결정력에 의문을 제기하며 시장의 거품론을 촉발했습니다. DeepSeek V4 Pro는 OpenAI와 Anthropic의 모델 대비 압도적으로 낮은 토큰 비용을 제시하며 마진 압박을 예고합니다.

server: jacekpoplawski에 의한 체크포인트 생성 수정 · Pull Request #22929 ·

에이전트 기반 코딩 시 컨텍스트 최적화를 위한 대화 기록 수정 과정에서 발생하는 전체 프롬프트 재처리 문제를 해결하기 위한 PR입니다. llama.cpp가 변경된 부분만 효율적으로 처리하도록 개선하여 에이전트의 반응성을 높였습니다.

BitCPM-CANN: Ascend NPU 기반의 네이티브 1.58비트 대규모 언어 모델(LLM) 학습

Huawei Ascend NPU 환경에서 1.58비트 삼진 양자화 인식 학습(QAT)을 구현한 BitCPM-CANN 연구를 소개합니다. 기존 GPU 기반 파이프라인을 CANN 및 Megatron-LM으로 포팅하여, 전정밀도 모델 성능의 최대 97.2%를 유지하면서도 메모리 사용량을 획기적으로 줄였습니다.

실시간 자격 증명 탈취를 보고한 후 OpenAI로부터 차단당했습니다. 그들은 내 계정이 고장 났음을 서면으로 인정했습니다. 여기 7개월간의

사용자가 OpenAI의 지속적인 서비스 장애와 기능 결함을 보고했음에도 불구하고, 적절한 조치 없이 결제가 지속되고 보안 사고(계정 탈취)까지 발생한 사례를 다룹니다. 사용자는 기술적 분석을 제공하며 해결을 시도했으나 OpenAI의 미흡한 고객 지원과 인프라 문제를 비판합니다.

시각 기능이 있는 LLM vs. OCR: 긴 문서(차트, 이미지, 표 포함) QA 비교

이미지가 포함된 긴 PDF 문서를 대상으로 시각 기능 LLM과 OCR 기반 파이프라인의 성능을 비교 벤치마킹한 연구입니다. Claude Sonnet 4.5를 활용해 정확도와 비용을 분석한 결과, 차트와 표가 많은 문서에서는 레이아웃 추출 기능이 포함된 OCR이 더 우수함을 확인했습니다.

llama.cpp 서버에 내장된 네이티브 도구 (exec_shell, edit_file 등) 탑재

llama.cpp 서버에 파일 읽기, 쓰기, 쉘 명령 실행 등 다양한 네이티브 도구가 포함된 실험적 플래그가 추가되었습니다. 이를 통해 별도의 복잡한 래퍼 없이도 llama-server를 미니 에이전트 하네스로 활용할 수 있습니다.

이번 주 가장 빠르게 성장하는 AI 리포지토리(repos) Top 10

이번 주 급성장한 10개의 AI 관련 오픈소스 리포지토리를 소개합니다. AI 코딩 에이전트, 개인용 AI, 브라우저 자동화 및 로컬 개발 도구 등 최신 기술 트렌드를 반영한 프로젝트들이 포함되어 있습니다.

Blackwell 및 PDL 성능 향상

Llama.cpp가 Nvidia Blackwell GPU의 새로운 기능인 PDL(Programmatic Dependent Launch) 지원을 도입했습니다. 이를 통해 토큰 생성 단계에서 약 5~6%의 성능 향상을 기대할 수 있으며, 특정 빌드 플래그를 통해 활성화가 가능합니다.

이전13 / 14다음