본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

r/OpenAI Codex (search) 276건필터 해제

API 크레딧을 낭비하고 VRAM을 점유하는 로컬 에이전트의 무한 루프에 지쳐서, 이를 자동으로 동결하는 오픈 소스 eBPF 서킷 브레이커를

로컬 AI 에이전트의 무한 루프로 인한 API 크레딧 낭비와 VRAM 점유 문제를 해결하기 위해 eBPF 기반의 오픈 소스 서킷 브레이커인 KernelCap을 소개합니다. Linux 커널 수준에서 폭주하는 워크로드를 실시간으로 감지하고 프로세스를 즉각 동결하여 자원을 보호합니다.

8-16 MI50s를 이용한 MiniMax M3 성능: 최대 19 tps TG

AMD MI50 GPU를 사용하여 MiniMax M3 모델의 성능을 측정한 결과, MTP 적용 시 최대 19 tps TG를 기록했습니다. 하드웨어 스택 최적화를 통해 성능 향상 여지가 있으나, 에이전트 기반 코딩용으로는 다소 부족한 성능을 보였습니다.

TSAuditor: 시계열 감사 프레임워크 [P]

시계열 데이터의 결측치, 데이터 누수, 연대순 순서 오류 등을 자동으로 탐지하는 검증 프레임워크 TSAuditor를 소개합니다. 표준 프로파일링 도구가 놓치기 쉬운 시계열 특유의 오류를 잡아내고 수정 방안을 제안합니다.

LLM 내부 구조에 관한 15부작 무료 시리즈를 작성했습니다 — 실제 수학, 실제 텐서 형상(Tensor Shapes), 실제 하드웨어 제약

Gemma 4 12B를 사례로 토큰화부터 추론, 학습, 양자화까지 LLM의 전체 스택을 심층 분석하는 15부작 시리즈를 소개합니다. 수학적 원리와 실제 텐서 형상, 하드웨어 제약 사항을 다루며 모델의 내부 동작을 상세히 설명합니다.

DVD-JEPA: 오픈 소스 기반의 완전 재현 가능한 JEPA 월드 모델

DVD-JEPA는 픽셀 예측 대신 미래의 표현(representation)을 예측하는 JEPA 아키텍처를 구현한 오픈 소스 월드 모델 연구입니다. 단순한 DVD 로고 움직임을 통해 세계 모델의 학습, 비디오 렌더링, 이상 탐지 능력을 성공적으로 증명했습니다.

안녕하세요 Reddit 여러분, ML, LLM 및 수학적 직관을 가르치는 '나만의 LLM 만들기' 워크숍을 YouTube에 게시했습니다

수학적 지식 없이도 LLM을 구축할 수 있도록 돕는 YouTube 워크숍을 소개합니다. 머신러닝 기초부터 트랜스포머 아키텍처, 사전/사후 학습까지 전 과정을 코드와 엑셀 예제로 다룹니다.

2026년 6월 diffusiongemma 공동 호스팅 비용에 대한 대략적인 계산

2026년 diffusiongemma 공동 호스팅 시 예상되는 사용자별 토큰 사용량에 따른 비용을 분석합니다. 사용 패턴에 따라 비용이 급격히 변하며, 에이전트형 AI의 높은 토큰 사용량은 현재의 공동 호스팅 경제성으로는 지속 불가능하다고 전망합니다.

이제 저는 작업에 따라 세 가지 어시스턴트를 전환하며 사용합니다, ChatGPT의 점유율이 마침내 절반 아래로 떨어졌습니다

ChatGPT의 글로벌 점유율이 처음으로 50% 미만으로 하락하며 Gemini와 Claude의 점유율이 상승했습니다. 사용자들이 특정 서비스에 충성하기보다 작업 성격에 따라 적절한 AI 모델을 선택하여 사용하는 '멀티 어시스턴트' 경향이 뚜렷해지고 있습니다.

시계열 모델링에는 동역학계 (Dynamical Systems) 관점이 필요합니다

시계열(TS) 모델링의 발전을 위해 동역학계(Dynamical Systems) 관점을 도입해야 한다는 ICML 2026 포지션 페이퍼를 소개합니다. 단순 예측을 넘어 시스템의 근저에 있는 동역학적 규칙을 이해함으로써 도메인 외 일반화와 장기 예측 성능을 높이는 방안을 제안합니다.

Next-Latent Prediction Transformers [R]

Microsoft Research가 제안한 NextLat은 트랜스포머가 다음 토큰 대신 다음 잠재 상태를 예측하도록 학습하는 자기지도 학습 방법론입니다. 이를 통해 압축된 세계 모델을 형성하여 추론과 계획 능력을 향상시키고, 자기 투기적 디코딩을 통해 추론 속도를 최대 3.3배 높입니다.

AI 언어 모델은 선호하는 이름이 있으며, 우리는 이를 매핑했습니다

LLM이 특정 캐릭터 이름에 대해 강력한 사전 확률을 가지고 있어, 모델별로 선호하는 이름 조합이 존재한다는 연구 결과입니다. 특정 이름들이 앙상블 형태로 함께 나타나며, 이는 모델의 환각 현상과도 연관될 수 있습니다.

향후 6시간 동안 Hugging Face에서 GLM-5.2 추론(Inference) 무료 제공

Hugging Face에서 향후 6시간 동안 GLM-5.2 모델의 추론 기능을 무료로 제공합니다. 사용자는 제공된 링크를 통해 해당 모델을 직접 테스트해 볼 수 있습니다.

ChatGPT의 시장 점유율, 처음으로 50% 미만으로 하락

OpenAI의 ChatGPT 시장 점유율이 Google과 Anthropic의 경쟁 심화로 인해 처음으로 50% 미만인 46.4%로 하락했습니다. 점유율은 낮아졌으나 ChatGPT는 여전히 가장 큰 개별 플레이어로서 월간 활성 사용자 수 11억 명을 기록하고 있습니다.

새로운 에이전트 벤치마크 출시: Claude Fable 및 GLM 5.2가 해당 그룹에서 최고 기록 달성

Artificial Analysis에서 LLM의 계획 및 실행 능력을 평가하는 새로운 벤치마크를 출시했습니다. Claude Fable과 GLM 5.2가 해당 테스트에서 최고 성능을 기록했습니다.

로컬 AI 음성 비서가 점점 멍청해지는 과정 관찰 (내 RTX 5060 Ti에서 진행한 9B에서 0.8B 에이전트 실험)

소비자용 하드웨어에서 로컬 음성 비서 에이전트를 실행할 때 모델 크기에 따른 성능 변화를 실험했습니다. Qwen 3.5 모델을 9B부터 0.8B까지 단계적으로 축소하며 추론 및 도구 사용 능력을 관찰했습니다.

hubert.cpp, distilHuBERT의 C++ 구현체 [P]

distilHuBERT의 C++ 구현체인 hubert.cpp를 소개합니다. 런타임 의존성 없이 가중치가 컴파일되어 포함되어 있으며, onnxruntime과 대등한 성능을 제공합니다.

새로운 기능: Learning blocks

OpenAI의 새로운 기능인 'Learning blocks'는 사용자가 변수를 직접 조정하며 개념을 익힐 수 있는 상호작용형 교육 도구입니다. 기존 위젯이 외부 정보를 표시하는 데 중점을 두었다면, Learning blocks는 슬라이더 등을 통해 실시간으로 설정을 변경하며 학습할 수 있는 독립적인 구조를 가집니다.

컴퓨터 사용 에이전트가 클릭을 위해 스크린샷에 의존하는 현상: OS가 직접 제공할 수 있는 정보

컴퓨터 사용 에이전트가 스크린샷에만 의존하는 대신, OS의 접근성 트리(Accessibility Tree)를 활용하여 효율성을 높이는 방안을 제시합니다. 트리를 통한 결정론적 조회를 우선시하면 속도와 비용 측면에서 큰 이점을 얻을 수 있습니다.

GameCraft-Bench: 에이전트가 실제 게임 엔진에서 엔드투엔드(End-to-End)로 플레이 가능한 게임을 제작할 수 있는가?

에이전트가 실제 게임 엔진을 사용하여 엔드투엔드로 게임을 제작할 수 있는지 평가하는 새로운 벤치마크인 GameCraft-Bench를 소개합니다. Opus-4.7, GPT-5.5 등 최신 대형 모델들의 성능을 측정하며, 향후 중간 크기 모델들의 발전 가능성을 논의합니다.

GPU에서의 두려움 없는 동시성: Rust를 이용한 안전한 GPU 추론, vLLM/SGLang과 경쟁 가능한 수준

Rust의 소유권 모델을 GPU 커널 작성에 도입하여 메모리 안전성과 데이터 경합 방지를 보장하는 cuTile Rust와 추론 엔진 Grout를 소개합니다. vLLM/SGLang과 경쟁 가능한 수준의 성능을 보여주며, 안전한 커널 작성이 성능 저하 없이 가능함을 입증했습니다.

이전5 / 14다음