본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

r/OpenAI Codex (search) 276건필터 해제

제안: 컨텍스트 윈도우(Context Window)보다 큰 세션을 읽기 위해 시맨틱 압축(Semantic Compression)을 입력

컨텍스트 윈도우의 한계를 극복하기 위해 디퓨전 모델의 점진적 렌더링 개념을 차용한 시맨틱 압축 방식을 제안합니다. 압축된 개요에서 세부 사항으로 나아가는 coarse-to-fine 접근법을 통해 비지역적 정보(Non-local information)를 보존하고자 합니다.

semantic-compressioncontext-windowdiffusion-inspiredllm-efficiency

더 작은 모델이 더 큰 작업을 더 효과적으로 수행하도록 만드는 "애플리케이션" 활용법

작은 규모의 로컬 모델이 복잡한 작업을 수행할 수 있도록 에이전트에게 전용 애플리케이션(워크플로우) 환경을 제공하는 아키텍처를 소개합니다. 에이전트가 특정 앱 내에서 제한된 도구와 컨텍스트를 사용하게 함으로써 모델의 성능 한계를 극복하고 정확도를 높이는 방법론을 다룹니다.

LLM에게 유머 감각이 없다고 말할 수는 없을 것이다

Claude Code 사용 시 정확성을 높이기 위해 '항상 증거(receipts)를 제시할 것'이라는 새로운 글로벌 지침을 설정하는 방법을 다룹니다. 모든 작업 결과에 대해 명령어 출력, 종료 코드, 온디스크 검증 등 기계적으로 검증 가능한 증거를 포함하도록 요구합니다.

Contrastive Decoding Diffing (CDD): 가중치 접근 없이 로짓(logits)만으로 파인튜닝(finetuning)된

가중치나 활성화 값에 접근할 필요 없이 로짓(logits)만을 활용해 파인튜닝된 LLM의 원문 데이터를 복구하는 CDD 기법을 제안합니다. 기존의 화이트박스 방식보다 효율적이며, 다양한 모델 규모에서 높은 원문 복구 성능을 입증했습니다.

H64LM: PyTorch로 밑바닥부터 구현한 249M 파라미터 Mixture-of-Experts Transformer

PyTorch를 사용하여 249M 파라미터 규모의 MoE Transformer를 밑바닥부터 직접 구현한 연구 프로젝트입니다. GQA, SwiGLU, RoPE 등 현대적 LLM의 핵심 구성 요소를 직접 구현하여 모델 구조에 대한 깊은 이해를 목표로 합니다.

Sora가 중단되었습니다. 저는 다시 원점으로 돌아왔습니다. 현재 제가 사용 중인 도구들입니다.

Sora의 서비스 중단 이후, 사용자가 대안으로 활용 중인 AI 영상 생성 도구 조합을 소개합니다. PixVerse, Runway, Kling을 활용하여 물리 법칙과 분위기를 구현하는 워크플로우를 공유합니다.

다섯 가지 법칙으로 정리한 PrimeTalk의 AI 철학

AI 모델을 단순한 엔진으로 보고, 이를 제어할 수 있는 구조(steering)와 설계 철학의 중요성을 강조합니다. 모델의 확률적 특성을 이해하고, 환각을 줄이며 일관성을 유지하기 위한 시스템 구축 원칙 5가지를 제시합니다.

주의하세요: 몇몇 채팅 앱들이 VRAM 1GB를 점유하고 있습니다

Discord, Steam, Telegram 등 하드웨어 가속을 사용하는 앱들이 VRAM을 상당 부분 점유하여 LLM 구동에 방해가 될 수 있습니다. VRAM 부족 시 하드웨어 가속을 끄거나 앱을 종료하여 자원을 확보하는 방법을 제안합니다.

포르투갈이 자체 LLM인 Amalia (9B)를 출시했습니다!

포르투갈에서 자체 개발한 9B 파라미터 규모의 LLM인 Amalia를 출시했습니다. Hugging Face를 통해 SFT 및 DPO 모델이 공개되었으며, Apache 2.0 라이선스를 따릅니다.

에이전트 워크플로우(Agent workflows)는 단순히 DAG로 오케스트레이션되는 것이 아니라 신경망(Neural networks)처럼

에이전트 워크플로우를 단순한 DAG 구조를 넘어 신경망(Neural networks)의 작동 원리와 유사하게 설계해야 한다는 제안입니다. 각 워크플로우 노드를 최소 학습 단위로 정의하고, 손실 함수와 파라미터 업데이트 개념을 도입하여 제어 가능한 에이전트 시스템을 구축하는 방법을 다룹니다.

AI 페어 프로그래밍(AI pair programming)에는 프로세스 문제가 있습니다 — 제가 만든 해결책

AI 코딩 어시스턴트의 컨텍스트 유지 및 프로세스 관리 문제를 해결하기 위한 마크다운 기반 워크플로우 생성기 'ai-flow-anything'을 소개합니다. 디자인 우선 원칙을 적용하여 설계 승인 후 구현이 진행되도록 강제하며, 프로젝트 지식 베이스를 구축하여 도구 전환 시에도 컨텍스트를 유지합니다.

Mistral, Leanstral-1.5-119B-A6B 출시

Mistral이 형식 검증 분야에 특화된 오픈 소스 모델 Leanstral 1.5를 출시했습니다. 6B의 활성 파라미터를 사용하여 수학적 증명 및 코드 검증에서 최첨단 성능을 보여줍니다.

Vox 소개: 실시간 음성 레이어를 갖춘 '음성용 Ollama'

Vox는 다양한 STT/TTS 모델을 통합하여 단일 API로 제공하는 음성 전용 로컬 런타임입니다. OpenAI 호환 엔드포인트를 지원하며, WebRTC를 통해 실시간 음성 처리 및 스트리밍 기능을 제공합니다.

openlumara: 직접 코딩한 초고효율 토큰 프레임워크, 이제 OpenAI 엔드포인트에 연결 가능한 모든 UI(koboldlite

openlumara는 로컬 모델의 성능을 극대화하기 위해 밑바닥부터 구축된 초고효율 토큰 프레임워크입니다. OpenAI API 규격을 지원하여 koboldlite와 같은 기존 UI를 통해 로컬 모델을 효율적으로 제어할 수 있게 해줍니다.

대규모 아카이브 처리 시 AI가 콘텐츠를 망치는 것을 방지하는 새로운 도구

DVA(Deterministic Verified Application)는 대규모 아카이브 및 소프트웨어 처리 시 AI의 임의적인 수정을 방지하는 제어된 시스템입니다. 승인된 변경 사항만을 적용하고 나머지는 보존하며, 실행 후 결과를 검증하여 데이터 드리프트를 방지합니다.

MathFormer: 기호 수학 (Symbolic Math)이 패턴 매칭인지 추론인지에 대한 테스트

MathFormer는 4M 파라미터의 작은 seq2seq 모델로 기호 수학 작업에서 98.6%의 높은 정확도를 달성했습니다. 이는 모델이 수학적 추론 대신 구조적 토큰 변환 패턴을 학습할 가능성을 시사하며, LLM의 수학적 능력에 대한 새로운 시각을 제공합니다.

분산된 프롬프트 처리를 위한 Red와 Green 팀의 결합

로컬 에이전트 코딩 시 발생하는 긴 컨텍스트의 프롬프트 처리(PP) 성능 저하를 해결하기 위해, DGX Spark를 프리필(Prefill) 전용으로, Strix Halo를 디코드(Decode) 전용으로 사용하는 분산 파이프라인 구축 사례를 소개합니다.

SentryCode: AI 코딩 에이전트를 위한 실시간 감사 도구 및 허니토큰 (Honeytokens)

로컬 AI 코딩 에이전트의 개인정보 보호 문제를 해결하기 위한 커널 레벨 감사 도구인 SentryCode를 공개했습니다. 이 도구는 허니토큰과 스테가노그래피 탐지 기술을 활용하여 데이터 유출을 방지하고 보안 로그를 제공합니다.

레이블이 부족할 때 최적화(Optimization)를 성공시키는 방법 [R]

레이블이 매우 부족한 환경에서 프롬프트와 분류기를 개선하는 자율 모델 엔지니어 Gnosys를 소개합니다. Gnosys는 기존의 GEPA 방식보다 뛰어난 성능을 보이며, 희소한 데이터 환경에서도 목적 함수를 직접 설계하여 최적화를 수행합니다.

지난 1월에 로컬 에이전트 발견 규격을 발표했습니다. 이번 주 Google이 인터넷 규모에서 동일한 핵심 아이디어를 발표했습니다.

AI 에이전트 간의 상호 발견과 신뢰 검증을 위한 규격인 LAD-A2A와 Google의 ARD를 비교 분석합니다. 로컬 네트워크와 인터넷 규모에서 에이전트가 서로를 식별하고 안전하게 통신하기 위한 표준화된 레이어의 필요성을 강조합니다.

1 / 14다음