Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
r/OpenAI Codex (search) 276건필터 해제
컨텍스트 윈도우의 한계를 극복하기 위해 디퓨전 모델의 점진적 렌더링 개념을 차용한 시맨틱 압축 방식을 제안합니다. 압축된 개요에서 세부 사항으로 나아가는 coarse-to-fine 접근법을 통해 비지역적 정보(Non-local information)를 보존하고자 합니다.
작은 규모의 로컬 모델이 복잡한 작업을 수행할 수 있도록 에이전트에게 전용 애플리케이션(워크플로우) 환경을 제공하는 아키텍처를 소개합니다. 에이전트가 특정 앱 내에서 제한된 도구와 컨텍스트를 사용하게 함으로써 모델의 성능 한계를 극복하고 정확도를 높이는 방법론을 다룹니다.
Claude Code 사용 시 정확성을 높이기 위해 '항상 증거(receipts)를 제시할 것'이라는 새로운 글로벌 지침을 설정하는 방법을 다룹니다. 모든 작업 결과에 대해 명령어 출력, 종료 코드, 온디스크 검증 등 기계적으로 검증 가능한 증거를 포함하도록 요구합니다.
가중치나 활성화 값에 접근할 필요 없이 로짓(logits)만을 활용해 파인튜닝된 LLM의 원문 데이터를 복구하는 CDD 기법을 제안합니다. 기존의 화이트박스 방식보다 효율적이며, 다양한 모델 규모에서 높은 원문 복구 성능을 입증했습니다.
PyTorch를 사용하여 249M 파라미터 규모의 MoE Transformer를 밑바닥부터 직접 구현한 연구 프로젝트입니다. GQA, SwiGLU, RoPE 등 현대적 LLM의 핵심 구성 요소를 직접 구현하여 모델 구조에 대한 깊은 이해를 목표로 합니다.
Sora의 서비스 중단 이후, 사용자가 대안으로 활용 중인 AI 영상 생성 도구 조합을 소개합니다. PixVerse, Runway, Kling을 활용하여 물리 법칙과 분위기를 구현하는 워크플로우를 공유합니다.
AI 모델을 단순한 엔진으로 보고, 이를 제어할 수 있는 구조(steering)와 설계 철학의 중요성을 강조합니다. 모델의 확률적 특성을 이해하고, 환각을 줄이며 일관성을 유지하기 위한 시스템 구축 원칙 5가지를 제시합니다.
Discord, Steam, Telegram 등 하드웨어 가속을 사용하는 앱들이 VRAM을 상당 부분 점유하여 LLM 구동에 방해가 될 수 있습니다. VRAM 부족 시 하드웨어 가속을 끄거나 앱을 종료하여 자원을 확보하는 방법을 제안합니다.
포르투갈에서 자체 개발한 9B 파라미터 규모의 LLM인 Amalia를 출시했습니다. Hugging Face를 통해 SFT 및 DPO 모델이 공개되었으며, Apache 2.0 라이선스를 따릅니다.
에이전트 워크플로우를 단순한 DAG 구조를 넘어 신경망(Neural networks)의 작동 원리와 유사하게 설계해야 한다는 제안입니다. 각 워크플로우 노드를 최소 학습 단위로 정의하고, 손실 함수와 파라미터 업데이트 개념을 도입하여 제어 가능한 에이전트 시스템을 구축하는 방법을 다룹니다.
AI 코딩 어시스턴트의 컨텍스트 유지 및 프로세스 관리 문제를 해결하기 위한 마크다운 기반 워크플로우 생성기 'ai-flow-anything'을 소개합니다. 디자인 우선 원칙을 적용하여 설계 승인 후 구현이 진행되도록 강제하며, 프로젝트 지식 베이스를 구축하여 도구 전환 시에도 컨텍스트를 유지합니다.
Mistral이 형식 검증 분야에 특화된 오픈 소스 모델 Leanstral 1.5를 출시했습니다. 6B의 활성 파라미터를 사용하여 수학적 증명 및 코드 검증에서 최첨단 성능을 보여줍니다.
Vox는 다양한 STT/TTS 모델을 통합하여 단일 API로 제공하는 음성 전용 로컬 런타임입니다. OpenAI 호환 엔드포인트를 지원하며, WebRTC를 통해 실시간 음성 처리 및 스트리밍 기능을 제공합니다.
openlumara는 로컬 모델의 성능을 극대화하기 위해 밑바닥부터 구축된 초고효율 토큰 프레임워크입니다. OpenAI API 규격을 지원하여 koboldlite와 같은 기존 UI를 통해 로컬 모델을 효율적으로 제어할 수 있게 해줍니다.
DVA(Deterministic Verified Application)는 대규모 아카이브 및 소프트웨어 처리 시 AI의 임의적인 수정을 방지하는 제어된 시스템입니다. 승인된 변경 사항만을 적용하고 나머지는 보존하며, 실행 후 결과를 검증하여 데이터 드리프트를 방지합니다.
MathFormer는 4M 파라미터의 작은 seq2seq 모델로 기호 수학 작업에서 98.6%의 높은 정확도를 달성했습니다. 이는 모델이 수학적 추론 대신 구조적 토큰 변환 패턴을 학습할 가능성을 시사하며, LLM의 수학적 능력에 대한 새로운 시각을 제공합니다.
로컬 에이전트 코딩 시 발생하는 긴 컨텍스트의 프롬프트 처리(PP) 성능 저하를 해결하기 위해, DGX Spark를 프리필(Prefill) 전용으로, Strix Halo를 디코드(Decode) 전용으로 사용하는 분산 파이프라인 구축 사례를 소개합니다.
로컬 AI 코딩 에이전트의 개인정보 보호 문제를 해결하기 위한 커널 레벨 감사 도구인 SentryCode를 공개했습니다. 이 도구는 허니토큰과 스테가노그래피 탐지 기술을 활용하여 데이터 유출을 방지하고 보안 로그를 제공합니다.
레이블이 매우 부족한 환경에서 프롬프트와 분류기를 개선하는 자율 모델 엔지니어 Gnosys를 소개합니다. Gnosys는 기존의 GEPA 방식보다 뛰어난 성능을 보이며, 희소한 데이터 환경에서도 목적 함수를 직접 설계하여 최적화를 수행합니다.
AI 에이전트 간의 상호 발견과 신뢰 검증을 위한 규격인 LAD-A2A와 Google의 ARD를 비교 분석합니다. 로컬 네트워크와 인터넷 규모에서 에이전트가 서로를 식별하고 안전하게 통신하기 위한 표준화된 레이어의 필요성을 강조합니다.