Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
Pair를 넘어서: 언어 모델은 비밀리에 선호도 그래프를 최적화합니다
본 기사는 기존의 직접 선호도 최적화(DPO)가 쌍별 비교에 의존하는 한계를 지적하며, 실제 환경에서 발생하는 풍부한 롤아웃 순위 데이터를 활용하기 위한 새로운 방법론을 제안합니다. 이 방법은 '그래프 직접 선호도 최적화(Graph Direct Preference Optimization, GraphDPO)'를 도입하여, 데이터 내의 복잡한 지배 관계를 방향성 비순환 그래프로 모델링하고 이를 통해 언어 모델 정렬의 정확성과 견고성을 높입니다.
기억의 저주: LLM 에이전트의 협력적 의도를 훼손하는 확장된 회상
본 논문은 LLM 에이전트가 다중 에이전트 환경에서 컨텍스트 창 확장이 오히려 협력적 의도를 저해하는 '기억의 저주(memory curse)' 현상을 발견했습니다. 500라운드 이상의 실험 결과, 접근 가능한 히스토리 증가는 상당수의 모델-게임 설정에서 협력을 떨어뜨리는 패턴을 보였습니다. 연구진은 이 실패가 단순한 편집증 증가보다는 에이전트의 미래 지향적 의도 침식과 관련되어 있음을 분석하고, 이를 검증하기 위해 미래 지향적인 내용으로만 훈련된 LoRA 어댑터를 제안했습니다.
Kronecker에 얽매이지 마세요: 고차원 불완전 격자에서의 가우시안 프로세스
본 기술 기사는 고차원 환경에서 수치적으로 정확한 가우시안 프로세스 회귀(GPR)를 수행하는 새로운 방법인 CUTS-GPR을 소개합니다. CUTS-GPR은 훈련 데이터 양($N$)에 대해서는 준선형 또는 선형 스케일링, 차원($D$)에 대해서는 저차 다항식 스케일링을 보이는 매우 빠른 커널 행렬-벡터 곱셈을 핵심으로 합니다. 이 방법은 가산성 커널과 불완전 격자 구조적 특성을 결합하여 고차원 포텐셜 에너지 표면의 베이지안 모델링을 가능하게 하며, 계산 화학 분야의 난제를 해결할 잠재력을 보여줍니다.
루브릭 기반 강화학습 (RL): 일반화 가능한 추론을 위한 구조화된 심사위원 보상
본 기술 기사는 '루브릭 기반 강화학습(rubric-grounded reinforcement learning)'이라는 새로운 프레임워크를 제안합니다. 이 방법은 LLM 심사위원을 활용하여 응답을 여러 개의 가중치 부여되고 검증 가능한 기준(루브릭)으로 분해하고, 각 기준별로 점수를 매겨 부분 점수 최적화 신호를 제공하는 것이 핵심입니다. 이를 통해 정책이 단일한 전체 점수가 아닌 구조적이고 다중 기준의 보상에 따라 최적화될 수 있도록 합니다.
CA-SQL: 탐색 및 컴퓨팅 예산 할당을 통한 텍스트-투-SQL의 복잡도 인식 추론 시간 추론
CA-SQL은 텍스트 기반 질문으로부터 SQL 쿼리를 생성하는 Text-to-SQL 작업의 성능 한계를 극복하기 위해 개발된 새로운 파이프라인입니다. 이 방법론은 작업의 추정 난이도를 활용하여 솔루션 후보를 탐색하는 폭을 동적으로 조정함으로써, 기존 모델들이 어려움을 겪는 복잡한 시나리오에서 더 정확하고 효율적인 SQL 쿼리를 생성할 수 있도록 합니다.
Flow-OPD: Flow Matching 모델을 위한 On-Policy Distillation
본 논문은 기존 Flow Matching (FM) 기반의 텍스트-이미지 생성 모델이 직면하는 보상 희소성 및 기울기 간섭 문제를 해결하기 위해 'Flow-OPD'라는 새로운 온-정책 증류(On-Policy Distillation) 사후 훈련 프레임워크를 제안합니다. Flow-OPD는 단일 보상 GRPO 미세 조정을 통해 도메인 특화 교사 모델들을 육성하고, 이를 활용하여 범용적인 텍스트-이미지 모델의 정렬 성능을 향상시킵니다.
지수 효용을 위한 강화학습: 할인된 MDP에서의 알고리즘 및 수렴성
본 논문은 할인된 마르코프 결정 과정(MDP)에서 지수 효용을 최대화하는 강화학습(RL)의 이론적 문제를 다룹니다. 기존 가치 기반 알고리즘의 부족함을 해결하기 위해, 연구진은 고정 위험 회피 설정 하에 두 가지 Q-값 스타일 확장을 제시합니다. 이 확장들은 각각 $L_ ext{inf}$ 및 sup-log/Thompson 메트릭에서 수축 연산자임을 증명하며, 이를 통해 유도된 탐욕적 정상 정책이 지수 효용 목표를 달성하는 최적의 정상 정책임을 수학적으로 입증합니다.
VecCISC: 추론 과정 클러스터링 및 후보 답변 선택을 통한 신뢰도 기반 자기 일관성 개선
본 기사는 대규모 언어 모델(LLM)의 추론 시간 성능 개선 기법인 Self-Consistency를 다루며, 특히 후보 답변에 신뢰도 값을 할당하여 가중치 다수결 투표를 수행하는 CISC 방식의 정확성을 설명합니다. 하지만 이 과정에서 각 후보의 추론 과정을 비평가 LLM(critic LLM)을 호출하여 점수를 매겨야 하므로, 오버헤드와 비용이 크게 증가하는 문제가 있습니다.
LLMs가 LLM을 개선하다: 테스트 시간 스케일링(Test-Time Scaling)을 위한 에이전트적 탐색
본 논문은 대규모 언어 모델(LLM)의 성능을 향상시키는 테스트 시간 스케일링(Test-time scaling, TTS) 기법에 대한 새로운 접근 방식인 AutoTTS를 제안합니다. 기존 TTS 전략들이 수작업으로 설계되어 탐색 공간이 제한적이었던 문제를 해결하기 위해, AutoTTS는 LLM이 최적의 자원 할당을 자동으로 발견할 수 있는 환경 기반 프레임워크를 제공합니다.
EmambaIR: 이벤트 기반 이미지 재구성을 위한 효율적인 시각 상태 공간 모델
EmambaIR은 이벤트 기반 이미지 재구성을 위해 설계된 효율적인 시각 상태 공간 모델(SSM)입니다. 기존의 CNN이나 ViT 기반 방법들이 가지는 전역적 특징 포착의 어려움과 높은 시간 복잡도 문제를 해결합니다. 이 프레임워크는 크로스 모달 Top-k Sparse Attention Module (TSAM)과 Gated State-Space Module (GS)를 도입하여 공간적으로 희소하고 시간적으로 연속적인 이벤트 스트림을 효율적으로 처리하며 고해상도 재구성을 가능하게 합니다.
【GitHub 일보】 AI 에이전트의 메모리 문제를 해결하는 agentmemory, 7MB의 경량 AI 터미널도 — 2026-05-11
본 기사는 GitHub 트렌드에서 주목할 만한 두 가지 개발 리포지토리를 소개합니다. 첫 번째는 AI 코딩 에이전트가 세션 간 문맥을 자동으로 저장하고 검색하여 토큰 소모를 획기적으로 줄여주는 'agentmemory'입니다. 두 번째는 Rust, Tauri, React로 구축된 경량(7MB)의 고성능 AI 터미널 에뮬레이터인 'terax-ai'입니다.
Normalizing Trajectory Models
Normalizing Trajectory Models (NTM)는 확산 기반 모델의 샘플링 과정에서 발생하는 우도(likelihood) 손실 문제를 해결하기 위해 제안된 새로운 프레임워크입니다. 기존 방법들이 증류나 일관성 훈련을 통해 소수 단계로 압축하는 과정에서 정확한 우도 학습 능력을 포기했던 것과 달리, NTM은 각 역방향 단계를 표현력 있는 조건부 정규화 흐름(conditional normalizing flow)으로 모델링합니다. 이를 통해 확산 모델의 생성 과정을 유지하면서도 이론적으로 정확하고 높은 우도를 갖는 샘플링이 가능하게 합니다.
마당의 난장판에 절망하는 것을 멈추고 AI 사이드 프로젝트를 시작하게 된 방법
집주인이 부실하게 계획한 마당 정원 청소 경험을 통해, 필자는 높은 비용과 노동력 문제에 직면하며 더 나은 해결책의 필요성을 느꼈습니다. 이 글은 단순히 문제를 발견하는 단계(엔트리 #0)로, 향후 OpenAI API 툴을 활용하여 시각적 컨셉과 식재 제안을 프로그래밍 방식으로 생성하는 AI 사이드 프로젝트를 시작할 계획을 소개합니다.
핫 테이크: '에이전트 AI'는 제품 카테고리가 아니다. 이것은 *보안 태세(security posture)* 문제이다.
본 기사는 '에이전트 AI'를 단순한 제품 카테고리로 보는 시각에 반대하며, 대신 이를 근본적인 보안 태세(security posture) 문제로 접근해야 한다고 주장합니다. 성공적으로 에이전트를 출시하는 팀들은 샌드박스 기본 설정, 최소 권한 원칙 적용, 모든 도구 호출 추적 등 네 가지 필수적이고 중요한 보안 작업을 수행하고 있습니다.
【30분 만에 구축】 Docker × Apache Teaclave로 시작하는 Intel SGX (Rust) 개발 환경 (2026년 최신판)
본 기사는 Intel SGX와 같은 신뢰 실행 환경(TEE) 개발에 입문하려는 사용자를 위해 최신 표준인 Apache Teaclave (Rust 기반)를 활용한 개발 환경 구축 방법을 안내합니다. Docker Compose를 사용하여 필요한 툴체인을 준비하고, 시뮬레이션 모드에서 'Hello World' 예제를 성공적으로 실행하는 과정을 단계별로 설명하여, 독자가 물리적 SGX CPU가 없더라도 SGX 프로그래밍의 첫걸음을 내딛을 수 있도록 합니다.
Claude Code 구독료 안녕.
Claude Code 사용료 부담 없이 이용할 수 있는 무료 프록시가 개발되었습니다. 이 시스템은 사용자에게 무료 NVIDIA API 키 연결과 로컬호스트 설정만 요구하며, 백그라운드에서 Anthropic API 호출을 NVIDIA 기반으로 변환하여 모든 기능을 처리합니다.
AI가 취약점 찾고 PR 날려서 직접 16달러 벌어오는 거 보니까 에이전트 경제가 생각보다 빨리 올 것 같음. 단순히 코드 짜는 도구를 넘어
AI가 단순히 코드를 작성하는 수준을 넘어, 취약점을 찾아내고 실제 PR(Pull Request)까지 생성하여 금전적 보상을 얻어오는 사례들이 등장하면서 '에이전트 경제'의 도래가 예상보다 빠르다는 것을 보여줍니다. 핵심은 AI가 수익 창출부터 정산 과정까지 전 과정을 자율적으로 처리하는 능력이며, 이는 기존 소프트웨어 개발 및 수익 구조 자체를 근본적으로 변화시킬 잠재력을 가지고 있습니다.
프롬프트 잘 짜는 수준에 머물면 에이전트 시대엔 금방 밑천 드러남. 카파시 말대로 100배수 엔지니어가 되려면 툴 라우팅이랑 메모리 시스템
단순히 프롬프트 엔지니어링에만 의존하는 방식은 AI 에이전트 시대에는 한계에 부딪힐 수 있습니다. 진정한 경쟁력을 갖춘 '100배수 엔지니어'가 되기 위해서는 툴 라우팅(Tool Routing)과 메모리 시스템 같은 근본적인 컨텍스트 인프라를 설계할 수 있는 능력이 필수적입니다. 즉, 단순한 명령을 내리는 것을 넘어 데이터의 흐름 자체를 구조화하고 관리하는 역량이 중요해지고 있습니다.
에이전트 워크플로우 짜는 개발자면 이 글은 키핑해둘만함. Osmani가 AGENTS.md, 훅, 샌드박스, 서브에이전트, 컨텍스트 압축을 한
본 글은 에이전트 워크플로우를 개발하는 엔지니어를 위해 필수적인 개념들을 정리하고 있습니다. 특히 파일 시스템 접근, bash 실행 환경, 샌드박스 구현, 테스트 훅(hook), 그리고 컨텍스트 압축과 같은 핵심 요소들이 포함되어 있어, 이러한 기능들이 갖춰지지 않으면 아무리 똑똑한 LLM이라도 작업 중간에 성능 저하를 겪을 수 있음을 강조합니다.
今天 GitHub 被自主学习 AI Agent 军团继续屠榜 5 个星标暴增最狠的项目,专业拆解下!(全网新鲜热乎)
최근 GitHub에서 자율 학습 AI 에이전트 관련 프로젝트들이 폭발적인 인기를 얻으며 랭킹을 장악하고 있습니다. 이 글은 특히 주목할 만한 다섯 가지 최신 프로젝트를 분석하며, 바이트댄스의 멀티모달 데스크톱 스택부터 금융 특화 에이전트, 그리고 자기 진화 및 코딩 라우팅 도구까지 다양한 분야의 혁신 사례를 소개합니다. 이러한 트렌드는 AI가 단순 대화를 넘어 실제 시스템 조작과 전문적인 업무 수행 단계로 발전하고 있음을 보여줍니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.