© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.LG 2125건필터 해제

Agentic AIs Are the Missing Paradigm for Out-of-Distribution Generalization in

기초 모델(FMs)은 오픈 월드 환경에서 배포되면서 분포 이동(OOD) 문제가 심화되고 있으며, 이는 기존의 모델 중심 패러다임으로는 해결할 수 없는 구조적 문제입니다. 본 논문은 OOD 문제를 해결하기 위한 새로운 접근법으로 에이전트 시스템을 제안하며, 이를 위해 네 가지 단계에 걸쳐 형식적인 증명과 분석을 제시합니다. 핵심 주장은 에이전트가 인식(Perception), 전략 선택(Strategy Selection), 외부 행동(External Action), 폐쇄 루프 검증(Closed-Loop Verification)이라는 구조적 특성을 통해 모델의 한계를 넘어설 수 있다는 것입니다.

Market-Alignment Risk in Pricing Agents: Trace Diagnostics and Trace-Prior RL

본 논문은 수익 관리 에이전트(Pricing Agents)가 시장 환경에 적응하는 과정에서 발생하는 '시장-정렬 위험(Market-Alignment Risk)' 문제를 다룹니다. 기존의 표준 RL 에이전트는 목표 지표(예: RevPAR)는 달성할 수 있지만, 실제 시장과 유사한 가격 책정 전략을 학습하지 못하고 과도하게 공격적이거나 비현실적인 행동을 보입니다. 이를 해결하기 위해 'Trace-Prior RL'이라는 새로운 프레임워크를 제안합니다. 이 방법은 지연된 시장 트레이스에서 분포적 시장 전제(Distributional Market Priors)를 먼저 학습한 후, 실제 보상과 KL 페널티를 적용하여 확률적 가격 정책을 훈련함으로써, 에이전트가 목표 성능을 달성하는 동시에 시장의 현실적인 행동 패턴을 따르도록 합니다.

Diffusion-Based Posterior Sampling: A Feynman-Kac Analysis of Bias and Stability

본 논문은 확산 기반 후방 샘플러(Diffusion-based posterior samplers)의 이론적 행동, 특히 편향과 불안정성 문제를 분석합니다. 저자들은 참후방 분포를 표준 가우시안과 연결하는 계산 가능한 대역을 도입하여 샘플러의 경로와 비교하고, 밀도 비율이 만족하는 쌍곡형 PDE를 통해 누적 편향을 측정합니다. 이 프레임워크를 기존 방법론(DPS, STSL)에 적용하여 샘플러가 특정 영역에서 과다 또는 과소 샘플링되는 현상을 정량적으로 설명하며, 또한 저온 영역에서의 수치적 불안정성을 완화하는 새로운 가이드라인을 제시합니다.

Hedging Memory Horizons for Non-Stationary Prediction via Online Aggregation

본 논문은 입력이 순차적으로 도착하고 결과가 예측 후에만 공개되는 분포 이동 환경에서 온라인 예측 문제를 다룹니다. 연구진은 모델 무관(model-agnostic) 방법인 MELO (Memory-hedged Exponentially Weighted Least-Squares Online aggregation)를 제안했습니다. MELO는 지수 가중 최소 제곱(EWLS) 적응 전문가를 사용하여 예측을 헤지하고, 이를 온라인 집계 규칙 MLpol과 결합하여 성능을 향상시킵니다. 실제 COVID-19 전력 부하 예측 실험에서 MELO는 기존 방법 대비 높은 정확도를 입증했습니다.

Uncertainty Under Reinforcement Learning

본 논문은 생물학적 시스템 설계에서 발생하는 내재적 확률성과 환경 변동성이라는 두 가지 불확실성 하에 유전 회로를 최적화하는 순차적 프레임워크를 제시합니다. 기존의 베이지안 방법이 지연을 초래했던 반복적인 실험-추론-최적화 사이클의 병목 현상을 극복하기 위해, 본 연구는 불확실한 파라미터 분포에 대해 사전에 훈련된 아모티제드(amortized) 강화학습 접근법을 제안합니다. 이 새로운 프레임워크는 명시적인 추론 단계를 우회하여 즉각적인 관찰 기반 적응을 가능하게 하며, 분자 노이즈와 실험실 변동성을 효과적으로 처리함을 입증했습니다.

Optimal Counterfactual Search in Tree Ensembles: A Study Across Modeling and

본 논문은 트리 앙상블 모델에서 최적의 반사실(counterfactual) 설명을 계산하는 방법을 연구합니다. 기존 방법론들이 직면하는 불충분한 설명 및 비효율적인 권장 사항 문제를 해결하기 위해, 본 연구는 개연성(plausibility)과 실행 가능성(actionability) 제약 조건을 도입하여 최적의 반사실 검색을 수행합니다. 이를 위해 Constraint Programming (CP) 기반의 새로운 프레임워크인 CPCF를 제안하며, 이는 연속적인 분할 경계 탐색 없이 다중 거리 목표를 지원하는 간결한 유한 영역 공식화(compact finite-domain formulation)를 제공합니다.

Criticality and Saturation in Orthogonal Neural Networks

본 논문은 오르토고널 가중치 초기화가 된 유한 너비 비선형 신경망의 안정성을 이론적으로 분석합니다. 저자들은 네트워크 통계에 대한 명시적인 레이어별 재귀 관계를 도출하고, 기존 i.i.d.-초기화 모델에 적용되던 Feynman 다이어그램을 확장하여 $1/ ext{width}$ 항까지 일반화했습니다. 이를 통해 오르토고널 초기화가 깊은 네트워크에서 안정성을 유지하는 이유를 수학적으로 설명하며, 이 이론적 결과를 수치 해석 및 몬테카를로 시뮬레이션으로 검증합니다.

Diverse Sampling in Diffusion Models with Marginal Preserving Particle Guidance

본 논문은 확산 모델 및 플로우 매칭 모델의 샘플링 과정에서 품질을 유지하며 다양성을 확보하는 새로운 가이드 메커니즘인 EDDY를 제안합니다. EDDY는 Fokker-Planck 방정식의 대칭성을 활용하여, 입자 궤적 변화에도 마진 분포가 보존되는 드리프트 섭동을 사용합니다. 이 방법은 추가 학습 없이도 개별 입자의 다양성을 촉진하며, 계산 비용이 높은 가이드 신호에 대한 효율적인 근사치를 제공하여 실용성과 성능을 모두 높였습니다.

Dynamic Treatment on Networks

본 논문은 네트워크 구조를 고려한 동적인 치료(개입) 배치를 위한 프레임워크인 Q-Ising을 제안합니다. 이 방법론은 베이즈 동적 Ising 모델을 사용하여 단일 관찰 패널로부터 복잡한 네트워크 채택 역학을 추정하고, 연속 후속 잠재 상태를 통해 개입의 과거 기록을 보강합니다. 이를 바탕으로 오프라인 강화 학습(Offline RL)을 수행하여 최적의 동적 정책을 학습하며, 불확실성 정량화를 통해 해석 가능한 앙상블 정책을 제공합니다.

SNAPO: Smooth Neural Adjoint Policy Optimization for Optimal Control via

SNAPO(Smooth Neural Adjoint Policy Optimization)는 불확실성 하의 순차적 결정을 다루는 최적 제어 문제 해결을 위한 새로운 프레임워크입니다. 이 방법은 알려진 미분 가능한 시뮬레이터 내에 신경 정책을 통합하고, 딱딱한 제약을 부드러운 근사로 대체합니다. 가장 큰 특징은 단일 adjoint pass를 통해 모든 정책 매개변수와 입력에 대한 목적 함수의 정확한 기울기를 계산하여, 효율적이고 확장성 높은 최적화가 가능하다는 점입니다.

CLAD: A Clustered Label-Agnostic Federated Learning Framework for Joint Anomaly

CLAD는 IoT 및 IIoT 환경의 보안 문제를 해결하기 위해 제안된 포괄적인 연합 학습(FL) 프레임워크입니다. 이 프레임워크는 클러스터링과 새로운 듀얼 모드 마이크로 아키텍처($ ext{DM}^2 ext{A}$)를 통합하여, 기기 간의 이질성 문제와 라벨 부족 문제를 동시에 해결합니다. CLAD는 지도 학습(공격 분류)과 비지도 이상 탐지를 결합하고, 클러스터링을 통해 전역 모델 발산을 방지함으로써, 제한된 환경에서도 높은 보안 성능과 효율성을 달성할 수 있습니다.

On the Safety of Graph Representation Learning

본 논문은 그래프 표현 학습(GRL)의 안전성 문제를 다루며, 기존 연구가 주로 깨끗한 전이와 적응에 초점을 맞춘 한계를 지적합니다. 이를 해결하기 위해 GRL-Safety라는 다차원 안전성 평가 벤치마크를 제안했습니다. 이 벤치마크는 25개 데이터셋과 12가지 대표적인 GRL 방법을 사용하여 교란 내성, OOD 일반화, 공정성 등 5가지 안전 축을 포괄적으로 평가합니다.

Distributionally-Robust Learning to Optimize

본 논문은 볼록 최적화의 1차 방법(first-order methods)에 대한 하이퍼파라미터 학습을 위해 분포적 견고성 접근법을 제안합니다. 이 프레임워크는 문제 인스턴스 데이터셋에서 알고리즘 파라미터 공간의 Wasserstein 거리를 최소화하여 성능 추정 문제(PEP)를 해결하며, 견고성 반지름 변화에 따라 고전적인 학습 to 최적화(L2O)와 최악의 경우 최적 알고리즘 설계를 모두 포괄합니다. 실험 결과, 제약 조건이 없는 이차 최소화, LASSO 등 다양한 벤치마크에서 본 방법은 검증 가능한 견고성을 유지하면서도 강력한 out-of-sample 성능을 입증했습니다.

BRICKS: Compositional Neural Markov Kernels for Zero-Shot Radiation-Matter

본 논문은 핵공학, 우주 공학 등 다양한 분야의 핵심 과제인 방사선-물질 상호작용 시뮬레이션을 위한 새로운 구성적 신경 대리(compositional neural surrogates) 전략을 제시합니다. 이 모델은 입자 상호작용의 국소성과 마코프 성질을 활용하여, 하이브리드 이산-연속 트랜스포머 기반의 '다음 입자 예측' 커널을 생성합니다. 특히, 미분 가능하도록 설계되어 있어 기존 기계적 시뮬레이터보다 계산 속도가 빠르며, 0-shot 방식으로 대규모 물질 분포를 효율적으로 시뮬레이션할 수 있는 이점을 가집니다.

FedAttr: Towards Privacy-preserving Client-Level Attribution in Federated LLM

본 연구는 분산 학습(FL) 환경에서 데이터 소유권을 보호하기 위한 새로운 클라이언트 레벨 귀속 프로토콜인 FedAttr을 제안합니다. 기존의 워터마크 기반 검정 방식은 중앙 집중식 LLM 파인튜닝에 초점을 맞추었으나, 여러 사용자 간 협력적인 FL 환경에서는 적용이 어려웠습니다. FedAttr은 쌍부집합차분 메커니즘과 미분 점수 산출을 결합하여 프라이버시를 유지하면서도 워터마크된 데이터로 학습한 클라이언트를 정확하게 식별할 수 있습니다.

Multi-Turn LLM 평가에서 이벤트 발생까지의 반복 횟수: 다중 턴 LLM 평가에 대한 동적 예산 할당

본 논문은 다중 턴 대화 환경에서 LLM의 성능을 평가할 때 발생하는 높은 계산 비용 문제를 해결하기 위해 'DAPRO(Dynamic Allocation via Projected Optimization)'라는 새로운 동적 예산 할당 프레임워크를 제안합니다. DAPRO는 이벤트 발생 시간의 경계를 설정하는 최초의 이론적으로 유효한 방법론으로, 제한된 컴퓨팅 자원 하에서도 통계적 신뢰성을 유지하며 LLM 평가가 가능하게 합니다. 이 프레임워크는 기존 공분산 생존 분석법보다 더 엄밀하고 분포에 무관한 커버리지 보장을 제공하며, 제일브레이크율이나 에이전트 작업 성공률 같은 중요한 지표를 편향 없이 추정할 수 있음을 실험적으로 입증했습니다.

ReActor: Reinforcement Learning for Physics-Aware Motion Retargeting

본 논문은 강화학습(RL)을 활용하여 물리적 제약 조건을 고려한 로봇 모션 재목표(Retargeting) 프레임워크를 제안합니다. 기존 방법들이 겪던 미끄러짐이나 역학적 불가능성 같은 물리적 오류 문제를 해결하기 위해, 추적 정책 학습과 동시에 참조 모션을 로봇의 형태론에 적응시키는 이중 레벨 최적화(bilevel optimization) 방식을 사용했습니다. 이 프레임워크는 수동 튜닝 없이도 다양한 형태론에서 특징적인 운동을 보존하며 물리적으로 타당한 고품질 모션을 생성할 수 있음을 시뮬레이션 및 하드웨어 검증을 통해 입증했습니다.

SoftSAE: Dynamic Top-K Selection for Adaptive Sparse Autoencoders

SoftSAE는 Large Language Models(LLMs) 및 Vision Transformers(ViTs)의 내부 표현을 분석하는 데 사용되는 Sparse Autoencoder (SAEs)의 한계를 개선한 모델입니다. 기존 Top-K SAE가 모든 입력에 고정된 희소성 수준(K)을 강제하여 데이터의 다양한 복잡성을 반영하지 못했던 문제를 해결하기 위해, SoftSAE는 입력에 따라 최적의 활성 특징 수 k를 동적으로 선택하는 메커니즘을 도입했습니다. 이를 통해 모델은 각 입력의 정보량과 구조에 가장 적합한 표현력을 갖추게 되어 해석 가능성과 성능이 향상됩니다.

Hybrid Quantum-Classical GANs for the Generation of Adversarial Network Flows

본 연구는 기존 GAN의 한계를 극복하고 적대적 네트워크 트래픽을 생성하기 위해 하이브리드 양자-고전적 GAN (QC-GAN) 프레임워크를 제안합니다. 이 모델은 고전적인 노이즈 벡터 대신 잠재 벡터(숨겨진 특징)를 양자 상태로 인코딩하여 표현력을 높이고 계산 오버헤드를 줄입니다. QC-GAN으로 생성된 가짜 트래픽을 사용하여 고전적 디스크리미네이터를 훈련시키고, 이를 통해 공격자가 제한적인 양자 컴퓨팅 파워를 활용하여 기존의 침입 탐지 시스템(IDS)을 우회하는 능력을 평가합니다.

LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for

LiVeAction은 웨어러블 또는 원격 감지 장치와 같이 대역폭 및 전력 제약이 있는 환경을 위해 설계된 경량화되고 다재다능하며 비대칭적인 신경 코덱입니다. 기존의 표준 코덱이나 생성 신경 코덱들은 특정 모달리티에 국한되거나 자원 소모가 커서 실용성이 떨어지는 한계가 있었습니다. LiVeAction은 FFT 유사 구조를 도입하여 인코더 복잡도를 줄이고, 적대적/지각 손실을 분산 기반 레이트 페널티로 대체하여 다양한 신호 모달리티에 적용 가능하면서도 우수한 성능과 낮은 전력 소모라는 두 마리 토끼를 잡았습니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.