© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.LG 2125건필터 해제

에이전트 기반 강화학습을 위한 동적 스킬 라이프사이클 관리

본 논문은 복잡한 작업을 수행하는 LLM 에이전트를 위해 외부 스킬 모듈을 관리하는 새로운 프레임워크 SLIM을 제안합니다. 기존 방법들이 스킬 축적이나 내재화를 가정하여 발생하는 한계를 극복하기 위해, SLIM은 활성 스킬 세트 자체를 정책 학습과 함께 동적으로 최적화 변수로 취급합니다. 이 프레임워크는 고가치 스킬 유지, 기여도 미미한 스킬 폐기, 그리고 실패 기반의 스킬 뱅크 확장을 통해 에이전트의 능력을 효율적으로 관리하며, 실험에서 최고 기준 모델 대비 높은 성능을 입증했습니다.

저온 영역에서 평균장 트랜스포머의 농축 현상 정량화

본 논문은 트랜스포머 모델의 토큰 진화를 평균장 연속 방정식으로 분석하고, 추론 시간 동안 토큰 분포가 특정 극한 분포에 빠르게 농축됨을 수학적으로 증명했습니다. 다중 입자 시스템의 수렴 분석 기법을 활용하여, 토큰 분포가 키(key), 쿼리(query), 값(value) 행렬에 의해 유도되는 투영 사상 하에서 초기 분포의 푸시-포워드 위에 농축되며 준안정 상태를 유지함을 보였습니다. 또한, 온도 매개변수와 추론 시간에 따른 두 분포 간의 Wasserstein 거리를 정량적으로 분석하여 이론적 결과를 제시했습니다.

DECO: End-Side 장치에서 높은 성능을 유지하는 희소 혼합 전문가 (Sparse Mixture-of-Experts)

DECO는 엣지 장치(end-side device) 배포 환경에서 높은 성능과 효율성을 동시에 달성하기 위해 설계된 희소 혼합 전문가(Sparse Mixture-of-Experts, MoE) 아키텍처입니다. 기존 MoE 모델들이 큰 총 파라미터 크기로 인해 메모리 및 저장 병목 현상을 겪는 문제를 해결합니다. DECO는 학습 가능한 스케일링과 유연한 ReLU 기반 라우팅을 활용하여, 제한된 파라미터 예산 내에서 밀집 변환기(dense Transformers) 수준의 성능을 구현하는 것을 목표로 합니다.

Bregman 기반 최적화기에서 희소성 제어를 위한 적응형 정규화

본 논문은 심층 신경망의 희소 훈련 과정에서 발생하는 정규화 매개변수($ ext{L}_1$ 페널티 등)에 대한 민감도 문제를 다룹니다. 기존 방법들은 $ ext{L}_1$ 페널티 계수 $ ext{L}$을 통해 간접적으로만 희소성을 제어하며, 이 과정이 복잡하고 사용자가 원하는 희소성 비율을 찾기 위해 광범위한 탐색(sweeps)이 필요합니다. 이에 대한 해결책으로 연구진은 '적응형 정규화(adaptive regula)' 기법을 제안하여, 최적의 희소성을 보다 효율적으로 달성할 수 있는 방법을 제시합니다.

Tree SAE: 희소 자동인코더(SAE)에서 계층적 특징 구조 학습하기

본 논문은 희소 자동인코더(SAEs)가 데이터의 계층적 특징 구조를 효과적으로 학습할 수 있도록 'Tree SAE'라는 새로운 모델을 제안합니다. 기존 연구들이 활성화 커버리지에만 의존하여 계층성을 파악하려 했으나, 이는 오류를 유발할 수 있음을 지적하며, 대신 재구성 조건과 활성화 제약을 결합한 강력한 학습 조건을 도입했습니다. Tree SAE는 이러한 접근 방식을 통해 특징 세트 내부에서 자연스러운 계층 구조를 직접적으로 학습하며, 대규모 언어 모델(LLMs)의 복잡한 개념 구조 분석에 유용성을 입증합니다.

실시간 피드백을 활용한 온라인 연합 LLM 미세 조정에서의 Advantage-Weighted Refinement를 통한 Self-Play 강화

본 논문은 실시간 피드백을 활용하여 온라인 연합 LLM 미세 조정(fine-tuning)의 한계를 극복하는 새로운 방법론인 Advantage-Weighted Refinement를 제안합니다. 기존 연구들이 오프라인 설정이나 특권적인 정답 컨텍스트에 의존했던 것과 달리, 이 방법은 실시간으로 들어오는 피드백을 활용하여 자체 루프 학습 시스템을 구축할 수 있습니다. 특히 자원 제약적인 엣지 장치에서 효율적으로 작동하는 연합 학습 환경에 최적화되어 LLM의 성능 향상을 목표로 합니다.

유한 평균에 대한 점근적으로 로그 최적의 베이즈 보조 신뢰 시퀀스

본 논문은 테스트 마팅게일 기반의 신뢰 시퀀스를 개선하기 위해 베이즈 보조 프레임워크를 제안합니다. 이 프레임워크는 기존 방식들이 활용하지 못했던 사전 정보를 이용하여, 각 후보 평균과 시간 지점에 대해 예측 기대 로그 성장률을 최대화하는 방식으로 적응적으로 마팅게일 업데이트를 선택합니다. 이를 통해 매개변수 분포 가정 없이 유한 IID 관측치 평균에 대한 불확실성 정량화의 효율성을 높이는 것을 목표로 합니다.

GRAPHLCP: 그래프 상의 구조 인식 국소적 공형 예측

GRAPHLCP는 그래프 구조의 위상적 특성과 노드 간 종속성을 명시적으로 통합하여 그래프 신경망 기반 공형 예측(Conformal Prediction, CP)을 수행하는 새로운 프레임워크입니다. 기존 방법들이 임베딩 공간 근접성에 의존하여 발생하는 신뢰성 문제를 해결하기 위해, 본 연구는 특징 인식 밀도화와 개인화된 PageRank 기반 커널 계산을 도입했습니다. 이를 통해 지역적 및 장거리 종속성을 모두 포착하는 위상 의존적 앵커 샘플링과 보정 가중치 부여가 가능하며, 다양한 데이터셋에서 우수한 조건부 커버리지를 달성함을 입증했습니다.

Imagined-to-Listened MEG 매핑을 통한 제로샷(Zero-Shot) 상상 음성 디코딩

본 연구는 비침습적 MEG 기록을 활용하여 상상된 음성을 디코딩하는 새로운 접근 방식을 제안합니다. 기존의 어려움(데이터셋 부족, 시간 정렬 문제)을 극복하기 위해, 훈련된 음악가들로부터 청취 및 상상에 대한 쌍으로 이루어진 MEG 데이터를 수집했습니다. 개발된 세 단계의 디코딩 파이프라인은 상상과 청취 간의 신경 활동 관계를 밝혀냈으며, 이는 확장 가능하고 실제 BCI 시나리오에 적용 가능한 결과를 보여주었습니다.

양수성(Positivity)을 넘어서: 임의의 부분모듈 함수에 대한 탐욕적 보장

부분모듈 함수는 감소하는 수익률 특성을 가지며 머신러닝에서 중요하지만, 실제 목적 함수에는 음수 비용이 포함되는 경우가 많아 기존의 탐욕 알고리즘 보장(greedy guarantees)들이 비음수성 제약에 묶여 있습니다. 본 연구는 부분모듈 함수의 일반적인 구조적 한계를 극복하기 위해 '곡률(curvature)'이라는 새로운 매개변수를 도입합니다. 이 곡률은 함수가 선형성에서 벗어나는 정도를 측정하며, 이를 모든 부분모듈 함수에 확장하여 음수 비용을 포함하는 복잡한 목적 함수에 대한 탐욕적인 보장을 제공함으로써 기존 이론의 한계를 확장합니다.

Minimax 및 제약 하위 레벨 문제를 갖는 이중 레벨 최적화에 대한 페널티 기반 1차 방법

본 논문은 상위 및 하위 레벨 모두 minimax 구조를 갖는 이중 레벨 최적화 문제를 다루며, 기존 방법들이 처리하지 못했던 영역을 개척합니다. 연구진은 하위 레벨 문제에 강한 볼록성 가정을 요구하지 않는 새로운 페널티 기반 1차 방법을 개발했습니다. 결정론적 설정에서 제안된 방법은 $\tilde{O}(\epsilon^{-4})$의 오라클 복잡도로 $\epsilon$-KKT 지점을 찾을 수 있음을 입증했으며, 이는 기존 결과보다 개선된 성능입니다. 또한 확률적 기울기만 사용 가능한 경우에도 효율적인 접근 방식을 제시했습니다.

해석 가능한 분포적 치료 효과를 위한 준모수적 효율적 검정 (Semiparametric Efficient Test for

본 논문은 평균값만으로는 감지되지 않는 '분포적 치료 효과'를 탐지하기 위한 새로운 방법론인 DR-ME(Distributional Robust - Method of Efficiency)를 제안합니다. 기존의 전역적 검정 방식과 달리, DR-ME는 인과적 불일치 좌표(causal-discrepancy coordinates)를 제공하여 어떤 위치에서 치료 효과가 발생하는지 해석 가능하게 보여줍니다. 이 방법론은 준모수적으로 효율적인 유한 위치 검정을 수행하며, 국소 신호 대 잡음비 최적화를 통해 높은 통계적 효율성과 실용성을 입증했습니다.

PropSplat: 3D 가우시안 전파 스플래팅을 이용한 지도 없는 무선 주파수(RF) 필드 재구성

PropSplat은 3D 이방성 가우시안 프리미티브를 활용하여 상세한 지도나 밀도 높은 측정 캠페인이 필요 없는, 지도 없는 무선 주파수(RF) 필드 재구성 방법을 제시합니다. 이 방법은 관측된 송신기-수신기 경로를 따라 초기화되며 외부 지리 데이터 없이 엔드투엔드 최적화를 통해 전파 환경을 학습합니다. 실제 대규모 실외 드라이브 테스트와 실내 블루투스 측정에서 PropSplat은 기존의 RF 재구성 모델들(NeRF$^2$, GSRF 등) 대비 현저히 낮은 오차율과 높은 정확도를 보여주어, 희소한 측정 데이터만으로도 신뢰성 있는 전파 환경 모델링이 가능함을 입증했습니다.

온라인 학습에서 효과적인 목표 이동(Effective Target Shift) 특성화 및 교정

본 논문은 데이터 스트림 기반의 온라인 학습이 겪는 분포 변화 문제를 다루며, 커널 회귀 맥락에서 온라인 및 오프라인 학습 간의 관계를 분석했습니다. 연구진은 온라인 커널 회귀가 이동되고 부정확한 목표 출력을 가진 오프라인 회귀와 동등함을 보였고, '목표 교정(target correction)'이라는 기법을 통해 이 효과적인 목표 이동을 보상할 수 있음을 증명했습니다. 이를 통해 온라인 학습이 비정상 상태 환경에서 실제 목표를 사용하는 것과 동일한 예측기를 학습할 수 있는 프레임워크를 제시하고, 이미지 분류 작업에 적용하여 그 우수성을 입증했습니다.

연합 학습 기반 쿼드러플렛 학습 강화: 확률적 클라이언트 선택 및 임베딩 안정성 분석

본 논문은 분산된 클라이언트 환경에서 발생하는 데이터 이질성으로 인한 모델 일반화 성능 저하 문제를 해결하기 위해 FedQuad라는 새로운 연합 학습 방법을 제안한다. FedQuad는 클래스 내 표현을 최소화하고 클래스 간 분리를 최대화하는 메트릭 학습 기반 접근 방식을 사용하여, 양성 쌍의 거리는 줄이고 음성 쌍의 거리는 늘림으로써 모델 집계 과정에서의 표현 불일치를 완화한다. 다양한 비-IID 설정과 데이터셋에서 실험을 통해 제안된 방법이 기존 방식 대비 우수한 성능 개선을 보임을 입증했다.

ADKO: 에이전트 기반 분산 지식 최적화

ADKO는 자율 에이전트들이 협력적으로 블랙박스 최적화를 수행하기 위한 프레임워크입니다. 이 프레임워크는 샘플 효율성, 개인 정보 보호를 유지하면서 지식 토큰(knowledge tokens)이라는 압축된 요약본을 통해 통신합니다. ADKO는 가우시안 프로세스(GP), 베이지안 최적화, 언어 모델(LM) 기반 발견을 통합하고, 정보 손실과 근사 오차에 대한 이론적 분석을 제공하여 분산 환경에서의 지식 공유 및 최적화를 개선합니다.

판별적 인수분해를 이용한 블랙박스 모델 분류

본 논문은 API를 통해 접근하는 블랙박스 모델 환경에서, 고품질 및 저품질 쿼리 세트를 구별하여 모델 수준 속성을 분류하는 새로운 프레임워크를 제안합니다. 핵심 방법론으로 '판별적 인수분해(discriminative factorization)'를 도입했으며, 이를 통해 우연 수준의 분류 확률이 쿼리 예산에 따라 지수적으로 감소함을 보였습니다. 또한, 이 방법을 사용하여 선택된 쿼리 세트가 오라클 쿼리 세트의 경험적 순서를 재현할 수 있음을 입증했습니다.

역문제(Inverse Problems)를 위한 일관성 정규화된 그래디언트 흐름 (Consistency Regularised Gradient

본 논문은 Vision-Language Latent Diffusion Models(LDMs)를 활용하여 역문제(Inverse Problems)를 해결하기 위한 새로운 프레임워크를 제안합니다. 기존 LDM 기반 방법들이 높은 계산 비용과 복잡한 구조를 가졌던 단점을 개선하여, 사후 확률 샘플링과 프롬프트 최적화를 잠재 공간에서 하나의 흐름으로 통합했습니다. 이 새로운 유클리드-바서슈타인-2 그래디언트 흐름은 오토인코더 역전파 없이도 낮은 신경 함수 평가(NFE)로 높은 성능을 달성하여 효율성을 크게 향상시킵니다.

단일 세포 표현 학습을 위한 프로토타입 기반 후(Post)-사전 학습

본 논문은 단일 세포 표현 학습(SCRL)의 한계점, 특히 데이터의 꼬리 분포와 공변량 변화에 따른 일반화 문제를 해결하기 위해 CellRefine이라는 후(post)-사전 학습 방법을 제안합니다. CellRefine은 마커 유전자 세트 같은 구조적 사전 지식을 통합하여 모델이 세포의 잠재 임베딩 다양체를 효과적으로 정제하도록 돕습니다. 실험 결과, 이 방법은 다양한 계산 생물학 작업에서 다운스트림 성능을 일관되게 개선하며 최대 15%까지 향상시키는 것으로 나타났습니다.

느리게 감쇠된 Langevin 동역학 (Slowly Annealed Langevin Dynamics): 이론 및 훈련 없는 안내 생성에의 응용

느리게 감쇠된 Langevin 동역학(SALD)은 이동하는 목표 분포의 경로를 추적하고 시간 지연을 통해 최종 목표를 근사하는 샘플러입니다. 이 연구는 KL 미분 부등식을 사용하여 비점근적 수렴 보장을 확립하며, 지연이 복잡성을 줄여 추적 성능을 개선함을 입증했습니다. 나아가, VA-SALD라는 속도 인식 SALD를 제안하여 사전 훈련된 모델의 주변 분포와 안내 편향을 통합함으로써, 확산 기반 생성 모델에 대한 훈련 없는 안내 생성을 위한 원칙적인 프레임워크를 제공합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.