Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.LG 2052건필터 해제
훈련이 필요 없는 루프형 트랜스포머 (Training-Free Looped Transformers)
추가 학습이나 구조 변경 없이 동결된 모델에 재귀적 루프를 적용하여 성능을 높이는 새로운 추론 기법을 제안합니다. Pre-norm 블록을 ODE의 전방 오일러 단계로 해석하여, 하나의 큰 업데이트를 정밀한 하위 단계로 나누어 처리하는 방식을 사용합니다.
Spherical Hellinger-Kantorovich 흐름의 안정성과 차분 프라이버시(Differential Privacy)에 미치는
구형 Hellinger-Kantorovich(SHK) 기하학 하에서의 경사 흐름 안정성을 분석하고, 이를 차분 프라이버시(Differential Privacy)의 지수 메커니즘에 적용하는 연구입니다. 포텐셜 섭동이 흐름에 미치는 영향을 정량화하여 Pure-DP 및 Approximate-DP 보장을 제공합니다.
하이퍼파라미터 전이의 정량화 및 임베딩 레이어 학습률의 중요성
본 논문은 대규모 언어 모델(LLMs) 학습에서 핵심적인 하이퍼파라미터 전이를 정량화하는 새로운 프레임워크를 제시합니다. 이 프레임워크는 스케일링 법칙 피팅 품질, 외삽 오차의 강건성, 그리고 매개변수화 선택에 따른 점근적 손실 페널티 세 가지 지표로 하이퍼파라미터 전이를 측정합니다. 연구 결과, Maximal Update ($μ$P)와 같은 특정 매개변수화가 표준 매개변수화(SP)보다 임베딩 레이어의 학습률을 최적화하여 하이퍼파라미터 전이를 크게 개선하고 학습 안정성을 높인다는 것을 입증했습니다.
비정상성(Nonstationarity) 하의 단일 지점 피드백을 이용한 비모수적 학습 및 수익 창출
본 연구는 고객 수요와 시장 조건이 끊임없이 변하는 비정상성(Nonstationarity) 환경에서, 매 시점 단일 가격에 대한 피드백만으로 수익을 극대화하는 비모수적 학습 프레임워크를 제안합니다. 제안된 방식은 수익 기반 경사 근사치를 사용하여 가격을 업데이트하며, 재시작 메커니즘과 메타 학습 계층을 통해 환경 변화에 유연하게 적응합니다. 시뮬레이션 결과, 제안된 방법론은 정보가 제한된 상황에서도 누적 수익 손실을 효과적으로 관리하며 성능을 입증했습니다.
FedCoE: 연합 조정형 이중 레벨 MoE를 통한 일반화와 개인화 간의 가교 역할
FedCoE는 연합 학습(FL)에서 발생하는 일반화와 개인화 사이의 상충 관계를 해결하기 위해 제안된 이중 레벨 MoE 프레임워크입니다. 공유 게이팅 네트워크를 통해 전문가 드리프트와 게이팅 불일치를 완화하며, 적응형 메커니즘을 통해 새로운 클라이언트의 콜드 스타트 문제를 효과적으로 해결합니다.
Stochastic MeanFlow Policies: 엔트로피 Mirror Descent를 이용한 단일 단계 생성 제어
본 논문은 가우시안 정책의 다루기 쉬운 엔트로피 특성과 생성형 정책의 높은 표현력을 결합한 Stochastic MeanFlow Policies(SMFP)를 제안합니다. SMFP는 MeanFlow 변환을 통해 가우시안 노이즈를 행동으로 매핑하여, 단일 단계 추론만으로도 다중 모드 분포를 효과적으로 처리하며 안정적인 오프-폴리시 미러 디센트 학습을 지원합니다. MuJoCo 벤치마크 실험 결과, 기존 가우시안 및 생성형 베이스라인 대비 뛰어난 성능과 효율성을 입증했습니다.
2요인 선형 Transformer 모델의 대규모 단계 학습 역학 (Large-Step Training Dynamics)
본 연구는 단순화된 선형 Transformer 모델이 높은 학습률에서 보이는 불안정한 학습 역학을 2요인 곱 맵(two-factor product map) 모델로 환원하여 분석합니다. 연구 결과, 큰 학습률은 단순히 수렴 속도를 조절하는 것을 넘어 학습의 끌개(attractor) 자체를 변화시켜 사이클, 혼돈, 또는 발산 상태로 유도할 수 있음을 밝혀냈습니다.
표 형식 파운데이션 모델 (Tabular Foundation Models)에 대한 기계론적 연구
본 연구는 서로 다른 아키텍처를 가진 표 형식 파운데이션 모델들이 유사한 성능을 보이는 이유를 기계론적 관점에서 분석합니다. 모델들이 유사성 기반 판독(Similarity-based readouts) 메커니즘을 구현하고 있음을 밝히며, 순열 불변성과 표현 붕괴 문제에 대한 심층적인 규명을 제공합니다.
TimeSRL: 의미론적 RL-튜닝된 LLM을 통한 일반화 가능한 시계열 행동 모델링 — 정신 건강 사례 연구
TimeSRL은 원시 시계열 데이터를 고수준의 자연어 의미론적 개념으로 추상화하여 행동을 예측하는 2단계 LLM 프레임워크입니다. GRPO와 RLVR을 활용해 중간 주석 없이도 의미론적 병목을 통해 학습하며, 정신 건강 예측 분야에서 데이터셋 간 분포 변화에도 강력한 일반화 성능을 입증했습니다.
건강한 대조군과의 대조를 통한 질병 하위 그룹의 자동 발견
본 논문은 환자 집단 내에서 병리적 요인에 의해 유도되는 균질한 하위 그룹을 식별하기 위해 Deep UCSL이라는 대조적 하위 그룹 발견 방법을 제안합니다. 건강한 대조군과 환자가 공유하는 공통 변동성은 무시하고 질병 특이적 변동성만을 포착하도록 설계되었으며, EM 전략과 새로운 손실 함수를 통해 최적화됩니다. MNIST 및 실제 의료 영상 데이터셋 실험을 통해 기존 방식보다 향상된 하위 그룹 발견 품질을 입증했습니다.
회로 증거에서 기계론적 이론으로: 귀납적 논리 접근 방식
본 연구는 기계론적 해석 가능성(Mechanistic Interpretability) 연구가 개별적인 실험에 그치지 않도록, 발견된 회로들을 체계적으로 연결하는 귀납적 이론 구축 프레임워크를 제안합니다. 인과적 기능 시그니처(CFS)와 귀납적 논리 프로그래밍(ILP)을 통해 회로의 계산 전략과 구조적 특징을 공식화하여, 모델 스케일과 아키텍처에 관계없이 회로를 비교하고 이식할 수 있는 기반을 마련합니다.
Frontier: 포괄적이고 정확한 LLM 추론 시뮬레이션을 향하여
Frontier는 현대적인 LLM 서빙 시스템의 복잡한 구조를 모델링하기 위해 설계된 이산 이벤트 시뮬레이터입니다. 기존 시뮬레이터가 해결하지 못한 Prefill-Decode 분리(PDD) 및 Attention-FFN 분리(AFD)와 같은 최신 아키텍처를 정확하게 반영하며, 실제 GPU 환경과 매우 유사한 성능 예측을 제공합니다.
DeCoR: 강화학습 (Reinforcement Learning)을 이용한 도시 도로의 설계 및 제어 공동 최적화
DeCoR은 강화학습을 활용하여 도시의 횡단보도 배치와 신호 제어를 동시에 최적화하는 2단계 프레임워크입니다. 생성 정책을 통해 보행자 네트워크를 설계하고, 공유된 제어 정책으로 적응형 신호 타이밍을 학습하여 보행자와 차량의 지연을 최소화합니다. 실제 도시 회랑 데이터를 적용한 결과, 보행자 대기 시간을 79%, 차량 대기 시간을 65% 감소시키는 성과를 보였습니다.
CRAFT: 연합 학습을 위한 충돌 해결 집계 (Conflict-Resolved Aggregation for Federated Training)
이질적인 데이터 분포를 가진 연합 학습 환경에서 클라이언트 간의 업데이트 충돌 문제를 해결하기 위한 새로운 집계 프레임워크인 CRAFT를 제안합니다. CRAFT는 전역 업데이트를 기하학적 교정 문제로 정의하고, 충돌 없는 정렬 제약 조건을 만족하는 폐쇄형 해(Closed-form expression)를 도출하여 계산 효율성을 높였습니다. 실험 결과, CRAFT는 기존 방식 대비 전역 모델의 정확도를 높이고 클라이언트 간 성능 격차를 효과적으로 줄이는 것으로 나타났습니다.
심층 신경망 (Deep Neural Networks)의 분포 강건성 (Distributional Robustness)을 분석하기 위한 새로운
심층 신경망이 분포 변화(distributional shifts)에 취약한 문제를 해결하기 위해 레이어 가중치와 활성화 사이의 상호작용을 분석하는 새로운 프레임워크를 제안합니다. 베르누이 분포를 활용해 클래스 간 분리도를 측정함으로써 모델의 강건성을 정량화하고, 학습 데이터 암기 여부를 진단할 수 있음을 입증했습니다.
TextReg: 정규화된 텍스트 공간 최적화를 통한 프롬프트 분포 과적합 완화
TextReg은 프롬프트 최적화 과정에서 발생하는 프롬프트 분포 과적합 문제를 해결하기 위해 제안된 새로운 정규화 프레임워크입니다. 기존 방식이 특정 샘플에 과도하게 맞춰져 일반화 성능이 떨어지는 문제를 '표현 비효율성'으로 정의하고, 이를 제어하기 위한 정규화된 텍스트 그래디언트 기법을 도입했습니다. 실험 결과, TextReg은 다양한 벤치마크에서 기존 방법론 대비 유의미한 정확도 향상과 뛰어난 분포 외(OOD) 일반화 성능을 입증했습니다.
분산 신경망 구조 탐색(NAS)을 이용한 최적화된 연합 지식 증류 (Optimized Federated Knowledge
본 연구는 클라이언트의 하드웨어 제약과 데이터 이질성을 해결하기 위해 신경망 구조 탐색(NAS)과 지식 증류(Knowledge Distillation)를 결합한 FedKDNAS 프레임워크를 제안합니다. 각 클라이언트는 자원 제약에 맞춰 최적의 경량 모델을 자율적으로 선택하며, 서버는 공유된 예측값을 집계하여 안정적인 학습 타겟을 생성합니다. 실험 결과, FedKDNAS는 기존 방식 대비 정확도를 높이고 통신 오버헤드와 CPU 사용량을 획기적으로 줄이는 성과를 보였습니다.
자극의 대칭성이 표현 유사성 분석 (RSA)을 혼란시킬 수 있는 이유
본 연구는 표현 유사성 행렬(RSM) 분석 시 네트워크 입력의 대칭성이 결과에 미칠 수 있는 혼란 요인을 규명합니다. 자극의 대칭성으로 인해 기능적으로 동일한 표현들이 서로 다른 RSM을 생성할 수 있으며, 이는 SGD나 에너지 정규화 과정에서 발생하는 희소하고 표류하는 코드 문제와 결합되어 분석의 어려움을 초래합니다.
Delta-Rule Linear Transformer를 위한 빠르고 안정적인 삼각 행렬 역행렬 계산 (Triangular Inversion)
Delta-Rule Linear Transformer 모델의 핵심 연산인 삼각 행렬 역행렬 계산의 효율성과 수치적 안정성을 개선하는 연구를 다룹니다. 직접적 및 반복적 알고리즘을 체계적으로 분석하여 하드웨어 효율성을 극대화하는 방법론을 제시합니다. 실험 결과, NPU 환경에서 SGLang 대비 최대 4.3배의 속도 향상을 달성하며 모델 정확도를 유지함을 입증했습니다.
준모수적 효율적 이층 기울기 추정 (Semiparametric Efficient Bilevel Gradient Estimation)
하위 수준 문제가 비모수적으로 학습될 때 발생하는 1차 편향 문제를 해결하기 위해 효율적 영향 함수 기반의 준모수적 편향 제거 이론을 제안합니다. 이 이론을 통해 교차 적합 직교 하이퍼기울기 추정기를 개발하였으며, 합성 벤치마크 실험을 통해 기존 플러그인 방식 및 정규화된 커널 방식보다 우수한 성능을 입증했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.