Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.LG 1862건필터 해제
안정성의 경계(Edge of Stability)에서의 경사 하강법을 위한 분기 이론(Bifurcation Theory) 프레임워크
경사 하강법이 수렴 임계값을 초과하면서도 손실이 감소하는 '안정성의 경계(EoS)' 현상을 분기 이론으로 분석한 연구입니다. 과매개변수화된 신경망에 적용 가능한 프레임워크를 통해 훈련 역학을 수직 및 접하는 성분으로 분해하여 증명했습니다.
표현 오토인코더(Representation Autoencoders)를 이용한 드리프팅 트랜스포머(Drifting Transformers) 증류
표현 오토인코더(RAE)의 잠재 공간에서 발생하는 이방성과 곡률 문제를 해결하기 위해 Drift-RAE를 제안합니다. 드리프팅 패러다임을 RAE에 직접 적용하여 훈련 안정성을 높였으며, ImageNet 데이터셋에서 기존 SOTA를 능가하는 성능을 입증했습니다.
메모리 제약이 있는 LLM 서빙에서의 서비스 유발 혼잡 (Service-Induced Congestion)
LLM 서빙 중 KV 캐시 증가로 인해 발생하는 메모리 제약 및 서비스 유발 혼잡 현상을 분석합니다. 연속 배치 환경에서 메모리 축출이 처리량에 미치는 영향을 동역학 모델로 규명하고, 시스템 안정화를 위한 스케줄링 원칙을 제안합니다.
만약 이 벽들이 말을 할 수 있다면: 박물관 내 거대 언어 모델(LLMs)을 활용한 비판적 놀이
박물관 내 LLM 기반 챗봇의 신뢰성과 매력성 사이의 딜레마를 분석합니다. 연구는 LLM의 환각 문제를 해결하려 하기보다, 허구적 캐릭터로서의 특성을 활용해 역사적 서사와 다양한 관점을 제공하는 '비판적 놀이' 설계를 제안합니다.
그래프 정렬(Graph Alignment)을 위한 볼록 완화(Convex Relaxations)에서의 상전이(Phase Transition)
상관관계가 있는 가우시안 직교 앙상블(GOE) 행렬 환경에서 그래프 정렬 문제를 해결하기 위한 볼록 완화(Convex Relaxations) 기법을 연구합니다. 상관관계 파라미터 변화에 따른 해의 집중 현상과 상전이(Phase Transition) 지점을 수학적으로 규명했습니다.
알고리즘적 추론(Algorithmic Reasoning)을 위해 코드(Code)가 언어(Language)보다 더 나은가
도구 증강 언어 모델에서 자연어 추론과 코드 실행 파이프라인의 성능 차이를 분석한 연구입니다. 실험 결과, 코드 실행이 자연어 추론보다 알고리즘 벤치마크에서 훨씬 높은 성능을 보였으며, 이는 단순한 표현 방식의 차이가 아닌 신뢰할 수 있는 외부 실행의 필요성을 시사합니다.
발산 지점에서의 신용 할당 국소화: LLM 추론을 위한 경로 조건부 자기 증류 (Path-Conditioned Self-Distillation)
긴 추론 과정에서 발생하는 불분명한 신용 할당 문제를 해결하기 위해 사후 자기 증류(HSD) 기법을 제안합니다. 성공적인 피어 롤아웃을 활용해 발산 지점에 집중된 조밀한 신호를 제공함으로써 모델의 추론 성능을 높입니다.
픽셀에서 증명까지: 병렬 컨포멀 강건 MPC를 통한 확률적 안전 잠재 세계 모델 제어
픽셀 기반의 잠재 세계 모델(Latent World Models)에서 강건한 모델 예측 제어(MPC)를 수행하는 SLS^2 프레임워크를 제안합니다. 컨포멀 예측(Conformal Prediction)을 활용해 잠재 오차 경계를 보정함으로써, 불완전한 예측 환경에서도 확률적 안전성을 보장하는 제어 기법을 다룹니다.
q-error는 언제 Plan Regret을 예측하는가? Cardinality-Estimation Error의 세 가지 체제
카디널리티 추정(CE)의 지표인 q-error가 쿼리 계획 품질(Plan Regret)을 예측하는 한계를 분석한 연구입니다. 오차 크기에 따라 계획 후회를 결정하는 세 가지 체제를 규명하고, q-error 대신 유효한 지표들을 제시합니다.
LLM 판사들은 암전류(Dark Current)를 가지고 있다: LLM-as-a-Judge 평가를 위한 심리측정 데이터시트
LLM-as-a-Judge 시스템을 단순한 평가 도구가 아닌 정밀한 측정 장치로 다루어야 한다는 연구입니다. 암전류, 위치 편향, 타겟 민감도 등을 측정하는 'Judge Datasheet' 프로토콜을 제안하며 모델별 특성을 분석합니다.
MoECa: Diffusion Transformers에서 전문가 분해와 특징 재사용의 정렬
MoECa는 Diffusion Transformers(DiT-MoE)의 추론 병목 현상을 해결하기 위해 전문가 브랜치 레벨의 특징 재사용을 제안하는 연구입니다. 타임스텝 간 중복성을 전문가 브랜치 단위로 분석하여 캐싱 효율을 극대화함으로써 추론 속도를 최대 2.83배 향상시켰습니다.
재입력은 재생이 아니다: 반사실적 토큰-크레딧 추정에서의 재생 노이즈 측정
언어 모델의 토큰별 인과적 크레딧 추정 시, 기존의 재입력(re-feed) 방식이 모델의 상태를 정확히 재현하지 못해 발생하는 노이즈를 분석합니다. 연구 결과, 재입력 방식은 결정적 토큰의 선택에 큰 오류를 범할 수 있으므로 KV 상태를 직접 재개하는 방식을 권장합니다.
놀라움 기반 병합 정렬(Surprise-Guided MergeSort): 적응형 비교 스케줄링을 통한 예산 효율적인 인간
VLM을 활용해 인간의 주석 작업 효율을 높이는 Surprise-Guided MergeSort(SGS) 프레임워크를 제안합니다. VLM이 비교의 모호성을 식별하여 꼭 필요한 비교만 인간에게 전달함으로써, 정렬 작업의 비용을 획기적으로 줄이면서도 정확도를 향상시킵니다.
HAPI-EP: 심장 전기생리학의 하이브리드, 적응형 및 예측형 디지털 트윈을 향하여
심장 전기생리학을 위한 하이브리드 디지털 트윈 프레임워크인 HAPI를 제안합니다. 기계론적 모델과 데이터 기반 모델을 결합하여 실시간 데이터에 신속하게 적응하고, 예측 성능을 극대화하는 물리 통합 그레이박스 모델링 기술을 다룹니다.
Mixture-of-Experts를 활용한 대규모 언어 모델의 충돌 인지 연합 미세 조정 (Conflict-Aware Federated
데이터 이질성이 존재하는 연합 학습 환경에서 MoE 모델의 전문가 최적화 충돌 문제를 해결하기 위한 FC-MoE 프레임워크를 제안합니다. 중요도 인지 가중치와 그래디언트 합의 투영을 통해 안정적인 글로벌 최적화를 구현합니다.
제로샷 그래프 추론을 위한 LLM 어텐션 내 구조적 왜곡의 공식화 및 완화
LLM이 그래프 데이터를 시퀀스로 변환할 때 발생하는 구조적 왜곡 문제를 분석하고, 이를 해결하기 위한 GaLA 방식을 제안합니다. 회전식 위치 임베딩으로 인한 어텐션 감쇠 현상을 규명하여 그래프 추론 성능을 개선했습니다.
CIWI-CKT: 교통 흐름 예측을 위한 카오스 기반 파동 간섭 특징 융합 및 도시 간 지식 전이
데이터가 부족한 도시 간 교통 흐름 예측을 위해 카오스 이론과 파동 간섭을 결합한 CIWI-CKT 프레임워크를 제안합니다. 카오스 불변량 추출과 메타 학습을 통해 도시 간 지식 전이를 효율화하며, 기존 딥러닝 모델보다 적은 데이터로 높은 예측 정확도를 달성했습니다.
MosaicQuant: 통합 4-bit LLM 양자화를 위한 인라이어-아웃라이어 분리 (Inlier-Outlier Disaggregation)
MosaicQuant는 인라이어와 아웃라이어를 분리하여 4-bit 양자화의 정확도 저하 문제를 해결하는 새로운 패러다임을 제안합니다. 밀집된 4-bit 베이스 컴포넌트와 오류 민감 블록을 위한 희소 4-bit 잔차 컴포넌트를 결합하여 성능을 최적화합니다.
이항 로지스틱 혼합 모델(Binomial Logistic Mixtures)에서의 정보 격차 및 실행 가능성을 고려한 추론
이항 로지스틱 혼합 모델에서 혼합 탐지와 레이블 복구 사이의 정보 격차를 분석한 연구입니다. BIC가 성분 존재를 탐지하더라도 레이블 복구가 불가능한 영역이 존재함을 증명하고, 이를 해결하기 위한 새로운 추론 절차를 제안합니다.
텐서 트레인 (Tensor Train) 랜덤 벡터를 이용한 확률적 트레이스 추정 (Stochastic trace estimation)
대규모 행렬의 트레이스를 근사하기 위해 가우시안 랜덤 텐서 트레인(Tensor Train) 벡터를 사용하는 새로운 확률적 추정 방법을 연구합니다. 텐서 트레인 랭크를 적절히 선택함으로써 차원에 독립적인 정확도 보장을 달성할 수 있음을 증명합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.