Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.LG 2125건필터 해제
잠재적 교란 하 인과 효과 식별을 위한 효율적인 기호 계산 방법
관측 데이터에서 잠재적 교란(latent confounding) 하의 인과 효과를 식별하는 것은 핵심 과제입니다. 기존의 Gröbner bases 기반 접근법은 이중 지수 복잡도(doubly exponential complexity)로 인해 계산적으로 비현실적이었습니다. 본 연구는 이러한 한계를 극복하고, 합리적 식별성(rational identifiability)을 결정하기 위한 효율적인 기호 계산 알고리즘을 제시합니다. 특히, 사전에 지정된 최대 차수 내에 식별 공식이 존재한다면, 이 알고리즘은 준다항 시간(quasi-poly-
베이지안 Softmax 게이팅 MoE 모델 이론 분석
본 논문은 현대 ML에서 중요해지고 있는 Mixture-of-Experts (MoE) 모델의 베이지안(Bayesian) 프레임워크를 심층적으로 분석합니다. 특히, 널리 사용되는 softmax 기반 게이팅 메커니즘에 초점을 맞춥니다. 저자들은 밀도 추정(density estimation), 파라미터 추정(parameter estimation), 모델 선택(model selection) 세 가지 핵심 통계적 과제에 대한 사후 분포(posterior distribution)의 점근적 거동을 조사합니다. 이를 통해 고정된 전문가 수와 학습
고차원 밀도 및 정보 추정을 위한 Amortized Vine Copula (VDC)
본 논문은 고차원 데이터의 복잡한 의존성을 모델링하면서도 계산 효율성(tractability)을 유지하는 새로운 접근 방식인 'Vine Denoising Copula (VDC)'를 제안합니다. 기존의 Vine-Copula 방법론은 해석 가능성이 높지만, 각 엣지마다 반복적인 최적화가 필요하여 비용이 많이 들었습니다. VDC는 단일 이변량(bivariate) 디노이징 모델을 학습하고 이를 모든 와인 에지(vine edges)에 재사용함으로써, 계산 복잡성을 크게 줄였습니다. IPFP/Sinkhorn 투영을 적용하여 정확한 와인 우도(
보증 사례(Assurance Case) 분석을 위한 그래프 진단 프레임워크 제안
본 논문은 시스템의 요구사항이나 속성을 입증하는 구조화된 주장 문서인 '보증 사례(Assurance Case)'를 분석하기 위한 그래프 진단 프레임워크를 제안합니다. 이 프레임워크는 보증 사례의 내부 연결 구조(Structure)와 출처(Provenance) 두 가지 핵심 측면을 다룹니다. 주요 목표로는 1) 주장 요소 간의 관계 예측(Link Prediction)과 2) LLM 생성물과 인간 작성물을 구분하여 편향성을 탐지하는 그래프 분류(Graph Classification)가 있습니다. 실험 결과, Graph Neural Nn
SSM 기반 시퀀스 모델의 수학적 해석: 비선형 진동자 네트워크로 접근
최신 시퀀스 및 언어 모델에서 사용되는 State Space Models (SSM)의 계산 과정을 수학적으로 명확히 설명합니다. 본 연구는 SSM을 '정확하게 풀 수 있는 비선형 진동자 네트워크(exactly solvable nonlinear oscillator network)'와 수학적 대응 관계를 확립했습니다. 특히, S4D와 같은 특정 SSM 구현체를 링 네트워크 토폴로지에 임베딩하여, 입력 데이터를 공간을 따라 이동하는 파동으로 인코딩합니다. 이를 통해 전체 순전파 과정에 대한 정확한 연산자 표현(operator)을 도출하고
개인정보 보호를 강화한 클러스터형 연합 학습 프레임워크 PINA 제안
본 논문은 데이터 이질성 문제를 해결하기 위해 클러스터링을 도입한 연합 학습(FL)에 차분 프라이버시(DP)를 결합하는 과정에서 발생하는 노이즈와 초기화 문제를 해결하는 새로운 프레임워크 PINA를 제안합니다. PINA는 2단계 구조로, 첫째 단계에서는 경량의 LoRA 어댑터를 사용해 업데이트 스케치를 공유하고 서버가 이를 이용해 견고한 클러스터 중심점(centroid)을 구축합니다. 둘째 단계에서는 정규성 기반 집계 메커니즘을 도입하여 수렴성과 강건성을 높입니다. 실험 결과, PINA는 기존의 최신 DP-FL 알고리즘 대비 평균
캘리브레이션과 곡률의 관계: 훈련 과정에서 안정적인 모델 학습 방법
최신 신경망은 높은 정확도를 달성하지만, 신뢰도 추정(confidence estimates)이 실제 성능(empirical correctness)과 일치하지 않는 '캘리브레이션 문제'를 겪습니다. 본 논문은 캘리브레이션을 사후적 속성이 아닌 훈련 과정의 현상으로 접근합니다. 연구 결과, 딥 네트워크가 최적화되는 동안 캘리브레이션(Expected Calibration Error, ECE)이 곡률 기반의 날카로움(sharpness)을 매우 근접하게 추적한다는 것을 발견했습니다. 이를 바탕으로, 로컬 평활도와 견고한 마진 테일(rob-u
점유율 기반 보상 설계 (Occupancy Reward Shaping)로 오프라인 RL 개선
오프라인 환경에서 목표 지향적 행동을 학습할 때, 특정 행동과 장기적인 결과 사이의 시간 지연(temporal lag)으로 인해 '신용 할당(credit assignment)' 문제가 발생합니다. 본 논문은 생성 모델 기반의 세계 모델(world models)에 저장된 시간 정보를 활용하여 이 문제를 해결하는 새로운 방법인 Occupancy Reward Shaping (ORS)을 제안합니다. ORS는 최적 정책을 변경하지 않으면서도 희소 보상 환경에서 성능을 획기적으로 개선하며, 로봇 공학 및 핵융합 제어와 같은 실제 복잡한 작업에
문자열 간의 가중 각도 거리 측정법 ($d_ρ$)
본 논문은 문자열(strings)에 대한 새로운 다중 스케일 메트릭 $d_ρ$를 제안합니다. 이 메트릭은 모든 $n$-gram 카운트 벡터 간의 각도 거리를 지수 가중치 $ ho^n$로 집계하여 계산됩니다. 기존의 편집 거리(edit distance)나 일반적인 $n$-gram 기반 방법론 대비 성능을 벤치마킹했으며, DBSCAN 클러스터링 환경에서 우수한 성능을 보였습니다. 또한, 이 메트릭에 대한 선형 시간 접미사 트리 알고리즘과 함께 메트릭 및 안정성 속성을 증명하고 등거리 변환(isometries)의 특성까지 분석했습니다.
신경영상 모델의 임상 해석력 향상을 위한 특징 화이트닝 기법
본 논문은 신경 영상(neuroimaging) 분야에서 선형 모델을 사용할 때 발생하는 '해석 가능성' 문제를 해결하는 새로운 접근 방식을 제시합니다. 뇌 영역 간의 높은 상관관계가 모델 가중치 해석을 어렵게 만드는 주된 원인인데, 이를 극복하기 위해 알려진 해부학적 지식(예: 좌우 반구의 상동 구조)을 활용하여 특정 영역 그룹에 '화이트닝(whitening)' 기법을 적용합니다. 이 방법은 단순히 차원을 축소하는 것이 아니라, 상관관계가 높은 신경해부학적 쌍들 간의 정보를 분리(decorrelate)하면서도 전체 입력 신호를 보존
트랜스포머 압축의 구조적 분석: 모델 스케일별 한계점 탐구
본 연구는 GPT-2 (124M)와 Mistral 7B (7.24B)를 대상으로 트랜스포머 모델의 압축 가능성을 체계적으로 분석했습니다. 총 40개 이상의 실험을 통해 스펙트럴 압축, 블록 함수 대체, 양자화 등 다양한 기법을 검토했습니다. 주요 발견으로는 고분산 활성화 방향이 예측 방향과 독립적이며(96% 비상관), 트랜스포머 블록의 선형성이 올바른 상위 분포 하에서만 유지된다는 점 등이 있습니다. 특히, 단일 블록 대체가 34배 압축을 달성했으나 다중 블록 대체는 잔여 오차 누적 및 분포 변화로 인해 실패함을 보여주며, 정적인(
MGDA-Decoupled: DPO 기반 LLM 정렬을 위한 기하학적 다중 목표 최적화
LLM의 인간 가치 정렬은 유용성, 진실성, 무해성 등 상충될 수 있는 여러 목표를 동시에 최적화하는 다중 목표(Multi-Objective) 문제입니다. 기존 방식들은 이러한 목표들을 단일 스칼라 값으로 통합하여 특정 목표가 과소평가되는 '절차적 불공정성'을 초래했습니다. 본 논문은 기하학 기반의 새로운 알고리즘인 MGDA-Decoupled를 제안합니다. 이는 개별 목표의 수렴 역학(convergence dynamics)을 명시적으로 고려하면서 공유된 하강 방향(shared descent direction)을 찾는 방식으로, 기존
Auto-ART: AI 신뢰성 검증을 위한 구조화된 문헌 분석 및 자동 적대적 강건성 테스트 프레임워크
본 논문은 신뢰할 수 있는 ML 배포의 핵심인 '적대적 강건성(Adversarial Robustness)' 평가 분야가 파편화된 프로토콜과 미탐지 그라디언트 마스킹 문제에 직면해 있음을 지적합니다. 이를 해결하기 위해, 연구진은 두 가지 주요 기여를 제시했습니다. 첫째, 2020년부터 2026년까지의 9개 동료 검토 코퍼스를 7가지 프로토콜로 분석하여 해당 분야의 합의점과 미해결 과제를 구조적으로 종합한 최초의 연구를 수행했습니다. 둘째, 이러한 격차를 실제로 구현하는 오픈소스 프레임워크인 Auto-ART를 개발했습니다. Auto-
자연 시스템 디지털 트윈 모델 적응을 위한 GFlowNet 활용 방안
본 논문은 시간이 지남에 따라 변화하고, 부분적으로만 관측되며, 매개체 시뮬레이터(mechanistic simulators)로 모델링되는 자연 시스템의 디지털 트윈(Digital Twin)을 위한 모델 적응(model adaptation) 문제를 다룹니다. 기존 방식으로는 희소하고 간접적인 관측 데이터 때문에 유일한 최적의 보정값(calibration)을 찾기 어렵다는 한계가 있었습니다. 이를 해결하기 위해, 저자들은 GFlowNet 기반 접근 방식을 제안합니다. 이 방법은 모델 적응 문제를 완전한 시뮬레이터 설정에 대한 생성 모델
미래 정책을 활용한 강화학습 최적화 (NPO)
본 논문은 강화학습(RL)의 성능 향상을 위해 '근접 미래 정책 최적화(NPO)'라는 새로운 혼합 정책 기법을 제안합니다. 기존 방법들이 외부 교사나 과거 궤적에 의존하여 발생하는 분포 차이 또는 품질 한계 문제를 해결하고자 합니다. NPO는 현재 학습 중인 정책의 '근접한 미래 시점 체크포인트'를 활용하여 보조 궤적을 생성하며, 이는 현재 정책보다 강력하면서도 외부 소스보다 가까운 장점을 가집니다. 이를 통해 효과적인 학습 신호 $\mathcal{S} = Q/V$를 극대화하고, 실제 모델(Qwen3-VL-8B-Instruct)에서
시뮬레이션 기반 추론(SBI)을 활용한 실시간 장비 상태 모니터링
산업 설비의 정확한 상태 진단은 불확실성 하에서 간접 센서 측정값으로부터 잠재적인 열화 매개변수를 추론하는 것을 필요로 합니다. 기존의 MCMC 기반 베이즈 방법은 계산 비용이 높아 실시간 적용에 한계가 있었습니다. 본 논문은 이를 해결하기 위해 시뮬레이션 기반 추론(SBI)을 제안합니다. SBI는 신경망 밀도 추정기(neural density estimators)를 사용하여 열-유체 관측값에서 열화 매개변수의 전체 사후 분포로 직접적인 매핑을 학습합니다. 이 접근법은 기존 MCMC 대비 진단 정확도를 유지하면서 추론 시간을 82배
F²LP-AP: 적응형 커널을 활용한 빠르고 유연한 레이블 전파 기법
본 논문은 그래프 머신러닝의 핵심 과제인 준지도 노드 분류(Semi-supervised node classification)를 위한 새로운 프레임워크, F²LP-AP를 제안합니다. 기존 GNN들은 높은 계산 비용과 강한 동종성(homophily) 가정에 의존하는 한계가 있습니다. 반면, 레이블 전파(Label Propagation) 같은 비학습 방식은 이질적 그래프 구조(heterophilous graph)에 적응성이 떨어집니다. F²LP-AP는 계산 효율적인 학습 없는(training-free) 방식으로, 기하 평균점(geodes
자율 시스템을 위한 생애주기 인식 연합 지속 학습 (FCL) 프레임워크
본 논문은 이동형 자율 시스템(Mobile Autonomous Systems)이 장기간 임무를 수행하며 변화하는 환경에 적응할 수 있도록 '생애주기 인식 연합 지속 학습 (FCL)' 프레임워크를 제안합니다. 기존 FCL 방법론의 한계점인 획일적인 보호 전략, 누적 드리프트(cumulative drift) 문제 미해결, 실제 환경 반영 부족 등의 문제를 해결했습니다. 이 프레임워크는 로컬 학습 시 즉각적인 망각 방지(pre-forgetting prevention)와 장기적인 성능 저하 후 회복(post-forgetting)이라는 두
운전자 행동 및 지도 데이터를 결합한 개인화된 전기차 에너지 소비 예측 프레임워크
본 논문은 지리 정보(map-based contextual features)와 운전 습관을 통합하여 배터리 전기차(BEV)의 에너지 소비를 개인화하여 추정하는 프레임워크를 제시합니다. 이 시스템은 경로 선택, 도로 특징 처리, 규칙 기반 속도 생성기, 그리고 PID 제어기를 이용한 차량 동역학 시뮬레이터를 결합했습니다. 여기에 개별 운전 패턴을 학습한 Bidirectional LSTM 모델이 통합되어 정확한 개인별 속도 프로파일을 예측합니다. 이러한 예측된 속도와 지도 기반의 에너지 소비 모델(quasi-steady backward
함수 공간에서 상대 엔트로피 추정: 궤적 추론의 새로운 기준 제시
본 논문은 단일 세포 유전체학(single-cell genomics)과 같은 부분 관측 환경에서 발생하는 궤적 추론(Trajectory Inference, TI) 문제를 다룹니다. 기존 방법들이 제한적인 주변 분포 예측에 의존했던 한계를 극복하기 위해, 함수 공간상의 확률 측도 간의 Kullback-Leibler (KL) 발산을 추정하는 일반적인 프레임워크를 제안합니다. 이 데이터 기반 추정기는 실제 스냅샷 데이터셋에도 확장 가능하며, 기존 평가 지표들이 일관성 없는 결과를 내는 반면, 함수 공간 KL은 궤적 추론 방법론을 비교하고
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.