Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.LG 272건필터 해제
GFlowState: 생성 흐름 네트워크(GFN) 훈련 과정을 시각화하는 시스템
본 논문은 생성 흐름 네트워크(Generative Flow Networks, GFNs)의 훈련 과정을 심층적으로 분석할 수 있는 시각 분석 시스템인 GFlowState를 소개합니다. GFN은 보상 함수에 비례하여 샘플을 생성하는 확률론적 프레임워크로, 분자 및 재료 발견 등 다양한 분야에서 강력한 도구입니다. 하지만 모델이 샘플 공간을 어떻게 탐색하고, 궤적(trajectory)을 구성하며, 샘플링 확률을 변화시키는지 그 내부 역학은 해석하기 어려웠습니다. GFlowState는 후보 순위 차트, 상태 투영, 궤적 네트워크 노드-링크
순차적 작업의 불확실성 보정: VLA 모델 성능 향상 방안
본 논문은 로봇공학 분야에서 중요한 비전-언어-행동(VLA) 모델의 순차적 작업 수행 시 불확실성 정량화 및 보정 문제를 다룹니다. 특히, 부분적인 궤적만 관찰되는 상황에서도 신뢰할 수 있는 성능 평가가 가능하도록 '순차적 보정(sequential calibration)' 프레임워크를 제안합니다. 핵심적으로 Brier 점수의 순차적 확장을 도입하여, 시간 경과에 따른 작업 성공 확률의 위험 최소화(risk minimization)가 VLA 정책의 가치 함수(value function)와 일치함을 증명했습니다. 이를 통해 기존의 시점
그래프 신경망으로 네트워크 트래픽(NetFlow) 예측하기
본 논문은 그래프 구조와 연결 특징을 정확히 모델링하여 개별 네트워크 흐름 수준의 트래픽(NetFlow)을 예측할 수 있는 개념 증명 (PoC) Graph Neural Network (GNN) 모델을 제안합니다. IP, Port, Connection 노드를 포함하는 이종 양방향 그래프를 슬라이딩 윈도우로 분할하여 사용하며, GNN을 통해 그래프 구조의 변화와 연결 특징의 진화를 모델링합니다. 본 접근 방식은 특히 연결이 부착되는 포트(Port)와 IP 주소를 식별하는 데 탁월한 성능을 보이며, 특징 재구성 측면에서도 강력한 예측 베
데이터 공유 없이 중앙 성능 보장하는 분산 학습 방법론
본 논문은 클라이언트가 로컬 데이터셋을 공유하지 않고도 중앙 집중식(centralized) 수준의 성능을 달성할 수 있는 새로운 분산 학습 패러다임을 제시합니다. 핵심은 '상대 엔트로피 정규화 (ERM-RER)' 프레임워크를 채택하고, 클라이언트 간에 로컬에서 얻은 '깁스 측정값(Gibbs measures)'만을 순차적으로 공유하는 것입니다. 이 깁스 측정값을 참조 측정값(reference measure)으로 활용하여 사전 정보(prior information)를 인코딩함으로써, 마치 모든 데이터에 접근한 중앙 집중식 학습과 동일한
검증 가능한 악성코드 탐지: 회피 공격에 대한 수학적 보장
기존 머신러닝 기반 정적 악성코드 탐지기는 변형(metamorphic) 엔진과 같은 적대적 회피 기법에 취약합니다. 본 연구는 '랜덤화 스무딩(randomized smoothing)'을 활용하여 이러한 취약점을 해결하는 검증 가능한(certifiably robust) 악성코드 탐지 프레임워크를 제안합니다. 이 시스템은 실행 파일을 여러 변형된 버전으로 분석하고, 평활화된 분류기(smoothed classifier)의 다수결 투표와 Wilson 점수 간격 분석을 통해 특정 반경 내 특징 공간 교란에 대한 강건성을 수학적으로 보장하는
트렁케이션된 디코딩 트리를 활용한 효율적인 추론: DLE 제안
Self-consistency는 여러 추론 경로를 샘플링하고 투표하여 성능을 높이지만, 수학이나 코딩 같은 제한된 도메인에서는 중복 샘플링으로 인해 계산 효율성이 떨어집니다. 본 논문은 이러한 문제를 해결하기 위해 'Distinct Leaf Enumeration (DLE)'이라는 결정론적 디코딩 방법을 제안합니다. DLE는 부분적으로 잘린(truncated) 디코딩 트리를 탐색할 때, 중복 샘플링 대신 고유한 리프 노드를 체계적으로 열거하여 추론 효율성을 높입니다. 이 방법은 기존의 확률적 자가 일관성(stochastic self-
트랜스포머 구조를 위한 명시적 드롭아웃: 결정론적 정규화 기법
본 논문은 기존의 확률적(stochastic) 마스킹 방식에 의존하는 드롭아웃(Dropout)을 개선하여, 트랜스포머 아키텍처에 직접 통합할 수 있는 결정론적(deterministic) 정규화 기법을 제안합니다. 이 새로운 프레임워크는 어텐션 쿼리(Query), 키(Key), 값(Value), 그리고 피드-포워드(Feed-Forward) 컴포넌트 각각에 대해 독립적으로 조절 가능한 명시적인 정규화 항을 제공합니다. 실험 결과, 이미지 분류, 시간적 액션 탐지, 오디오 분류 등 다양한 태스크에서 기존의 암묵적인 드롭아웃 방식과 동등한
잠재적 교란 하 인과 효과 식별을 위한 효율적인 기호 계산 방법
관측 데이터에서 잠재적 교란(latent confounding) 하의 인과 효과를 식별하는 것은 핵심 과제입니다. 기존의 Gröbner bases 기반 접근법은 이중 지수 복잡도(doubly exponential complexity)로 인해 계산적으로 비현실적이었습니다. 본 연구는 이러한 한계를 극복하고, 합리적 식별성(rational identifiability)을 결정하기 위한 효율적인 기호 계산 알고리즘을 제시합니다. 특히, 사전에 지정된 최대 차수 내에 식별 공식이 존재한다면, 이 알고리즘은 준다항 시간(quasi-poly-
베이지안 Softmax 게이팅 MoE 모델 이론 분석
본 논문은 현대 ML에서 중요해지고 있는 Mixture-of-Experts (MoE) 모델의 베이지안(Bayesian) 프레임워크를 심층적으로 분석합니다. 특히, 널리 사용되는 softmax 기반 게이팅 메커니즘에 초점을 맞춥니다. 저자들은 밀도 추정(density estimation), 파라미터 추정(parameter estimation), 모델 선택(model selection) 세 가지 핵심 통계적 과제에 대한 사후 분포(posterior distribution)의 점근적 거동을 조사합니다. 이를 통해 고정된 전문가 수와 학습
고차원 밀도 및 정보 추정을 위한 Amortized Vine Copula (VDC)
본 논문은 고차원 데이터의 복잡한 의존성을 모델링하면서도 계산 효율성(tractability)을 유지하는 새로운 접근 방식인 'Vine Denoising Copula (VDC)'를 제안합니다. 기존의 Vine-Copula 방법론은 해석 가능성이 높지만, 각 엣지마다 반복적인 최적화가 필요하여 비용이 많이 들었습니다. VDC는 단일 이변량(bivariate) 디노이징 모델을 학습하고 이를 모든 와인 에지(vine edges)에 재사용함으로써, 계산 복잡성을 크게 줄였습니다. IPFP/Sinkhorn 투영을 적용하여 정확한 와인 우도(
보증 사례(Assurance Case) 분석을 위한 그래프 진단 프레임워크 제안
본 논문은 시스템의 요구사항이나 속성을 입증하는 구조화된 주장 문서인 '보증 사례(Assurance Case)'를 분석하기 위한 그래프 진단 프레임워크를 제안합니다. 이 프레임워크는 보증 사례의 내부 연결 구조(Structure)와 출처(Provenance) 두 가지 핵심 측면을 다룹니다. 주요 목표로는 1) 주장 요소 간의 관계 예측(Link Prediction)과 2) LLM 생성물과 인간 작성물을 구분하여 편향성을 탐지하는 그래프 분류(Graph Classification)가 있습니다. 실험 결과, Graph Neural Nn
SSM 기반 시퀀스 모델의 수학적 해석: 비선형 진동자 네트워크로 접근
최신 시퀀스 및 언어 모델에서 사용되는 State Space Models (SSM)의 계산 과정을 수학적으로 명확히 설명합니다. 본 연구는 SSM을 '정확하게 풀 수 있는 비선형 진동자 네트워크(exactly solvable nonlinear oscillator network)'와 수학적 대응 관계를 확립했습니다. 특히, S4D와 같은 특정 SSM 구현체를 링 네트워크 토폴로지에 임베딩하여, 입력 데이터를 공간을 따라 이동하는 파동으로 인코딩합니다. 이를 통해 전체 순전파 과정에 대한 정확한 연산자 표현(operator)을 도출하고
개인정보 보호를 강화한 클러스터형 연합 학습 프레임워크 PINA 제안
본 논문은 데이터 이질성 문제를 해결하기 위해 클러스터링을 도입한 연합 학습(FL)에 차분 프라이버시(DP)를 결합하는 과정에서 발생하는 노이즈와 초기화 문제를 해결하는 새로운 프레임워크 PINA를 제안합니다. PINA는 2단계 구조로, 첫째 단계에서는 경량의 LoRA 어댑터를 사용해 업데이트 스케치를 공유하고 서버가 이를 이용해 견고한 클러스터 중심점(centroid)을 구축합니다. 둘째 단계에서는 정규성 기반 집계 메커니즘을 도입하여 수렴성과 강건성을 높입니다. 실험 결과, PINA는 기존의 최신 DP-FL 알고리즘 대비 평균
캘리브레이션과 곡률의 관계: 훈련 과정에서 안정적인 모델 학습 방법
최신 신경망은 높은 정확도를 달성하지만, 신뢰도 추정(confidence estimates)이 실제 성능(empirical correctness)과 일치하지 않는 '캘리브레이션 문제'를 겪습니다. 본 논문은 캘리브레이션을 사후적 속성이 아닌 훈련 과정의 현상으로 접근합니다. 연구 결과, 딥 네트워크가 최적화되는 동안 캘리브레이션(Expected Calibration Error, ECE)이 곡률 기반의 날카로움(sharpness)을 매우 근접하게 추적한다는 것을 발견했습니다. 이를 바탕으로, 로컬 평활도와 견고한 마진 테일(rob-u
점유율 기반 보상 설계 (Occupancy Reward Shaping)로 오프라인 RL 개선
오프라인 환경에서 목표 지향적 행동을 학습할 때, 특정 행동과 장기적인 결과 사이의 시간 지연(temporal lag)으로 인해 '신용 할당(credit assignment)' 문제가 발생합니다. 본 논문은 생성 모델 기반의 세계 모델(world models)에 저장된 시간 정보를 활용하여 이 문제를 해결하는 새로운 방법인 Occupancy Reward Shaping (ORS)을 제안합니다. ORS는 최적 정책을 변경하지 않으면서도 희소 보상 환경에서 성능을 획기적으로 개선하며, 로봇 공학 및 핵융합 제어와 같은 실제 복잡한 작업에
문자열 간의 가중 각도 거리 측정법 ($d_ρ$)
본 논문은 문자열(strings)에 대한 새로운 다중 스케일 메트릭 $d_ρ$를 제안합니다. 이 메트릭은 모든 $n$-gram 카운트 벡터 간의 각도 거리를 지수 가중치 $ ho^n$로 집계하여 계산됩니다. 기존의 편집 거리(edit distance)나 일반적인 $n$-gram 기반 방법론 대비 성능을 벤치마킹했으며, DBSCAN 클러스터링 환경에서 우수한 성능을 보였습니다. 또한, 이 메트릭에 대한 선형 시간 접미사 트리 알고리즘과 함께 메트릭 및 안정성 속성을 증명하고 등거리 변환(isometries)의 특성까지 분석했습니다.
신경영상 모델의 임상 해석력 향상을 위한 특징 화이트닝 기법
본 논문은 신경 영상(neuroimaging) 분야에서 선형 모델을 사용할 때 발생하는 '해석 가능성' 문제를 해결하는 새로운 접근 방식을 제시합니다. 뇌 영역 간의 높은 상관관계가 모델 가중치 해석을 어렵게 만드는 주된 원인인데, 이를 극복하기 위해 알려진 해부학적 지식(예: 좌우 반구의 상동 구조)을 활용하여 특정 영역 그룹에 '화이트닝(whitening)' 기법을 적용합니다. 이 방법은 단순히 차원을 축소하는 것이 아니라, 상관관계가 높은 신경해부학적 쌍들 간의 정보를 분리(decorrelate)하면서도 전체 입력 신호를 보존
트랜스포머 압축의 구조적 분석: 모델 스케일별 한계점 탐구
본 연구는 GPT-2 (124M)와 Mistral 7B (7.24B)를 대상으로 트랜스포머 모델의 압축 가능성을 체계적으로 분석했습니다. 총 40개 이상의 실험을 통해 스펙트럴 압축, 블록 함수 대체, 양자화 등 다양한 기법을 검토했습니다. 주요 발견으로는 고분산 활성화 방향이 예측 방향과 독립적이며(96% 비상관), 트랜스포머 블록의 선형성이 올바른 상위 분포 하에서만 유지된다는 점 등이 있습니다. 특히, 단일 블록 대체가 34배 압축을 달성했으나 다중 블록 대체는 잔여 오차 누적 및 분포 변화로 인해 실패함을 보여주며, 정적인(
MGDA-Decoupled: DPO 기반 LLM 정렬을 위한 기하학적 다중 목표 최적화
LLM의 인간 가치 정렬은 유용성, 진실성, 무해성 등 상충될 수 있는 여러 목표를 동시에 최적화하는 다중 목표(Multi-Objective) 문제입니다. 기존 방식들은 이러한 목표들을 단일 스칼라 값으로 통합하여 특정 목표가 과소평가되는 '절차적 불공정성'을 초래했습니다. 본 논문은 기하학 기반의 새로운 알고리즘인 MGDA-Decoupled를 제안합니다. 이는 개별 목표의 수렴 역학(convergence dynamics)을 명시적으로 고려하면서 공유된 하강 방향(shared descent direction)을 찾는 방식으로, 기존
Auto-ART: AI 신뢰성 검증을 위한 구조화된 문헌 분석 및 자동 적대적 강건성 테스트 프레임워크
본 논문은 신뢰할 수 있는 ML 배포의 핵심인 '적대적 강건성(Adversarial Robustness)' 평가 분야가 파편화된 프로토콜과 미탐지 그라디언트 마스킹 문제에 직면해 있음을 지적합니다. 이를 해결하기 위해, 연구진은 두 가지 주요 기여를 제시했습니다. 첫째, 2020년부터 2026년까지의 9개 동료 검토 코퍼스를 7가지 프로토콜로 분석하여 해당 분야의 합의점과 미해결 과제를 구조적으로 종합한 최초의 연구를 수행했습니다. 둘째, 이러한 격차를 실제로 구현하는 오픈소스 프레임워크인 Auto-ART를 개발했습니다. Auto-
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.