Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.LG 2052건필터 해제
Fuzzy PyTorch: 딥러닝 모델의 신속한 수치적 변동성 평가를 위한 프레임워크
딥러닝 모델의 부동 소수점 산술 변동성을 신속하게 평가하기 위한 프레임워크인 Fuzzy PyTorch를 소개합니다. 확률적 반올림 기술을 통해 기존 도구 대비 실행 시간을 대폭 단축하며 대규모 모델에서도 높은 확장성을 입증했습니다.
LLM 개발 및 평가를 위한 인과적 방법론 (Causal methods)
LLM 개발 및 평가 과정에서 발생하는 데이터 혼합, 보상 모델, 라우팅 전략 등의 핵심 질문들을 인과적 방법론(Causal methods) 관점에서 분석합니다. 기존의 예측 중심 접근 방식이 가진 한계를 지적하며, 인과 추론을 통한 과학적이고 신뢰할 수 있는 설계 방안을 제시합니다.
유한 분산을 넘어선 확률적 경사 하강법 (SGD)의 통계적 추론
무한 분산을 가진 확률적 경사 하강법(SGD) 환경에서도 통계적 추론이 가능하도록 돕는 새로운 방법론을 제안합니다. 모델 불가지론적 접근을 통해 SGD 궤적으로부터 신뢰 영역을 구축하며, 유한 및 무한 분산 영역 모두에서 점근적으로 유효한 결과를 제공합니다.
뉴럴 오퍼레이터(Neural Operators)를 이용한 전산유체역학(CFD)에서의 베이지안 역설계 가속화
뉴럴 오퍼레이터를 활용하여 전산유체역학(CFD) 기반의 베이지안 역설계 과정을 획기적으로 가속화하는 연구입니다. 대리 모델을 MCMC 샘플링 루프에 직접 통합하여 물리적 불확실성을 보존하면서도 추론 시간을 1초 미만으로 단축했습니다.
로그 깊이 순환 유닛(Log-Depth Recurrent Units)을 이용한 길이 일반화
신경망의 길이 일반화 문제를 해결하기 위해 로그 깊이 순환 유닛(MLP-LDRU)을 제안합니다. 이 모델은 병렬 리덕션을 통해 순환을 근사하며, 정규 언어 및 NLP 벤치마크에서 기존 모델을 능가하는 성능을 보였습니다.
모델 불확실성 하에서의 강건한 의사결정을 위한 목표 지향적 베이지안 최적 실험 설계
모델 파라미터의 불확실성을 줄이는 대신 특정 의사결정 목표를 최적화하는 GoBOED 프레임워크를 제안합니다. 변분 사후 대리 모델과 미분 가능한 의사결정 레이어를 결합하여 목표 지향적인 실험 설계를 가능하게 합니다.
Paris 2.0: 비디오 생성을 위한 분산형 확산 모델 (Decentralized Diffusion Model)
Paris 2.0은 분산형 연산을 통해 학습된 최초의 비디오 생성 모델입니다. 기존 Paris 1.0의 이미지 생성 기술을 넘어, 분산형 환경에서도 시간적 일관성을 유지하는 비디오 생성을 성공적으로 구현했습니다.
선호도 학습을 위한 능동적 쿼리 합성 (Active Query Synthesis)
사용자 선호도 학습의 비용 문제를 해결하기 위해 능동적 쿼리 합성 프레임워크인 Info-Synth를 제안합니다. 이 프레임워크는 피드백의 신뢰도 문제를 고려하며, 연속 공간 내 상호 정보량을 최대화하여 최적의 쿼리를 생성합니다.
DiscoverPhysics: 즉각적인 과학적 사고를 위한 LLM 벤치마킹
LLM이 새로운 물리 법칙을 발견할 수 있는지 평가하는 대화형 벤치마크인 DiscoverPhysics를 소개합니다. 에이전트가 시뮬레이션 세계의 데이터를 관찰하고 가설을 세워 물리 법칙을 추론하는 능력을 측정합니다.
엔트로피 정규화 강화학습 (Entropy-Regularized Reinforcement Learning)을 위한 Wasserstein 정책
Wasserstein 정책 경사(WPG)를 활용한 엔트로피 정규화 강화학습의 전역 수렴 이론을 다룹니다. Bellman 구조를 활용하여 기존의 볼록성 기반 분석을 대체하고, 분포적 Polyak-Łojasiewicz 조건을 통해 수렴성을 증명합니다.
루프형 확산 언어 모델 (Looped Diffusion Language Models)
마스크 확산 모델(MDM)의 효율성을 높이기 위해 트랜스포머의 레이어를 선택적으로 루프시키는 LoopMDM 구조를 제안합니다. 이 방식은 파라미터 추가 없이 모델의 깊이를 확장하며, 훈련 효율성과 추론 성능을 동시에 개선합니다.
언어 모델에서의 망각: 용량, 최적화, 그리고 자기 생성 재생 (Self-Generated Replay)
언어 모델이 새로운 태스크를 학습할 때 발생하는 망각 현상을 해결하기 위해 '자기 생성 재생(Self-Generated Replay)' 기법을 제안합니다. 모델 스스로 생성한 샘플을 활용하면 이전 지식을 유지하면서도 효율적인 미세 조정이 가능함을 입증했습니다.
뉴럴 Hamiltonian 상미분 방정식(NHODE)을 이용한 부분 관측 시스템 학습
부분 관측된 동적 시스템을 학습하기 위해 Hamiltonian 신경망과 Neural ODE를 결합한 NHODE 프레임워크를 제안합니다. 물리적 구조를 임베딩하여 에너지 보존을 강제함으로써, 관측되지 않은 상태에서도 높은 예측 정확도와 장기 안정성을 확보합니다.
하나의 점으로는 부족할 때: 분할(Splitting)을 통한 차원 축소(Dimensionality Reduction)에서의 모호한 인스턴스
차원 축소(DR) 과정에서 발생하는 시각적 아티팩트의 원인인 '모호한 인스턴스' 문제를 다룹니다. 고차원에서 여러 이웃과 유사한 데이터를 단일 점으로 매핑할 때 발생하는 왜곡을 해결하기 위해, 데이터를 여러 점으로 분할하여 투영하는 그래프 기반 접근 방식을 제안합니다.
MARS: 크기 인지형 순위 통계 (Magnitude-Aware Rank Statistics)
기존 CD 다이어그램의 이산적 순위 기반 평가가 가진 '크기 맹목성' 문제를 해결하기 위해 MARS를 제안합니다. MARS는 상대적 마진 계수를 통합하여 모델 간 성능 격차의 크기를 반영한 더욱 현실적인 통계적 평가를 제공합니다.
희소 특징(Sparse Features)으로부터의 비대칭 스케일링 법칙 (Asymmetric Scaling Laws)
희소 활성화(Sparse Activations) 환경에서의 신경망 스케일링 법칙을 분석한 연구입니다. 희귀 좌표가 테스트 손실에 미치는 영향을 규명하고, 미매개변수화 및 과매개변수화 영역에서의 점근적 손실과 이중 하강 현상을 설명합니다.
차원이 검색 모델의 장벽인가?
임베딩 기반 검색 모델에서 표현 차원(dimension)과 최대 마진(maximal-margin) 사이의 관계를 통신 복잡도 관점에서 연구합니다. 연구 결과, 특정 조건에서 낮은 차원으로도 최적의 마진을 달성할 수 있음을 수학적으로 입증했습니다.
에피소드 기반 선호 피드백으로부터의 커널 기반 MDP 학습
에피소드형 커널 MDP 환경에서 선호도 피드백만을 이용한 강화학습의 이론적 연구를 다룹니다. Bradley-Terry-Luce 모델을 기반으로 선호 기반 가치 추정 및 신뢰 집합을 개발하고, 최적 정책으로의 수렴을 증명하는 후회 경계(regret bounds)를 제시합니다.
더 적은 노력, 더 짧은 증명: Tamarin의 보안 프로토콜 분석을 위한 강화학습 (RL)
Tamarin 보안 프로토콜 분석을 자동화하기 위해 강화학습(RL)을 적용한 새로운 증명 탐색 프레임워크를 제안합니다. MCTS와 신경망 휴리스틱을 결합하여 기존 방식보다 더 많은 증명을 찾아내고 더 짧은 증명을 생성합니다.
인공 신경망 (ANN)을 이용한 역기구학 (IK) 솔루션을 위해 필요한 학습 샘플의 수는 얼마인가
인공 신경망(ANN)을 이용한 역기구학(IK) 솔루션의 정확도와 학습 샘플 수 사이의 관계를 연구합니다. 실험 결과, 125개 이상의 샘플은 모델 효율성 향상에 기여하지 않음을 밝혀 데이터 최적화 지침을 제공합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.