Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.LG 2125건필터 해제
DisAgg: 연합 학습 (Federated Learning)에서의 효율적인 보안 집계 (Secure Aggregation)를 위한 분산
DisAgg는 연합 학습(Federated Learning) 환경에서 효율적인 보안 집계(Secure Aggregation)를 위한 새로운 분산 프로토콜입니다. 기존의 방식들이 높은 통신 및 계산 오버헤드를 가졌던 문제를 해결하기 위해, DisAgg는 소수의 클라이언트 위원회(Aggregators)를 활용하여 집계를 수행합니다. 이 프로토콜은 로컬 마스킹과 동형 암호 같은 복잡한 과정을 제거함으로써 프라이버시를 유지하면서도 엔드포인트 계산량을 크게 줄여, 기존 최상위 프로토콜 대비 월등히 빠른 처리 속도를 제공합니다.
언어 모델 사전 지식 (Language-Model Priors)을 활용한 관측 기반 POMDP 월드 모델 학습
본 논문은 언어 모델 사전 지식(Language-model priors)을 활용하여 부분 관측 마르코프 결정 과정(POMDPs)의 월드 모델 학습 문제를 해결하는 Pinductor를 소개합니다. Pinductor는 LLM이 소수의 관측-행동 궤적만으로 후보 POMDP 모델들을 제안하고, 신념 기반 가능도 점수를 최적화하며 모델을 정제합니다. 이 방법은 적은 정보로 높은 샘플 효율성을 달성하여 기존의 LLM 기반 또는 표 형식(Tabular) POMDP 학습 방식보다 우수한 성능을 보입니다.
MILM: 정보가 풍부한 샘플링을 이용한 멀티모달 불규칙 시계열을 위한 대규모 언어 모델 (Large Language Models)
MILM은 수치와 텍스트가 혼합된 불규칙한 멀티모달 시계열(MITS) 데이터를 처리하기 위해 LLM을 활용하는 새로운 프레임워크입니다. MITS를 XML 형식의 삼중항으로 변환한 뒤, 샘플링 패턴과 관측값을 단계적으로 학습하는 2단계 미세 조정 전략을 통해 예측 성능을 극대화합니다.
최소화된 일반화된 Sliced Gromov-Wasserstein: Gromov-Wasserstein을 향한 확장 가능한 경로
본 논문은 일반화된 슬라이서(generalized slicers)를 활용하여 Gromov-Wasserstein (GW) 문제에 대한 새로운 최소화 공식인 min Generalized Sliced Gromov-Wasserstein (min-GSGW)을 제안합니다. 핵심 아이디어는 두 입력 측도 모두에 호환되는 결합된 비선형 슬라이서를 학습하여, 투영된 도메인에서의 단조 결합이 원래 공간의 GW 목적 함수를 평가하는 운송 계획으로 격상되도록 하는 것입니다. min-GSGW는 기존 방식보다 낮은 계산 비용으로 기하학적 매칭 및 형상 분석에 필요한 의미 있는 기하학적 대응 관계와 GW 목적 함수 값을 제공하며, 강체 운동 불변성(rigid-motion invariant)을 가집니다.
GHGbench: 탄소 배출 예측을 위한 통합 멀티 엔티티, 멀티 태스크 벤치마크
GHGbench는 기업 및 건물 수준의 온실가스 배출량 예측을 위한 통합 공개 데이터셋이자 벤치마크입니다. 이 벤치마크는 기업 트랙(Scope 1+2, Scope 3 공시 정보 포함)과 여러 대도시에 걸친 건물 트랙(기후 공변량 및 멀티모달 원격 탐사 임베딩 포함)을 제공하며, 표준화된 평가 분할을 정의합니다. GHGbench는 모델의 성능을 다분포 내 예측뿐만 아니라 교차 지역/도시 전이 등 다양한 시나리오에서 체계적으로 검증하고, 테이블형 파운데이션 모델과 멀티모달 임베딩의 중요성을 입증합니다.
대규모 환경에서의 공정 클러스터링 (Fair Clustering)을 위한 빠르고 효과적인 알고리즘
본 기사는 공정성 민감 영역에서 사용되는 클러스터링 문제, 특히 보호 그룹에 대한 공정 클러스터링 문제를 다룹니다. 이 문제는 클러스터링 비용 최소화와 정의된 수준의 공정성을 동시에 달성하는 트레이드오프를 관리하는 것이 핵심입니다. 저자들은 이러한 비용-공정성 트레이드오프에 대해 정밀한 제어를 제공하는 일반적인 프레임워크와 세 가지 휴리스틱을 제안하며, 이를 통해 대규모 데이터셋에서도 높은 성능과 확장성을 확보할 수 있음을 보여줍니다.
VectorSmuggle: 임베딩 저장소에서의 스테가노그래피 유출 및 암호학적 출처 방어
본 논문은 RAG 시스템에서 사용되는 벡터 데이터베이스에 대한 스테가노그래피 유출(steganographic exfiltration) 공격의 취약점을 분석합니다. 공격자는 임베딩 후 섭동(perturbations)을 사용하여 페이로드 데이터를 임베딩 내부에 숨기면서도, RAG 시스템의 정상적인 검색 동작을 유지할 수 있습니다. 이에 대응하여, 연구진은 각 임베딩에 대해 소스 콘텐츠와 생성 모델을 고정하는 암호학적 출처 프로토콜인 VectorPin을 제안합니다. 이 프로토콜은 임베딩 수준의 무결성을 제공하여 공격을 차단할 수 있는 표준화된 방어 메커니즘입니다.
일상적인 종단적 실험실 데이터를 이용한 임신 관련 혈전성 미세혈관병증의 출산 전 예측을 위한 해석 가능한 머신러닝 (Machine
본 연구는 일상적인 종단적 임상 실험실 데이터를 활용하여 생명을 위협하는 질환인 임신 관련 혈전성 미세혈관병증(P-TMA)을 출산 전에 예측하는 머신러닝 모델을 개발했습니다. 300건의 임신 사례를 대상으로 로지스틱 회귀, 랜덤 포레스트 등 다섯 가지 알고리즘을 비교 평가한 결과, 그래디언트 부스팅 모델이 높은 성능(AUROC 0.872)을 보였습니다. 연구는 P-TMA 위험 예측에 있어 일상적인 진료 과정에서 얻은 종단적 데이터가 유용하며, 특히 임신 6주 차의 시스타틴 C 수치가 조기 모니터링 지표로서 잠재력을 가짐을 제시합니다.
Attention Once Is All You Need: Stateful Transformers를 이용한 효율적인 스트리밍 추론
본 기사는 스트리밍 워크로드에서 발생하는 과도한 프리필 비용 문제를 해결하기 위해 상태 유지 세션(stateful sessions) 기반의 데이터 중심 계산 모델을 제안합니다. 이 모델은 지속적으로 업데이트되는 KV 캐시를 활용하여, 쿼리 지연 시간을 누적 컨텍스트 크기와 무관하게 O(|q|)로 낮춥니다. 또한, Flash Queries와 같은 기능을 통해 유휴 GPU 사이클을 활용하고, 개선된 연속 배치 스케줄러를 통해 여러 상태 유지 세션이 단일 GPU에서 효율적으로 공존할 수 있음을 입증했습니다.
대도시 홍수를 위한 AI 기반 디지털 트윈을 향하여: 천수 방정식 (Shallow Water Equations)의 조건부 잠재 역학 네트워크
대도시 홍수 예측을 위해 천수 방정식(SWE)을 대체할 수 있는 저차원 잠재 신경 상미분 방정식 기반의 CLDNet을 제안합니다. 이 모델은 좌표 기반 디코더를 사용하여 메모리 효율성을 높이고 불규칙한 지형을 처리하며, 기존 수리 역학 시뮬레이션 대비 약 115배 빠른 속도로 96시간의 예보를 생성합니다.
확장 가능하고 견고한 MLIPs의 능동 학습을 위한 힘 인지 신경 접선 커널 (Force-Aware Neural Tangent Kernels)
본 연구는 머신러닝 원자간 포텐셜(MLIPs)의 능동 학습을 위해 확장성, 에너지-힘 감독 활용, 그리고 견고성을 동시에 해결하는 방법을 제시합니다. 핵심적으로 청크 단위 특징 공간 사후 분산 쇼트리스팅 기반의 선형적 획득 프레임워크를 도입하여 대규모 후보 스크리닝을 가능하게 했습니다. 또한, 혼합 매개변수-좌표 미분을 통해 힘 인지 신경 접선 커널(force NTK) 및 결합 에너지-힘 NTK를 생성하고, 이를 통해 기존 방법론 대비 우수한 성능과 견고성을 입증했습니다.
확장 가능한 변분 Monte Carlo를 위한 병렬 스캔 순환 신경 양자 상태 (Parallel Scan Recurrent Neural
본 연구는 기존의 순차적이라는 인식 때문에 확장성이 떨어진다고 여겨졌던 순환 신경망 양자 상태(RNN quantum states)에 대한 관점을 재검토한다. 병렬화 가능한 순환 구조와 자기회귀 파동 함수를 결합하여, 1D 및 2D 공간에서 변분 Monte Carlo 내에서 효율적으로 학습할 수 있는 '병렬 스캔 순환 신경 양자 상태(PSR-NQS)'라는 새로운 변분 안사츠를 개발했다. 이 접근 방식은 대규모 스핀 격자에 대한 정확한 시뮬레이션 능력을 입증하며, 순환 아키텍처가 확장 가능한 신경 양자 상태 시뮬레이션을 위한 실용적인 경로임을 제시한다.
Min-Max Optimization에는 지수적으로 많은 쿼리가 필요함
본 논문은 $[0,1]^d imes [0,1]^d$ 상의 비볼록-비오목(nonconvex-nonconcave) 함수 $f$의 min-max 최적화에 대한 쿼리 복잡도를 분석합니다. 오라클 접근을 통해 $f$와 그 기울기 $ abla f$를 사용할 수 있는 경우에도, $\varepsilon$-근사 정지점(stationary point)을 찾는 모든 알고리즘은 $1/\varepsilon$ 또는 차원 $d$에 대해 지수적인 횟수의 쿼리를 수행해야 함을 증명합니다.
무작위 Hadamard Transform을 이용한 증명 가능한 양자화 (Provable Quantization with Randomized
본 연구는 무작위 Hadamard Transform ($HD$)을 활용한 디더링 양자화(Dithered Quantization) 기법을 제안한다. 이 방법은 입력 벡터에 $HD$를 적용하고, 추가적인 무작위 스칼라 오프셋을 빼서 무시할 수 있는 비용으로 무작위성을 주입하는 것이 핵심이다. 연구진은 이 접근 방식이 편향되지 않으며, 진정한 무작위 회전 행렬로 달성 가능한 것과 점근적으로 일치하는 평균 제곱 오차(MSE) 경계값을 제공함을 증명했다.
스마트워치를 이용한 정신병적 재발의 불확실성 기반 이상 탐지: 예측 및 멀티태스크 학습 융합
본 연구는 스마트워치를 활용하여 정신병적 재발을 조기에 탐지하기 위한 두 가지 혁신적인 프레임워크를 개발했습니다. 첫 번째는 심장 역학 예측과 관찰값 간의 편차를 이상 징후로 사용하고, 두 번째는 수면, 움직임, 심장 신호를 통합하는 멀티태스크 학습을 통해 시간 인지 임베딩 및 측정 타이밍을 예측합니다. 최종적으로 이 두 아키텍처에서 도출된 이상 점수를 후기 융합(late-fusion)하여 시너지를 내는 통합 모델을 제안했으며, 실제 데이터셋에서 우수한 성능 향상을 입증했습니다.
Valiant의 학습 가능성 이론에서 학습 가능한 것은 무엇인가?
본 논문은 Valiant의 1984년 PAC 학습 모델과 다른 변형에 초점을 맞추어, 이 모델에서 실제로 '학습 가능한' 클래스가 무엇인지 재검토합니다. 연구진은 모든 유한 도메인에 대해, 클래스의 학습 가능성이 실현 가능한 양성 샘플이 다항식 크기의 적응형 쿼리 압축 스킴으로 인증될 수 있는 필요충분조건임을 증명했습니다. 이 결과는 멤버십 쿼리가 학습 가능한 클래스 집합 자체를 변화시키는 중요한 사례이며, PAC 모델과 쿼리가 없는 Valiant 모델 변형 사이에 엄격한 구조적 관계가 있음을 보여줍니다.
과학적 머신러닝 (Scientific machine learning)에서의 샘플 간 예측 변동성 (cross-sample prediction
본 논문은 과학적 머신러닝(Scientific ML) 분야에서 예측 성능 외에 중요한 '샘플 간 예측 변동성(cross-sample prediction churn)'이라는 개념을 제시합니다. 이 변동성은 동일한 훈련 데이터셋의 독립적인 부트스트랩으로 학습된 모델들이 테스트 분자에 대해 일관된 클래스 레이블을 유지하는 정도를 측정합니다. 연구진은 기존 파라미터 기반 방법으로는 줄일 수 없지만, $K$-부트스트랩 배깅이나 새로운 '트윈-부트스트랩(twin-bootstrap)'과 같은 데이터 기반 방법을 통해 이 변동성을 효과적으로 감소시킬 수 있음을 보여줍니다.
R-DMesh: Rectified Dynamic Mesh Flow를 통한 비디오 가이드 기반 3D 애니메이션
R-DMesh는 비디오 가이드 기반 3D 애니메이션에서 발생하는 '포즈 불일치 딜레마'를 해결하기 위해 제안된 통합 프레임워크입니다. 이 방법은 입력 메쉬의 초기 포즈를 참조 비디오의 시작 상태에 자동으로 맞추는 '교정 점프 오프셋(rectification jump offset)'을 도입합니다. R-DMesh는 조건부 베이스 메쉬, 상대적 모션 궤적, 그리고 교정 오프셋을 분리하여 물리적 일관성을 유지하며 고충실도 4D 메쉬를 생성할 수 있습니다.
QLAM: 긴 시퀀스 토큰 모델링을 위한 양자 긴-어텐션 메모리 접근 방식
QLAM은 상태 공간 모델(SSMs)의 선형 시간 계산 효율성을 유지하면서, 양자 시스템의 중첩 특성을 활용해 메모리 표현력을 강화한 새로운 접근 방식입니다. 기존 SSM의 가산적 업데이트 한계를 극복하기 위해 은닉 상태를 양자 상태로 표현하며, 이를 통해 복잡한 전역적 상호작용을 효율적으로 포착합니다. 이미지 분류 벤치마크 실험 결과, Transformer 및 기존 순환 모델 대비 우수한 성능 향상을 입증했습니다.
Grid Games: 대규모 언어 모델 양자화를 위한 다중 그리드의 힘
본 논문은 대규모 언어 모델(LLM) 양자화의 새로운 접근 방식인 '다중 그리드'를 제안합니다. 이는 기존의 고정된 부동 소수점 그리드를 가정하는 대신, 각 값 그룹에 대해 여러 4비트 그리드 중 최적의 것을 선택할 수 있도록 확장한 개념입니다. 연구 결과, 이 다중 그리드 접근 방식은 특히 가중치와 활성화 값 모두를 처리할 때 단일 그리드 FP4 대비 정확도를 지속적으로 향상시키는 것으로 나타났습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.