Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

확장 가능한 LLM 학습을 위한 런타임 오케스트레이션 기반 2차 최적화 기술

2차 최적화 방법론은 높은 샘플 효율성을 제공하지만 대규모 옵티마이저 상태 유지로 인한 시스템 비용 문제가 있습니다. 본 논문은 Asteria라는 런타임 시스템을 통해 옵티마이저 상태를 GPU, CPU, NVMe에 동적으로 분산하고 비동기 연산을 수행하여 이 병목 현상을 해결합니다. 이를 통해 대규모 언어 모델(LLM) 학습 시 2차 최적화의 이점을 유지하면서도 실용적인 학습 속도와 효율성을 달성합니다.

5월 18일0

arXiv논문

형식 기법과 LLM의 결합: 고급 AI 시스템의 준수성을 위한 감사, 모니터링 및 개입

본 연구는 AI 개발 생명주기 전반에서 LLM의 안전성과 규정 준수를 보장하기 위해 형식 기법(Formal Methods)을 결합한 새로운 감사 및 모니터링 기술을 제안합니다. 선형 시제 논리(LTL)를 활용하여 시간적 제약 조건을 검증하며, 예측 모니터링과 개입형 모니터를 통해 위반 사항을 선제적으로 차단합니다. 실험 결과, 제안된 방식은 기존 LLM 기반 방법보다 우수한 탐지 성능을 보였으며, LLM의 한계인 시간적 추론 능력을 효과적으로 보완함을 입증했습니다.

5월 18일0

arXiv논문

수치 적분법을 이용한 확장 가능한 비매개변수 연속 시간 생존 모델

QSurv는 시간 이산화나 제한적인 분포 가정 없이 비매개변수 연속 시간 생존 모델링을 가능하게 하는 확장 가능한 딥러닝 프레임워크입니다. Gauss-Legendre 수치 적분법을 사용하여 누적 위험을 정확하게 근사하며, 시간 조건부 저차원 적응(time-conditioned low-rank adaptation)을 통해 복잡한 비정상적 위험 역학을 효과적으로 포착합니다.

5월 18일0

arXiv논문

가설 기반의 중간 규모 역학 (Mesoscopic Dynamics) 구축 방법론

본 연구는 복잡한 다중 스케일 시스템을 위해 수학적으로 제약된 가설 클래스 내에서 중간 규모 역학(Mesoscopic dynamics)을 학습하는 새로운 방법론을 제안합니다. 온사거 원리를 기반으로 소산적 및 보존적 역학을 통합하며, 학습 전 전역적 적정성과 안정성 등 이론적 보장을 확립하여 정확하고 해석 가능한 모델을 생성합니다. 연속체 PDE 및 미시적 사슬 모델 데이터를 통해 프레임워크의 유효성을 검증하였습니다.

5월 18일0

arXiv논문

꼬리 위험 학습의 프라이버시 비용: 차분 프라이버시 CVaR 최적화에서의 유효 꼬리 샘플 크기

본 논문은 차분 프라이버시(Differential Privacy) 환경에서 CVaR(Conditional Value-at-Risk) 학습 시 발생하는 유효 샘플 크기의 변화를 분석합니다. 프라이버시 적용 시 유효한 꼬리 샘플 크기가 $n\tau$에서 $\epsilon n\tau$로 감소함을 밝히고, 스칼라 추정 및 유한 클래스 상황에서의 수렴 속도와 오차 분해를 수학적으로 증명합니다.

5월 18일0

arXiv논문

원자 좌표를 통한 실험 수준 정확도의 범용 자기 구조 예측 기술

본 연구는 원자 결정 구조로부터 공선적 및 비공선적 자기 구조를 모두 예측할 수 있는 E(3) 등변 그래프 신경망인 Magnetic Structure Network(MSN)를 제안합니다. PMSR이라는 새로운 표현 방식을 통해 대칭성 가정 없이 정수적 및 비정수적 구조를 통일된 방식으로 인코딩하며, 실험 수준의 정확도로 자기 구조를 재구성할 수 있습니다.

5월 18일2

arXiv논문

랜덤 코드를 이용한 Flow Matching 모델의 역학 수준 워터마킹 기술

Flow Matching 모델의 속도장(Velocity field)에 직접 워터마크를 삽입하는 역학 수준(Dynamics-level)의 새로운 워터마킹 기술을 제안합니다. 연속 채널 상의 랜덤 코딩 방식을 사용하여 생성된 데이터의 품질을 유지하면서도, 블랙박스 쿼리를 통해 메시지를 안전하게 복구할 수 있습니다.

5월 18일0

arXiv논문

TILBench: 다양한 데이터 영역에 걸친 정형 데이터 불균형 학습을 위한 체계적인 벤치마크

본 연구는 정형 데이터(tabular data)의 불균형 학습 문제를 다루기 위해 대규모 경험적 벤치마크인 TILBench를 제시합니다. TILBench는 57개의 다양한 정형 데이터셋과 40개 이상의 알고리즘을 사용하여 20만 개 이상의 통제된 실험을 수행했습니다. 연구 결과, 불균형 학습 방법의 효과는 특정 방법론에 국한되지 않고 데이터셋의 특성과 계산 제약 조건에 강력하게 의존함을 보여주며, 실질적인 방법 선택 가이드를 제공합니다.

5월 15일2

arXiv논문

자유로운 기하학적 사전 정보로서의 도로 지도: GeoFuse를 이용한 날씨 불변 드론 지리 위치 식별 (Geo-Localization)

GeoFuse는 날씨 변화로 인해 저하된 드론 이미지의 지리 위치 식별(geo-localization) 문제를 해결하기 위해 개발된 교차 모달 융합 프레임워크입니다. 이 프레임워크는 정밀하게 정렬된 도로 지도 데이터를 위성 이미지와 통합하여, 기상 조건에 강건하고 변별력 높은 구조적 사전 정보를 생성합니다. GeoFuse는 토큰 및 채널 수준의 유연한 특징 결합과 동적 게이팅 메커니즘을 통해 성능을 극대화하며, 다양한 날씨 조건에서 기존 최신 기술 대비 우수한 정확도를 입증했습니다.

5월 15일0

arXiv논문

대규모 언어 모델의 사후 학습 양자화(Post-Training Quantization)를 위한 하드웨어 인지적 레이어별 방법론

이 기술 기사는 대규모 언어 모델(LLM)의 사후 학습 양자화(Post-Training Quantization, PTQ)를 위한 하드웨어 인지적 방법론인 Scaled Outer Product (SOP)을 소개합니다. SOP는 레이어별 LUT 디코딩이 가능한 하드웨어에서 가중치당 4.5~6비트 수준의 손실 없는 충실도를 제공하도록 설계되었습니다. 이 방법론은 코드북 탐색, 블록별 부호화 스케일링, 활성화 가중 코사인 선택 등을 결합하며, 새로운 하드웨어 효율적 LUT 출력 형식(HIF)을 통해 성능과 에너지 효율성을 개선합니다.

5월 15일0

arXiv논문

클러스터 구조 특징(Cluster-Structured Features) 상에서의 얕은 신경망(Shallow Neural Networks)을

본 논문은 고차원 데이터가 가지는 공간적 상관관계가 얕은 신경망의 학습 샘플 복잡도에 미치는 영향을 연구한다. 특히, 입력 특징이 클러스터 구조를 이루고 잠재 변수와 상관관계를 가질 때, 적절한 모델(layerwise gradient-descent)을 사용하면 샘플 복잡도가 은닉 변수의 수에 따라 확장되며 신호 대 잡음비가 충분히 높다면 입력 차원과는 무관함을 이론적으로 증명하고 경험적으로 검증한다.

5월 15일0

arXiv논문

멀티모달 회귀 능동 학습을 위한 상호 정보량 하한 (A Mutual Information Lower Bound for Multimodal

연속적인 회귀 작업에서 예측 분포가 멀티모달일 때 발생하는 인식론적 불확실성을 효과적으로 포착하기 위한 새로운 능동 학습 프레임워크를 제안합니다. Two-Index 프레임워크를 통해 인식론적 불확실성과 데이터 자체의 무작위성을 분리하며, Mixture Density Network 앙상블을 위한 상호 정보량 하한(MI-LB) 근사치를 도출하여 기존 베이스라인보다 뛰어난 성능을 입증했습니다.

5월 15일0

arXiv논문

Slot-MPC: 객체 중심 표현을 이용한 목표 조건부 모델 예측 제어 (Goal-Conditioned Model Predictive

Slot-MPC는 객체 중심 표현을 활용하여 목표 조건부 모델 예측 제어(Goal-Conditioned Model Predictive Control, MPC)를 가능하게 하는 새로운 프레임워크입니다. 이 방법은 슬롯 기반 표현을 학습하여 개별 객체를 인코딩하고, 이를 통해 행동 조건부 객체 중심 역학 모델을 구축합니다. Slot-MPC는 MPC를 사용하여 에이전트가 이전에 경험하지 못한 상황에서도 일반화된 행동 계획을 수행할 수 있게 하며, 특히 그래디언트 기반 MPC를 활용하여 계산 효율성을 높였습니다.

5월 15일2

arXiv논문

모든 심볼이 동일하지는 않다: 의미론적 통신 (Semantic Communication)을 위한 중요도 인식 성좌 설계

본 논문은 목표 지향적 전송을 위해 소스 압축뿐만 아니라 물리 계층 매핑에서도 작업 관련 정보를 보호하는 공동 의미론적-물리 계층 프레임워크를 제안합니다. 이 프레임워크는 벡터 양자화 변분 오토인코더와 의미론적 중요도 지표(SCI)를 활용하여, 중요한 심볼에 더 높은 보호 수준을 부여하고 채널 상태에 따라 전송 서브셋을 동적으로 선택하는 방식을 사용합니다. 그 결과, 제안된 성좌는 표준 M-QAM 대비 월등히 높은 의미론적 품질과 압축률을 달성하며, 작업 중요도에 따른 심볼 취약성을 정량화하여 성능 우수성을 입증했습니다.

5월 15일0

arXiv논문

Octopus: 멀티모달 거대 언어 모델 (MLLMs)의 지속 학습 (Continual Learning)을 위한 이력 없는 그래디언트 직교화

본 논문은 멀티모달 거대 언어 모델(MLLMs)의 지속 학습(Continual Learning) 문제를 해결하기 위해 Octopus라는 새로운 프레임워크를 제안합니다. 기존 방법들이 가진 계산 오버헤드, 데이터 저장 문제, 파라미터 간섭 등의 한계를 극복하고자 합니다. Octopus는 과거 태스크 데이터를 사용하지 않고도 그래디언트 수준의 직교성(Orthogonality)을 강제하는 이력 없는 그래디언트 직교화(HiFGO)를 기반으로 하며, 2단계 미세 조정 전략을 통해 모델의 가소성과 안정성을 효과적으로 균형 잡습니다.

5월 15일0

arXiv논문

nASR: 실시간 BCI를 위한 채널 수준 EEG 아티팩트 부분 공간 재구성(Artifact Subspace Reconstruction)을

본 논문은 EEG 신호의 아티팩트 제거 기술인 ASR(Artifact Subspace Reconstruction)이 임계값 민감성 및 필수 신경 정보 손실 등의 한계를 가짐을 지적합니다. 이를 해결하기 위해, 아티팩트 제거와 다운스트림 디코딩을 공동으로 최적화하는 새로운 End-to-End 학습 가능한 Keras 레이어인 nASR을 제안했습니다. nASR은 PC 분산과 고유값 확산을 정량화하여 선택적인 채널 수준 재구성을 가능하게 하며, 기존 ASR 대비 우수한 분류 성능과 6~8배 단축된 추론 시간을 보여 실시간 BCI에 적합함을 입증합니다.

5월 15일0

arXiv논문

신경망 에뮬레이터를 통한 플라즈마 형상 제어를 위한 실시간 가상 회로 (virtual circuits)

토카막 플라즈마의 정밀한 형상 제어를 위해 실시간으로 가상 회로(Virtual Circuits, VCs)를 도출할 수 있는 신경망 기반 에뮬레이터를 제안합니다. 기존의 사전 계산 방식은 플라즈마 상태 변화에 취약하지만, 본 연구의 미분 가능한 신경망 에뮬레이터는 100만 개 이상의 GS 평형 데이터를 학습하여 실시간으로 정확하고 직교적인 VCs를 제공합니다.

5월 15일2

arXiv논문

제한된 피드백 환경에서의 효율적인 온라인 컨포멀 선택 (Efficient Online Conformal Selection with

본 연구는 에이전트가 주어진 목표 확률 $\phi$로 최소한 하나의 '성공'을 식별해야 하는 컨포멀 선택 문제를 다룹니다. 특히 피드백 정보가 제한적인(limited feedback) 상황에서, 자원 비용을 최소화하는 효율적인 온라인 컨포멀 예측 방법을 제안합니다. 연구진은 적응형 컨포멀 추론(ACI) 업데이트 규칙이 적대적으로 타당하며, 분포 변화 상황에서도 성공 목표 달성을 보장하고 확률적 효율성 및 서브리니어 효율성 후회(sublinear efficiency regret)를 입증하는 알고리즘을 제시합니다.

5월 15일0

arXiv논문

InfoSFT: 정보 인지 토큰 가중치 부여를 통해 더 많이 배우고 덜 잊기

InfoSFT는 지도 미세 조정(SFT)의 한계를 극복하기 위해 제안된 새로운 방법론입니다. 표준 SFT가 낮은 가능도의 샘플에 과적합되거나 정책 변화를 유발하여 기존 능력을 저하시키는 문제를 해결합니다. InfoSFT는 정보량이 최대화된 중간 신뢰도 토큰(medium-confidence tokens)에 가중치를 부여하여 학습 신호를 집중함으로써, 모델의 일반화 성능을 향상시키고 동시에 기존 지식을 효과적으로 보존할 수 있습니다.

5월 15일0

arXiv논문

확장 가능한 Gromov--Wasserstein 학습을 위한 거리 행렬 Wasserstein 통계량

본 논문은 공통 좌표계 없이 내부 거리를 이용해 그래프, 형상 등을 비교하는 Gromov--Wasserstein (GW) 거리의 대규모 추정 문제를 해결하기 위해 Distance-Matrix Wasserstein (DMW) 통계량을 제안합니다. DMW는 전역적인 포인트 정렬 대신 샘플링된 쌍별 거리 행렬 분포를 운송하여 GW의 완화(relaxation)이자 하한(lower bound)임을 증명했습니다. 또한, 데이터 매니폴드에 의존하는 유한 샘플 경계와 확장 가능한 계산을 위한 sliced 및 multi-scale DMW 기법을 제시하며, 이를 다양한 응용 분야에서 검증합니다.

5월 15일0

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드