© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.LG 2125건필터 해제

Policy Hessian Decomposition을 통한 할인된 MDP를 위한 2차 Actor-Critic 방법론

본 연구는 강화학습(RL)에서 발생하는 가치 근사 문제를 해결하기 위해 2차 최적화 기반의 Actor-Critic 방법론을 제안합니다. 기존 RL 방법들이 사용하는 1차 업데이트와 달리, 본 접근법은 목적 함수의 곡률 정보를 활용하여 수렴 속도를 높입니다. 특히, Critic이 Actor보다 빠르게 진화하는 '2-타임스케일' 프레임워크를 가정하고 Hessian-vector product (HVP) 계산을 통해 계산 효율적이고 안정적인 2차 업데이트 방법을 공식화했습니다.

DeepTokenEEG: 토큰화된 EEG 특징을 통한 경도 인지 장애 및 알츠하이머 분류 성능 향상

본 연구는 알츠하이머병(AD) 진단을 위한 새로운 경량 고성능 모델인 DeepTokenEEG를 제안합니다. 이 모델은 공간 및 시간 토크나이저를 활용하여 EEG 신호에서 AD 관련 바이오마커를 효과적으로 포착하며, 적은 파라미터 수(0.29백만 개)로도 높은 정확도를 달성했습니다. 결합 데이터셋에서 DeepTokenEEG는 특정 주파수 대역에서 최대 100%의 기록된 정확도를 보여, 기존 최신 기술 대비 성능 향상을 입증하며 AD 조기 탐지 및 선별에 큰 잠재력을 가집니다.

일반화된 우선순위 인지 Shapley Value

본 논문은 기존 Shapley value가 요구하는 이진적이고 비순환적인 쌍별 우선순위 제약을 극복하고, 임의의 유향 가중 우선순위 그래프를 기반으로 하는 일반화된 우선순위 인지 Shapley value (GPASV)를 제안합니다. GPASV는 순서 위반에 페널티를 부여하는 방식으로 작동하며, 공리적 특성 규명과 새로운 계산 방법론을 통해 확립되었습니다. 연구진은 Chatbot Arena의 선호도 그래프와 같은 실제 복잡한 데이터에 GPASV를 적용하여, 우선순위 인지 가치 평가가 단순하지 않으며 다양한 유형의 우선순위 정보 간의 균형이 중요함을 입증했습니다.

IRS 지원 mmWave MIMO의 효율적인 채널 추정을 위한 Multi-Block Attention

본 논문은 IRS 지원 mmWave MIMO 시스템에서 효율적인 채널 추정을 위한 Multi-Block Attention (MBA) 프레임워크를 제안한다. 이 방법은 OFDM 기반의 캐스케이드 채널 추정 문제를 다루며, 최소 제곱(LS) 추정기의 최적성을 바탕으로 설계되었다. 제안된 MBA 아키텍처는 공간 상관관계 회복을 위한 Convolutional Attention Network (CAN)와 노이즈 억제를 위한 Complex Multi-Convolutional Network (CMN)를 결합하여 오차 전파를 완화한다. 시뮬레이션 결과, MBA 방식은 파일럿 오버헤드를 최대 87%까지 줄이고, 기존 방법 대비 NMSE를 약 51% 낮게 달성하는 높은 성능을 보였다.

SpeakerLLM: 화자 이해 및 검증 추론을 위한 화자 특화 오디오-LLM

SpeakerLLM은 오디오 우선 에이전트 환경에서 필수적인 화자 특화 이해를 통합하기 위해 설계된 새로운 audio-LLM 프레임워크입니다. 이 모델은 누가 말하고 있는지, 목소리가 어떻게 들리는지, 녹음 조건의 영향을 포착하는 것을 목표로 합니다. 기존 시스템들이 제공하지 못했던 언어적 근거와 구조화된 추론 과정을 통합하여, 단일 발화 화자 프로파일링, 녹음 조건 이해, 그리고 증거 기반 검증 추론을 수행할 수 있습니다. SpeakerLLM은 계층적 화자 토크나이저를 사용하여 다양한 세밀도의 화자 정보를 포착하며, 구조화된 추적을 통해 최종 결정의 근거를 명확히 제시합니다.

TopoPrimer: 예측 모델에서 누락된 위상적 맥락 (Topological Context)

TopoPrimer는 시계열 집단의 전역적 위상 구조(global topological structure)를 예측 모델의 명시적인 입력으로 통합하는 프레임워크입니다. 이 프레임워크는 지속성 호몰로지 및 스펙트럼 셰프 좌표 같은 고급 수학 개념을 활용하여, 다양한 도메인에서 예측 정확도를 향상시키고 계절적 수요 급증 시 안정성을 높이며 콜드 스타트 문제를 해결합니다. TopoPrimer는 기존 모델의 성능을 일관되게 개선하며, 특히 어려운 상황(예: 계절성 정점, 콜드 스타트)에서 전통적인 모델 대비 현저한 우위를 보여줍니다.

선형 역문제(Linear Inverse Problems)를 위한 딥 생성 모델(Deep Generative Models)에서의 내재적

본 논문은 의료 영상 및 과학적 발견과 같은 고위험 애플리케이션에서 역문제의 사후 추론에 사용되는 딥 생성 모델의 한계를 다룹니다. 특히, 해석하기 어려운 사후 불확실성 속에서 내재적 모호성을 구조적으로 분해하는 '캐스케이드 공식화(Cascade Formulation)'를 제안합니다. 이 방법은 모델 재구성 품질만으로는 알 수 없는 실패 모드를 드러내는 질적 진단 및 시뮬레이션 기반 보정을 가능하게 합니다.

LLM 서빙에서의 Speculative Decoding을 위한 해석 가능한 지연 시간 모델

본 연구는 LLM 서빙 환경에서 Speculative Decoding (SD)의 동작을 분석하고 이를 위한 해석 가능한 지연 시간 모델을 개발했습니다. 이 모델은 Little's Law를 활용하여 요청률로부터 유효 배치 크기를 추론하며, 다양한 부하 조건 하에서의 지연 시간을 예측합니다. 연구진은 vLLM을 이용한 광범위한 측정을 통해 이 모델의 정확성을 검증하고, 서버 부하 증가에 따른 속도 향상 감소 원인과 주요 구성 요소(초안 길이, 수락률 등)가 지연 시간에 미치는 영향을 규명했습니다.

TFGN: LLM 규모에서 치명적 망각 (Catastrophic Forgetting) 없는 Task-Free, Replay-Free 지속적

TFGN은 리플레이나 태스크 라벨 없이 대규모 언어 모델(LLM)을 이질적인 텍스트 도메인에서 지속적으로 사전 학습할 수 있도록 설계된 구조적 오버레이입니다. 이는 Transformer의 나머지 부분을 변경하지 않으면서 입력 조건부의 매개변수 효율적인 업데이트를 생성합니다. TFGN은 다양한 규모와 방식에서 치명적 망각을 효과적으로 해결하고, 교차 도메인 순방향 전이 능력을 보여주며, 폐쇄 루프 메타 제어 및 연산자 수준 계획 기능을 통합한 최초의 아키텍처입니다.

DiffusionOPD: Diffusion Models에서의 On-Policy Distillation에 대한 통합적 관점

본 논문은 확산 기반 모델의 다중 작업 학습 문제를 해결하기 위해 Online Policy Distillation (OPD)을 활용한 새로운 패러다임인 DiffusionOPD를 제안합니다. 기존 방법들이 겪던 공동 최적화의 간섭 및 계단식 RL의 망각 문제를 피하면서, 각 작업을 독립적으로 학습시킨 교사 모델의 능력을 학생 모델로 증류하는 방식을 사용합니다. 이론적으로는 OPD 프레임워크를 연속 상태 마르코프 과정으로 확장하여 낮은 분산과 높은 일반성을 가진 폐쇄형 KL 목적 함수를 도출했으며, 실험적으로도 기존 최신 기법들을 능가함을 입증했습니다.

커널 회귀(kernel regression)에서의 평균 그래디언트 외적(Average Gradient Outer Product)은 멀티 인덱스

본 논문은 학습된 예측기가 필요한 것보다 적은 샘플을 사용하여 데이터의 저차원 구조를 발견하는 상황을 다룹니다. 연구진은 특정 멀티 인덱스 다항식 $f^*(x)$를 복구하는 문제를 분석하며, 이 타겟 함수가 알려지지 않은 중심 부분 공간으로 투영되어 입력 $x$에만 의존한다는 점에 주목합니다. 제안된 알고리즘은 커널 리지 회귀(KRR)를 적용하고, 그 예측기로부터 평균 그래디언트 외적(AGOP)을 계산하는 단순한 방식입니다. 연구 결과는 합리적인 가정 하에, 예측 오차가 크더라도 AGOP의 상위 $r$차원 고유 공간이 중심 부분 공간을 증명 가능하게 복구함을 보여줍니다. 이는 예측 성능과 표현 학습 간의 분리를 입증하며, 재귀적 특징 머신(RFM) 같은 반복적인 커널 방법론이 실제 환경에서 높은 샘플 효율성을 가질 수 있는 이론적 근거를 제시합니다.

Croissant Baker: 발견 가능하고, 거버넌스가 가능하며, 재사용 가능한 ML 데이터셋을 위한 메타데이터 생성

Croissant는 ML 데이터셋 메타데이터 표준으로 자리 잡았으며, 발견 가능하고 거버넌스가 가능한 구조화된 JSON-LD 형식을 제공합니다. 하지만 대규모 로컬 저장소에서는 기존 Croissant 생성 방식이 어려웠습니다. 이에 따라 개발진은 모듈형 핸들러 레지스트리를 활용하여 데이터셋 디렉토리에서 직접 검증된 Croissant 메타데이터를 생성하는 로컬 우선 오픈 소스 CLI 도구인 Croissant Baker를 출시했습니다. 테스트 결과, Croissant Baker는 대규모 데이터셋에서도 97-100%의 높은 일치율을 보여주었습니다.

차량 사고 부상 심각도 예측을 위한 새로운 동적 배치 민감형 Adam 옵티마이저

본 연구는 딥러닝 모델의 효율성을 높이기 위해 동적 배치 민감도를 활용한 새로운 옵티마이저인 Dynamic Batch-Sensitive Adam (DBS-Adam)을 제안합니다. DBS-Adam은 그래디언트 노름과 배치 손실의 지수 이동 평균에서 도출된 '배치 난이도 점수'를 사용하여 학습률을 동적으로 조절하며, 어려운 배치에는 더 많은 업데이트를, 쉬운 배치에는 적은 업데이트를 적용하여 학습 안정성과 수렴 속도를 향상시킵니다. 이 옵티마이저는 차량 사고 부상 심각도 예측 태스크에 Bi-LSTM과 결합되어 기존 최신 옵티마이저들 대비 통계적으로 유의미한 성능 개선을 입증했습니다.

데이터에서 행동으로: AI를 통한 정유 최적화 가속화

정유 최적화는 방대한 데이터를 활용하여 선형 계획법(LP) 소프트웨어로 처리되지만, 결과 해석과 적용에 어려움이 있습니다. 본 글은 LP 솔루션의 한계를 극복하고 의사결정을 지원하기 위해 머신러닝 기반 접근 방식, 특히 이상 탐지(Anomaly Detection) 도구를 제안합니다. 이 방법론은 과거 데이터 분석을 통해 현재 계획과의 차이를 파악함으로써 비즈니스 기회와 데이터 공급 오류를 발견하는 데 활용되었습니다.

CoCo-InEKF: 동적이고 접촉이 빈번한 시나리오에서 학습된 접촉 공분산을 이용한 상태 추정

CoCo-InEKF는 다리가 달린 로봇의 동적이고 접촉이 빈번한 시나리오에서 상태 추정의 어려움을 해결하기 위해 제안된 방법입니다. 이 방법은 기존 방식의 한계였던 이진 접촉 상태 대신, 연속적인 접촉 속도 공분산을 활용하는 미분 가능한 불변 확장 칼만 필터(InEKF)를 사용합니다. CoCo-InEKF는 학습된 신경망을 통해 접촉 신뢰도를 동적으로 조절함으로써, 단순한 접촉 여부뿐 아니라 방향성 미끄러짐이나 접촉 없음 같은 미묘한 조건까지 고려하여 로봇의 움직임을 더욱 강건하게 추정할 수 있습니다.

변분 정책 증류 (Variational Policy Distillation)를 통한 언어 피드백으로부터의 학습

기존 강화학습(RLVR)은 희소한 결과 신호 때문에 복잡한 추론 작업에서 어려움을 겪어왔으며, 기존의 온-정책 자기 증류 방법들은 고정된 교사 모델에 의존하여 학습이 정체되는 한계가 있었습니다. 본 논문에서는 언어 피드백으로부터의 학습을 변분 기대-최대화(Variational Expectation-Maximization, EM) 문제로 공식화한 '변분 정책 증류(Variational Policy Distillation, VPD)' 프레임워크를 제안합니다. VPD는 E-단계에서 교사를 능동적으로 개선하고 텍스트 피드백을 동적 목표 토큰 분포로 변환하며, M-단계에서 학생이 이를 내재화하여 수동적 증류의 한계를 극복하고 성능을 향상시킵니다.

오프-폴리시 평가 (Off-Policy Evaluation)를 위한 로깅 정책 설계

오프-폴리시 평가(OPE)는 다른 정책에 의해 수집된 데이터를 이용해 목표 정책의 가치를 추정하는 기술입니다. 본 연구는 OPE 오차를 최소화하는 로깅 정책 설계 방법을 제시하며, 높은 보상 행동에 집중할 경우 분산은 줄지만 타겟 정책의 전체 행동 공간에 대한 정보가 부족해지는 '보상-커버리지 트레이드오프'를 규명했습니다. 이를 바탕으로 다양한 정보 체계 하에서 최적의 로깅 정책을 도출하는 통합 프레임워크를 제안합니다.

Natural Synthesis: Large Reasoning Models을 통해 Reactive Synthesis 도구 능가하기

본 논문은 하드웨어 회로 자동 구축의 어려운 과제인 Reactive synthesis에 대한 새로운 접근 방식을 제시합니다. 알고리즘적으로는 대규모 추론 모델을 모델 체커와 결합한 신경-심볼릭(neuro-symbolic) 방법을 통해 Verilog 구현을 반복 수정하며, 결정 불가능한 매개변수화된 시스템까지 확장 가능함을 보여줍니다. 또한, 명세 작성의 어려움을 해결하기 위해 자연어 명세를 형식화하는 자동 형식화(autoformalization) 단계를 도입하여, 이를 엔드 투 엔드 워크플로우로 완성했습니다.

격차 벌리기: Outlier Injection을 통한 LLM 양자화(Quantization) 악용

본 연구는 LLM 배포 시 필수적인 양자화(Quantization) 과정이 심각한 보안 위험을 초래할 수 있음을 밝히고, 이를 악용하는 새로운 공격 기법을 제시합니다. 기존의 공격들이 단순한 양자화 방식에 국한되었던 한계를 넘어, AWQ, GPTQ, GGUF I-quants 등 광범위하고 정교한 현대적 양자화 기술 전반에서 일관되게 작동하는 최초의 '양자화 조건부 공격'을 개발했습니다. 이 공격은 가중치 블록에 이상치를 주입하여 예측 가능한 '가중치 붕괴(Weight collapse)'를 유도함으로써, 전체 정밀도 상태에서는 무해한 모델을 만들어 양자화 이후 광범위하고 악의적인 동작을 보이게 만듭니다.

연속적 처치 (Continuous Treatments)를 활용한 인과 파운데이션 모델 (Causal Foundation Models)

본 논문은 연속적 처치(continuous treatment) 설정을 위한 최초의 인과 파운데이션 모델(causal foundation model)을 제시합니다. 이 모델은 추가적인 학습이나 미세 조정 없이도 다양한 작업 전반에서 인과 효과를 예측하는 능력을 메타 학습하며, 풍부한 인과 학습 코퍼스 생성을 위해 새로운 사전 확률을 설계했습니다. 특히 관측 데이터만을 사용하여 개별 처치-반응 곡선을 재구성하는 데 있어 최첨단 성능을 달성합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.