Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.LG 1862건필터 해제
Z-Plane 신경망: ReLU와 LayerNorm을 대체하는 유계 기하학적 활성화 함수
ReLU와 LayerNorm 없이도 안정적인 학습이 가능한 Z-Plane 신경망을 제안합니다. 초구체 상의 2D 페이저 번들 매핑과 새로운 기하학적 활성화 함수를 통해 그래디언트 불안정성을 해결하고 특징 표현의 직교성을 보존합니다.
Reservoir Attention Network: 사전 학습된 Transformer의 Content-Addressable Reservoir
Reservoir Attention Network(RAN)는 사전 학습된 Transformer의 중간 레이어에 고정된 무작위 리저버를 주입하여 상태를 전달하는 새로운 아키텍처를 제안합니다. 학습되지 않은 순환 역학만으로도 효과적인 상태 전달이 가능한지 연구하며, GPT-2와 Qwen2.5 모델을 통해 그 타당성을 검증합니다.
ReQAT: 4-bit 부동 소수점 양자화 인식 학습(Quantization-Aware Training)을 통한 풀
대규모 추론 모델(LRM)의 배포 비용을 줄이기 위해 4-bit 부동 소수점 양자화 인식 학습(QAT) 프레임워크인 ReQAT를 제안합니다. 저엔트로피 토큰에서 발생하는 양자화 노이즈 문제를 해결하여 추론 성능을 유지하면서도 처리량을 대폭 향상시켰습니다.
Multi-Fidelity SINDy: 충실도 가중 측정치를 이용한 비선형 동적 시스템의 희소 발견
이 연구는 노이즈 수준이 다른 이질적인 데이터로부터 비선형 동적 시스템을 식별하는 Multi-Fidelity SINDy 프레임워크를 제안합니다. Ensemble SINDy와 Weak SINDy를 결합하여 가변적인 노이즈를 고려한 가중 회귀 방식을 도입했습니다. 벤치마크 테스트를 통해 저비용·저품질 데이터가 모델 복구 성능을 개선할 수 있음을 입증했습니다.
MAF: MLLM을 이용한 감성 분석을 위한 멀티모달 적응형 퓨샷 프롬프팅 (Multimodal Adaptive Few-shot
MLLM의 감성 분석 성능을 높이기 위해 동적으로 예시를 검색하고 통합하는 MAF 프레임워크를 제안합니다. 얼굴 표정, 장면 문맥, 텍스트를 통합 인코딩하며, 질의 조건부 융합 가중치를 통해 최적의 퓨샷 예시를 검색하여 추론 능력을 극대화합니다.
생성기 리플레이가 저하될 때: 이질적 연합 클래스 증분 학습을 위한 투영된 리허설 오케스트레이션 (Projected Rehearsal
이질적인 연합 클래스 증분 학습(FCIL) 환경에서 발생하는 생성기 리플레이 저하 문제를 해결하기 위한 새로운 프레임워크 PRO를 제안합니다. 합성 입력 대신 투영된 메모리를 활용하여 데이터 불균형과 단계 불일치 상황에서도 지식 보존 능력을 향상시킵니다.
Shifted Data Augmentation을 통한 강건한 Transformer 기반 1단계 주가 지수 예측
금융 시계열 데이터의 노이즈와 분포 변화 문제를 해결하기 위해 Shifted Data Augmentation(SDA)과 코사인 어닐링 스케줄링을 결합한 새로운 Transformer 아키텍처를 제안합니다. VN30 및 S&P 500 데이터셋 실험을 통해 예측 정확도와 하이퍼파라미터 강건성이 크게 향상됨을 입증했습니다.
Schattor: 딥러닝 최적화를 위한 Schatten 계열 방법론
Schatten 노름을 기반으로 한 새로운 적응형 1차 최적화 방법론인 Schattor를 제안합니다. SGD와 Muon을 통합한 프레임워크로, 확률적 행렬 최적화 문제에서 차원 독립적인 정지 보장을 제공합니다.
InstantForget: 추론 시점의 특징 리셋을 통한 업데이트가 필요 없는 백도어 언러닝 (Backdoor Unlearning)
모델 파라미터를 업데이트하지 않고도 추론 시점에 백도어 공격을 제거하는 'InstantForget' 기술을 제안합니다. 마할라노비스 점수를 활용해 이상 특징을 식별하고 이를 중립적 표현으로 이동시켜 공격 성공률(ASR)을 획기적으로 낮춥니다.
One-Shot MoE 전문가 프루닝을 위한 전문가 점수 산정 방법: 통합 공식 및 선택 원칙
MoE 모델의 메모리 효율을 높이기 위한 One-Shot 전문가 프루닝을 위해 라우팅 빈도, 게이트 가중치, 활성화 강도를 통합한 새로운 공식을 제안합니다. 실험 결과, 제안된 MAN 및 MSAN 기준이 태스크 불가지론적 설정에서 기존 방식보다 뛰어난 성능을 입증했습니다.
Retrievable Gradients: 누적 가중치 드리프트 없는 지속적 사후 학습
지속적 사후 학습 시 발생하는 가중치 드리프트와 치명적 망각 문제를 해결하기 위해 ReGrad(Retrievable Gradients)를 제안합니다. 그래디언트를 검색 가능한 단위로 저장하여 추론 시점에 필요한 정보만 일시적으로 적용하는 새로운 패러다임을 제시합니다.
멀티모달 학습에서의 누락된 양식(Missing Modalities)을 위한 비지도 학습
멀티모달 학습 시 특정 데이터(양식)가 누락되었을 때 이를 비지도 학습 방식으로 보충하는 UL4M4 프레임워크를 제안합니다. 양식별 정규화와 새로운 거리 메트릭을 통해 불완전한 데이터에서도 안정적인 클러스터링과 임베딩 보충이 가능합니다.
오디오 언어 모델(Audio Language Models)의 퓨샷 학습(Few-Shot Learning)을 위한 단계별 변조 기반의 음향
오디오 언어 모델(ALM)의 퓨샷 학습 성능을 높이기 위해 오디오 인코더에 학습 가능한 프롬프트를 도입하는 새로운 프레임워크를 제안합니다. 텍스트 측 프롬프팅과 오디오 측 프롬프팅을 통합하여 작업 특화된 음향 특징을 효과적으로 포착할 수 있음을 입증했습니다.
현미경으로 들여다본 데이터 매니폴드 (The Data Manifold under the Microscope)
딥러닝의 이론과 실제 격차를 줄이기 위해 데이터 매니폴드의 기하학적 특성을 연구할 수 있는 새로운 벤치마킹 프레임워크를 제안합니다. dSprites와 COIL-20을 확장하여 곡률, 도달 거리 등을 정밀하게 측정할 수 있는 환경을 구축했습니다.
자율 주행을 위한 차선 변경 예측에서의 상관관계에서 인과관계로: 인과적 설명 프레임워크
기존의 통계적 상관관계 중심 차선 변경 예측 방식에서 벗어나, 변수 간의 인과적 의존성을 학습하는 인과 추론 기반 프레임워크를 제안합니다. 이 모델은 예측 정확도뿐만 아니라 예측의 근거가 되는 인과 체인을 설명하여 해석 가능성을 높였습니다.
반사실적으로 충실한 감정 설명을 위한 충실한 액션 유닛(Action-unit) 인과 추론
멀티모달 모델이 얼굴 감정을 설명할 때 사용하는 액션 유닛(AU)의 인과적 충실성을 높이기 위한 FACR 프레임워크를 제안합니다. 반사실적 일관성을 활용하여 모델이 제시하는 근거가 실제 예측에 기여하는 인과적 요소인지 검증하고 학습합니다.
불확실성 시각화: 딥러닝에서의 누락된 증거 및 상충하는 증거의 공간 맵
딥 뉴럴 네트워크의 불확실성을 시각화하는 새로운 프레임워크인 UAM을 제안합니다. 증거 기반 딥러닝과 FullGrad를 결합하여 지식 부족(Vacuity)과 증거 상충(Dissonance)을 공간 맵으로 구분하여 보여줍니다.
DYNA: 연속 학습(Continuous Learning) 시 시계열 지식 그래프(Temporal Knowledge Graphs)를 통해
DYNA는 동결된 LLM이 새로운 지식을 효율적으로 통합할 수 있도록 시계열 지식 그래프(Temporal Knowledge Graph)를 활용하는 경량 프레임워크입니다. 외부 메모리 역할을 하는 그래프를 통해 재학습 없이도 망각 문제를 완화하고 시간적 맥락을 보강합니다.
알츠하이머병 진행의 단계 인지적 인과 모델링을 위한 잠재 시간 임베딩 기반 베이지안 네트워크 (Bayesian Networks with
알츠하이머병 진행을 모델링하기 위해 잠재 시간 임베딩 기반 베이지안 네트워크(BN-LTE)를 제안합니다. 이 모델은 바이오마커 간의 생물학적 인과 관계를 반영하여 질병의 진행 단계와 타우(tau) 단백질의 공간적 변화를 정밀하게 예측합니다.
분할 상환 이산 샘플링을 위한 근사 정책 최적화 (Proximal Policy Optimization)
GFlowNet 프레임워크 내에서 구조화된 이산 확률 분포 샘플링을 위한 정책 경사 알고리즘을 연구합니다. GFlowNets에 PPO를 성공적으로 적용하여 분자 그래프 생성 등 다양한 벤치마크에서 수렴 속도와 데이터 효율성을 개선했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.