Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.LG 2046건필터 해제
Residual-Free Transformer의 양자화 이점
잔차 연결(residual connections)이 Transformer 활성화 함수의 비가우시안성을 증폭시켜 양자화 효율을 저해한다는 사실을 밝힙니다. 잔차 없는(residual-free) 구조를 통해 가우시안 분포에 가까운 활성화 함수를 유지함으로써 저비트 양자화에 대한 강건성을 크게 향상시킬 수 있습니다.
UNATE: 결정 구조 특성 예측을 위한 비지도 원자 임베딩 (Unsupervised Atomic Embedding)
UNATE는 라벨링되지 않은 결정 구조 데이터를 활용하여 원자 표현을 학습하는 비지도 학습 프레임워크입니다. 노이즈 제거 오토인코더와 자기지도 대조 학습을 통해 결정 특성 예측 성능을 크게 향상시켰습니다.
제한된 데이터 환경에서 강건한 외삽을 위한 Conformalised Imprecise Inference
제한된 데이터 환경에서 강건한 외삽을 위해 모델 불가지론적 프레임워크인 Conformalised Imprecise Inference를 제안합니다. 이 방식은 분포 변화 속에서도 커버리지를 유지하며, 외삽 영역에서 불확실성을 적응적으로 확장하는 특징이 있습니다.
능력과 강건성은 동시에 공짜일 수 없다: Vision-Language-Action 모델을 위한 정보 이론적 경계
VLA 모델의 성능(Capability)과 강건성(Robustness) 사이의 이론적 트레이드오프를 정보 이론적 관점에서 증명한 연구입니다. 적대적 공격 상황에서 모델의 성능과 강건성의 합이 특정 상한선에 의해 제한됨을 수학적으로 밝혀냈습니다.
2계층 다품목 주문 이행을 위한 최적 및 차수 최적 게이트 우선순위 기반 탐욕 정책
2계층 유통 네트워크에서 미래 수요를 알 수 없는 상황의 다품목 주문 이행 최적화 연구입니다. 게이트 우선순위 기반 탐욕 정책을 통해 재고 보존과 이행 비용 절감 사이의 갈등을 해결하는 알고리즘을 제안합니다.
파인튜닝 사전 지식 읽기: 대조적 디코딩 차이 분석(Contrastive Decoding Diffing)을 통한 문구 그대로의 콘텐츠 복구
파인튜닝된 모델의 가중치에 접근하지 않고도 출력 로짓 분포만을 이용해 학습된 콘텐츠를 복구하는 CDD(Contrastive Decoding Diffing) 기술을 소개합니다. 이 방법론은 기존 ADL 방식보다 빠르고 효율적이며, 모델에 주입된 사실과 데이터 생성기의 아티팩트까지 식별할 수 있습니다.
Merge-Bench: 대규모 언어 모델(LLM)을 이용한 병합 충돌 해결
버전 관리 병합 충돌 해결을 위한 새로운 데이터셋 Merge-Bench와 모델 LLMergeJ를 제안합니다. GRPO 강화학습을 통해 학습된 LLMergeJ는 Java 환경에서 상용 LLM보다 뛰어난 성능을 보였습니다.
멀티모달 딥러닝 (Multi-modal Deep Learning)을 이용한 실적 발표일의 주가 방향 예측
실적 발표 기간의 주가 방향을 예측하기 위해 뉴스 감성, 기업 펀더멘털, 시장 역학을 결합한 멀티모달 딥러닝 연구를 수행했습니다. LSTM과 Transformer 모델을 비교 분석하여 뉴스 감성 데이터 통합의 효과를 입증했습니다.
제약 조건이 있는 다중 목적 심층 강화학습을 통한 연합 에지 학습에서의 훈련 및 추론 공동 최적화
연합 에지 학습(FEEL) 환경에서 훈련과 추론을 동시에 최적화하는 온라인 프레임워크를 제안합니다. C-MOPPO 알고리즘을 통해 지연 시간, 에너지 소비, 추론 정확도 사이의 최적의 균형을 달성합니다.
멀티 에이전트 시스템은 전문가 혼합 모델이다: 누가 인플루언서가 되는가?
멀티 에이전트 LLM의 숙의 과정을 Friedkin-Johnsen 의견 역학 모델로 분석하여, 에이전트 간의 소통 방식이 전문가 혼합(MoE) 모델처럼 작동함을 규명합니다. 에이전트의 역량에 따른 라우팅이 시스템 성능을 결정하는 핵심 요소임을 제시합니다.
패밀리 및 유형별 적대적 악성코드 데이터셋 구축: 생성, 회피 및 오염 평가
RawMal-TF 컬렉션을 기반으로 패밀리 및 유형별 레이블이 지정된 적대적 악성코드 데이터셋을 구축했습니다. EMBER 분류기에 대해 높은 회피율을 달성했으며, 데이터 오염 공격이 악성코드 탐지 시스템의 강건성에 미치는 취약성을 입증했습니다.
STaT: 삼중 모달리티 시너지를 통한 비정상 시계열의 형태 왜곡 해결
STaT는 비정상 시계열 예측 시 발생하는 형태 왜곡 문제를 해결하기 위해 상징적, 시간적, 텍스트 모달리티를 결합한 혁신적인 멀티모달 아키텍처를 제안합니다. 이 모델은 수치적 정확도와 도메인 의미론을 동시에 활용하여 예측의 매끄러움과 변동성 사이의 균형을 맞춥니다.
평범한 토큰 속에 숨겨진: 합성 오디오를 위한 단순하고 견고한 그래디언트 프리 (Gradient-Free) 워터마킹
합성 오디오의 출처 증명을 위해 이산화 과정의 어휘 중복성을 활용한 새로운 그래디언트 프리(Gradient-free) 워터마킹 기술을 제안합니다. 기존의 미세 조정 방식 없이도 토큰 오류를 완화하여 탐지 성능과 견고성을 획기적으로 높였습니다.
배포 완결적 벤치마킹 (Deployment-complete benchmarking)
기존 벤치마크가 실제 배포 행동을 충분히 지원하지 못하는 문제를 해결하기 위해 '배포 완결적 벤치마킹' 개념을 제안합니다. 벤치마크가 특정 행동을 결정하기 위해 필요한 증거의 완결성을 정량화하고, 모호성을 해결하는 방법을 다룹니다.
Fuzzy PyTorch: 딥러닝 모델의 신속한 수치적 변동성 평가를 위한 프레임워크
딥러닝 모델의 부동 소수점 산술 변동성을 신속하게 평가하기 위한 프레임워크인 Fuzzy PyTorch를 소개합니다. 확률적 반올림 기술을 통해 기존 도구 대비 실행 시간을 대폭 단축하며 대규모 모델에서도 높은 확장성을 입증했습니다.
LLM 개발 및 평가를 위한 인과적 방법론 (Causal methods)
LLM 개발 및 평가 과정에서 발생하는 데이터 혼합, 보상 모델, 라우팅 전략 등의 핵심 질문들을 인과적 방법론(Causal methods) 관점에서 분석합니다. 기존의 예측 중심 접근 방식이 가진 한계를 지적하며, 인과 추론을 통한 과학적이고 신뢰할 수 있는 설계 방안을 제시합니다.
유한 분산을 넘어선 확률적 경사 하강법 (SGD)의 통계적 추론
무한 분산을 가진 확률적 경사 하강법(SGD) 환경에서도 통계적 추론이 가능하도록 돕는 새로운 방법론을 제안합니다. 모델 불가지론적 접근을 통해 SGD 궤적으로부터 신뢰 영역을 구축하며, 유한 및 무한 분산 영역 모두에서 점근적으로 유효한 결과를 제공합니다.
뉴럴 오퍼레이터(Neural Operators)를 이용한 전산유체역학(CFD)에서의 베이지안 역설계 가속화
뉴럴 오퍼레이터를 활용하여 전산유체역학(CFD) 기반의 베이지안 역설계 과정을 획기적으로 가속화하는 연구입니다. 대리 모델을 MCMC 샘플링 루프에 직접 통합하여 물리적 불확실성을 보존하면서도 추론 시간을 1초 미만으로 단축했습니다.
로그 깊이 순환 유닛(Log-Depth Recurrent Units)을 이용한 길이 일반화
신경망의 길이 일반화 문제를 해결하기 위해 로그 깊이 순환 유닛(MLP-LDRU)을 제안합니다. 이 모델은 병렬 리덕션을 통해 순환을 근사하며, 정규 언어 및 NLP 벤치마크에서 기존 모델을 능가하는 성능을 보였습니다.
모델 불확실성 하에서의 강건한 의사결정을 위한 목표 지향적 베이지안 최적 실험 설계
모델 파라미터의 불확실성을 줄이는 대신 특정 의사결정 목표를 최적화하는 GoBOED 프레임워크를 제안합니다. 변분 사후 대리 모델과 미분 가능한 의사결정 레이어를 결합하여 목표 지향적인 실험 설계를 가능하게 합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.