대규모 언어 모델의 불확실성 추정을 위한 베이지안 희소 저차원 적응 (Bayesian Sparse Low-Rank Adaptation)

대규모 언어 모델 (LLMs)은 놀라운 추론 능력을 보여주지만, 특정 작업에 대한 미세 조정 (fine-tuning) 과정에서 과잉 확신 (overconfidence) 문제가 발생하는 것으로 악명이 높으며, 이는 신뢰할 수 있는 배포를 심각하게 저해합니다. 우리는 데이터 적응형 저차원 적응 (Data-Adaptive Lower-Rank Adaptation, DALorRA)을 제안합니다. 이는 불확실성 정량화 (uncertainty quantification)의 패러다임을 밀집된 파라미터 공간 (dense parameter space)에서 저차원 적응 (low-rank adaptation, LoRA)의 경량화된 랭크 (rank) 수준으로 전환하는 단순하고 효과적인 변분 베이지안 희소 프레임워크 (variational Bayesian sparse framework)입니다. LoRA가 본질적으로 불필요한 모델 용량 (model capacity)을 제공할 수 있는 여러 개의 랭크-1 구성 요소 (rank-one components)를 집계한다는 통찰을 바탕으로, DALorRA는 랭크 차원에 확률적 마스킹 (stochastic masking)을 적용하여 학습 중에는 모델 용량의 베이지안 규제 (Bayesian regularization)를 가능하게 하고, 추론 중에는 앙상블 (ensemble)과 유사한 보정 (calibration)을 가능하게 합니다. 광범위한 실험을 통해 DALorRA가 추론 정확도를 저해하지 않으면서도 LLM의 뛰어난 보정 성능을 보여줌을 입증했습니다.

Insights

대규모 언어 모델의 불확실성 추정을 위한 베이지안 희소 저차원 적응 (Bayesian Sparse Low-Rank Adaptation)

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실