arXiv논문2026. 06. 15. 07:22

Doc-to-Atom: 메모리 원자(Memory Atoms)를 학습하고 구성하는 방법

요약

본 논문은 긴 문서를 효율적으로 처리하기 위해 Doc-to-Atom(Doc2Atom)이라는 구성적 파라미터 메모리 프레임워크를 제안합니다. 이 방법은 문서를 의미론적 지식 원자(knowledge atoms)로 분해하고, 각 원자를 독립적인 마이크로-LoRA 어댑터와 출처 검색 키로 컴파일합니다. 추론 시 쿼리 라우터를 통해 관련 원자만 선택하여 전용 어댑터를 구성함으로써 메모리 효율성과 성능을 동시에 개선했습니다.

핵심 포인트

Doc2Atom은 문서를 지식 원자로 분해하는 프레임워크입니다.
각 원자는 독립적인 마이크로-LoRA와 검색 키로 컴파일됩니다.
쿼리 라우터가 관련 원자만 선택하여 전용 어댑터를 구성합니다.
기존 방식 대비 메모리 비용을 줄이고 성능을 향상시켰습니다.

긴 입력 시퀀스는 대규모 언어 모델(LLM)의 문서 이해 및 다단계 추론에 핵심적이지만, 어텐션(attention)의 이차 비용(quadratic cost) 때문에 추론 과정이 메모리 집약적이고 느립니다. 컨텍스트 증류(Context distillation)는 컨텍스트 정보를 모델 파라미터로 압축하여 이를 완화합니다. Doc-to-LoRA와 같은 최근 연구는 컨텍스트 증류를 단일 순방향 패스(forward pass)에 통합하여 문서당 하나의 LoRA 어댑터를 생성합니다. 그러나 모든 쿼리에 대해 단일의 거대한(monolithic) 어댑터를 생성하는 것은 관련 없는 쿼리 간의 간섭(irrelevant-query interference), 제한된 구성적 회상(limited compositional recall), 그리고 장문 추론에 대한 낮은 확장성으로 이어집니다. 이러한 문제들을 해결하기 위해, 우리는 문서를 의미적으로 유형화된 지식 원자(knowledge atoms)로 분해하는 구성적 파라미터 메모리 프레임워크인 Doc-to-Atom (Doc2Atom)을 제안합니다. 각 원자는 독립적인 마이크로-LoRA 어댑터와 출처 검색 키(provenance retrieval key)로 컴파일됩니다. 추론 시, 경량 쿼리 라우터(query router)가 관련 있는 원자들만을 선택하고 조립하여 쿼리별 전용 어댑터를 만들고, 이를 동결된 기본 모델(frozen base model)에 주입합니다. 전체 시스템은 다중 목표 증류 프레임워크를 통해 엔드투엔드로 학습됩니다. 여섯 가지 다양한 QA 벤치마크에서 수행된 실험은 Doc2Atom이 Doc-to-LoRA 기준선보다 성능이 우수하면서도 문서 내재화의 메모리 비용을 줄인다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Doc-to-Atom: 메모리 원자(Memory Atoms)를 학습하고 구성하는 방법

요약

핵심 포인트

댓글