arXiv논문2026. 06. 23. 14:28

분포 최적화 합성을 통한 LLM 지식 경계 확장

요약

LLM의 지식 경계를 확장하기 위해 지식 분포를 최적화하는 합성 데이터 프레임워크인 KDoS를 제안합니다. 기존의 고정된 방식 대신 지식 밀도를 고려한 3단계 피드백 메커니즘을 통해 효율적인 지식 주입을 구현합니다.

핵심 포인트

지식 분포 최적화를 통한 LLM 지식 경계 확장 프레임워크 KDoS 제안
지식 밀도를 도입한 3단계 피드백 메커니즘으로 합성 데이터 생성
모델 규모와 백본에 관계없이 안정적인 최적 지식 분포 확인
다양한 벤치마크에서 기존 베이스라인 대비 우수한 성능 입증

합성 데이터(synthetic data)를 통한 지식 주입은 대규모 언어 모델(LLMs)을 향상시키는 데 매우 중요합니다. 그러나 현재의 합성 방법들은 단순히 미리 설정된 토큰 수나 고정된 데이터 비율에서 멈추며, 지식 분포(knowledge distribution)에 대한 인식이 부족합니다. 이는 일부 도메인은 희소(sparse)한 반면 다른 도메인은 중복(redundant)되는 결과를 초래하여, LLM의 지식 경계(knowledge boundaries)를 제한합니다. 우리는 지식 주입을 분포 관점에서 재검토하며, 지식 경계 확장을 극대화하기 위한 최적의 지식 분포가 존재한다는 가설을 세웁니다. 우리는 3단계 피드백 메커니즘을 통해 지식 밀도(knowledge density)를 도입하여 합성을 유도함으로써, 맹목적인 생성(blind generation)에서 분포 최적화 합성(distribution-optimized synthesis)으로 전환하는 프레임워크인 KDoS(Knowledge Distribution-optimized Synthesis)를 제안합니다. 우리는 다양한 지식 분포를 가진 Wikipedia 기반 합성 데이터를 구축하고, 0.6B에서 16B 규모의 모델(Qwen, Ling, LLaMA)과 1B에서 5B 토큰 규모의 데이터에 대해 실험을 수행했습니다. 우리의 주요 연구 결과는 다음과 같습니다: (1) 최적의 지식 분포는 일관되게 경계 확장을 극대화합니다; (2) 이 분포는 백본(backbones)과 규모(scales)에 관계없이 안정적입니다; (3) KDoS는 6개의 지식 벤치마크에서 베이스라인(baselines)보다 뛰어난 성능을 보입니다. 우리의 연구는 합성 데이터 기반 지식 주입을 위한 새로운 관점과 실질적인 프레임워크를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

분포 최적화 합성을 통한 LLM 지식 경계 확장

요약

핵심 포인트

댓글