arXiv논문2026. 06. 01. 11:32

MADS: 지시어 튜닝 (Instruction Tuning)을 위한 모델 인지적 다양 코어 세트 선택 방법

요약

LLM의 지시어 미세 조정 시 데이터 효율성을 높이기 위해 모델의 신경 활성화 상태를 활용하는 MADS 방법론을 제안합니다. 텍스트 특징 대신 모델 고유의 활성화 특징을 기반으로 코어 세트를 선택하여 데이터 요구량을 줄이면서도 성능을 향상시킵니다.

핵심 포인트

모델의 신경 활성화 상태를 활용한 데이터 선택 방식 제안
데이터셋 크기를 15%로 줄여도 더 큰 모델의 성능 향상 가능
텍스트 특징 기반의 기존 방식보다 높은 다양성 보장
다양한 벤치마크와 모델 크기에서 효과적인 성능 입증

지시어 미세 조정 (Instruction fine-tuning)은 대규모 언어 모델 (LLMs)의 지시어 이행 능력을 향상시키기 위해 사용됩니다. 지시어 미세 조정 데이터의 양이 증가함에 따라, 최적의 코어 세트 (core set)를 선택하는 것이 특히 중요해지고 있습니다. 그러나 코어 세트의 다양성을 보장하는 것은 여전히 큰 과제로 남아 있습니다. 기존 방법들은 주로 LLM 자체의 데이터에 대한 이해 및 표현과 분리된 채, 텍스트 특징 (text features) 자체만을 기반으로 서로 다른 학습 데이터를 구분합니다. 이 문제를 해결하기 위해, 우리는 LLM 추론 (inference) 중의 신경 활성화 상태 (neural activation states)를 기반으로 데이터 특징을 구분하는 모델 인지적 다양 코어 세트 선택 (Model-Aware Diverse Core Set Selection) 방법을 제안합니다. 이 접근 방식은 모델 고유의 활성화 특징 (model-intrinsic activation features)을 사용하여 코어 세트의 다양성을 보장하는 커버리지 기반 선택 (coverage-based selection)의 효율적인 구현체 역할을 합니다. 우리는 5개의 서로 다른 태스크를 아우르는 6개의 벤치마크에서 우리의 방법을 광범위하게 평가했습니다. 우리의 방법에서, 3B 파라미터 LLM에 의해 선택된 코어 세트는 7B, 8B, 13B 파라미터를 가진 더 큰 모델들을 미세 조정할 때 효과적으로 작동합니다. 52K개의 지시어-응답 쌍으로 구성된 Alpaca-GPT4 데이터셋에 대한 실험 결과에 따르면, Llama-3.2-3B-Instruct에 의해 선택된 원본 데이터셋의 15% 크기인 코어 세트는 전체 데이터셋으로 학습했을 때와 비교하여 4개의 더 큰 베이스 모델을 미세 조정할 때 평균 2.5%의 성능 향상을 달성했습니다. 실험 결과는 우리의 방법이 데이터 요구 사항을 줄이면서도 여러 다운스트림 태스크 (downstream tasks)에서 모델 성능을 향상시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MADS: 지시어 튜닝 (Instruction Tuning)을 위한 모델 인지적 다양 코어 세트 선택 방법

요약

핵심 포인트

댓글