arXiv논문2026. 06. 18. 12:06

의료용 LLM 적응의 트레이드오프: 프랑스어 질의응답(QA)에 대한 실증적 연구

요약

프랑스어 의료 질의응답(QA)을 사례로 도메인 적응 전략인 CPT, SFT 및 이들의 조합 효과를 비교 분석한 연구입니다. 모델 크기와 초기화 유형에 따른 성능 차이를 검증하며, 자원 제약 상황에서의 실질적인 적응 가이드라인을 제시합니다.

핵심 포인트

MCQA에서는 SFT가 비용 효율적인 기본 설정으로 확인됨
OEQA의 경우 CPT는 지표를 개선하나 SFT는 생성 품질을 저하시킬 수 있음
지시어 튜닝과 CPT+SFT 조합이 LLM 기반 평가에서 높은 선호도를 보임
프랑스어 적응 효과가 영어 벤치마크로 전이되는 교차 언어 효과 확인

대규모 언어 모델 (LLMs)의 발전은 전문 영역 및 언어에 대한 적응 (adaptation)에 대한 관심 증가로 이어졌으나, 도메인 적응 (domain adaptation) 전략의 효과는 여전히 불분명합니다. 본 연구에서는 프랑스어 의료 질의응답 (QA)을 사례 연구로 사용하여 의료 도메인 적응에 대한 연구를 제시합니다. 우리는 세 가지 모델 제품군, 다양한 크기, 세 가지 초기화 유형에 걸쳐 지속적 사전 학습 (continual pretraining, CPT), 지도 미세 조정 (supervised fine-tuning, SFT), 그리고 이들의 조합을 비교하며, 적응 효과를 베이스 모델 (base model) 선택과 명확히 분리하여 분석합니다. 우리는 자동 지표와 LLM-as-a-Judge 평가를 사용하여 탐욕적 디코딩 (greedy decoding) 및 제약 디코딩 (constrained decoding) 하에서 다지선다형 질의응답 (multiple-choice QA, MCQA)과 개방형 질의응답 (open-ended QA, OEQA)을 모두 평가합니다. MCQA의 경우, CPT+SFT가 가장 높은 점수를 얻는 경우가 많지만, SFT 대비 이득은 작고 통계적으로 유의미하지 않은 경우가 빈번하여 SFT가 강력하고 비용 효율적인 기본 설정이 됩니다. OEQA의 경우, CPT는 중첩 기반 지표 (overlap-based metrics)를 일관되게 개선하는 반면, SFT는 생성 품질을 저하시키는 경우가 많습니다. 지시어 튜닝 (instruction tuning)과 CPT+SFT는 LLM 기반 평가에서 선호됩니다. 교차 언어 (Cross-lingual) 실험은 프랑스어 적응에서 영어 벤치마크로의 효과적인 전이를 추가로 보여줍니다. 전반적으로, 우리는 계산 자원 제약 하에서 적응 전략을 선택하기 위한 실질적인 가이드라인을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

의료용 LLM 적응의 트레이드오프: 프랑스어 질의응답(QA)에 대한 실증적 연구

요약

핵심 포인트

댓글