arXiv논문2026. 06. 09. 11:51

DECSELFMASK: Decoder-Only 분류를 위한 자기 관련성 가이드 마스킹(Self-Relevance-Guided Masking)

요약

Decoder-only 모델의 분류 성능을 높이기 위해 미라벨 데이터에서 관련성 가이드 마스킹을 사용하는 DecSelfMask 기법을 제안합니다. 관련성 속성 분석을 통해 텍스트의 핵심 부분을 마스킹하고 재구성 학습을 진행하여 모델의 의미론적 이해를 돕습니다.

핵심 포인트

DecSelfMask: 관련성 가이드 마스킹 기반의 자기 학습 전략 제안
미라벨 데이터로부터 효과적인 자기 지도 학습 예시 생성
의료 데이터셋 136개 작업 테스트를 통해 성능 입증
표준 미세 조정 및 합성 레이블 생성 방식 대비 우수한 성능

분류(Classification) 작업은 주석이 달린 데이터(annotated data)를 필요로 하며, 이는 종종 비용이 많이 들거나 시간이 오래 걸리거나, 혹은 수집이 불가능할 수도 있습니다. 이는 대규모 데이터셋에 주석이 달린 예시가 거의 없는 의료 분야의 경우와 같습니다. 이를 해결하기 위해, 우리는 분류 작업에서 Decoder-only 성능을 향상시키는 접근 방식인 DecSelfMask (Decoder Self-learning by Masking)를 제안합니다. 우리는 모델을 활용하여 미라벨 데이터(unlabeled data)로부터 학습 예시를 생성하는 일반적인 자기 학습(self-learning) 접근 방식을 기반으로 하여, 새로운 관련성 가이드 마스킹(relevance-guided masking) 전략을 제안합니다. 우리는 관련성 속성(relevance attribution) 방법을 사용하여 주석이 없는 텍스트의 어느 부분이 작업에 관련이 있는지를 결정합니다. 그런 다음 해당 부분을 마스킹(masking)하여 자기 지도 학습(self-supervised) 학습 예시를 생성하고, 다음 토큰 예측(next-token-prediction)을 통해 모델이 이를 재구성하도록 학습시킵니다. 우리는 이러한 예시들이 다운스트림(downstream) 성능에 유용할 수 있는 미라벨 데이터의 구조와 의미론적(semantics)에 대한 지식을 전달한다고 가설을 세웁니다. 우리는 이탈리아 병원의 190만 개 임상 노트 컬렉션에서 추출한 136개 작업에 대해 우리의 접근 방식을 테스트합니다. 우리는 프로빙 분석(probing analysis)을 포함하여, 다양한 규모와 계열을 가진 5개의 모델에 대해 다운스트림 작업에서 DecSelfMask의 영향을 정량화합니다. 실험 결과, 표준 지도 미세 조정(supervised fine-tuning) 방식(+Macro F1에서 19.9포인트), 합성 레이블 생성(synthetic label generation, +12.5), 지속적 사전 학습(continual pretraining, +6.3) 및 일반적인 베이스라인(baselines)보다 뛰어난 성능을 보이며 일관된 이득을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DECSELFMASK: Decoder-Only 분류를 위한 자기 관련성 가이드 마스킹(Self-Relevance-Guided Masking)

요약

핵심 포인트

댓글