arXiv논문2026. 06. 18. 11:44

LLM 유도를 통한 제로샷 능동적 특징 획득 (Zero-Shot Active Feature Acquisition via

요약

LLM의 비지도 지식을 활용하여 레이블된 데이터 없이 특징을 순차적으로 선택하는 제로샷 능동적 특징 획득(AFA) 프레임워크를 제안합니다. 마르코프 무작위장(MRF) 통계량을 유도하는 방식을 통해 LLM의 의사결정 능력을 극대화하며, 임상 데이터 실험에서 기존 방법론을 능가하는 성능을 입증했습니다.

핵심 포인트

방대한 레이블 데이터 없이 LLM의 지식만으로 특징을 선택하는 제로샷 AFA 구현
LLM에게 MRF의 충분 통계량(단항 편차 및 쌍별 공변량)만을 요청하는 규율 있는 유도 방식 사용
최대 엔트로피 폐쇄를 적용하여 LLM의 게이지 모호성 문제 해결
염증성 장질환(IBD) 환자군 데이터를 통해 실제 임상 환경에서의 우수한 성능 검증

능동적 특징 획득 (Active feature acquisition, AFA)은 분류 또는 순위 결정에 도달하기 위해 관찰할 특징을 순차적으로 선택합니다. AFA의 핵심적인 한계는 획득을 안내하는 확률 모델 (probabilistic models)을 학습시키기 위해 방대한 양의 레이블된 데이터 (labeled data)에 의존한다는 점입니다. 대규모 언어 모델 (LLMs)은 비지도 도메인 지식 (unsupervised domain knowledge)을 제공하지만, 순차적 계획가 (sequential planners)로서는 성능이 부족합니다. 모델에게 지식 습득과 의사결정을 동시에 요구하는 것은 분리되어 유지되는 것이 가장 좋은 능력들을 혼동하게 만듭니다. 본 연구에서는 규율 있는 유도 (disciplined elicitation)를 통해 제로샷 AFA를 위한 프레임워크를 개발합니다. 즉, LLM에게 신뢰할 수 있는 결과값인, 마르코프 무작위장 (Markov random field, MRF)의 충분 통계량 (sufficient statistics)인 단항 편차 (unary deviations)와 쌍별 공변량 (pairwise co-variations)만을 요청하는 방식입니다. 우리는 이 프레임워크를 이진 분류 (binary classification)와 top-$k$ 식별 (top-$k$ identification)이라는 두 가지 설정에 적용합니다. 실제로 LLM은 각 클래스를 개별적으로 구분하기보다는 클래스들을 구별 짓는 변별적 통계량 (discriminative statistics)만을 안정적으로 반환하며, 이는 고전적인 AFA를 어렵게 만듭니다. 우리는 이러한 게이지 모호성 (gauge ambiguity)을 해결하기 위해 최대 엔트로피 폐쇄 (maximum-entropy closure)를 적용합니다. 우리는 진단적 모호성과 환자의 이질성 (heterogeneity)이 안정적인 치료 전략을 방해하는 능동적인 임상 환경인 염증성 장질환 (Inflammatory Bowel Disease, IBD) 환자군을 대상으로 평가를 수행합니다. 우리의 프레임워크는 실제 레이블 (real labels)과 LLM이 자체적으로 추출한 신념 (extracted beliefs) 모두에서 LLM의 성능을 능가합니다. 가장 중요한 지점인 가장 까다로운 환자들에 대해, 우리의 top-$k$ 획득 정책은 기존의 모든 방법론을 현저히 앞섭니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 유도를 통한 제로샷 능동적 특징 획득 (Zero-Shot Active Feature Acquisition via

요약

핵심 포인트

댓글