TLRD: 3단계 근거 증류(Tri-Level Rationale Distillation)를 통한 표 형식 데이터(Tabular Data) 추론
요약
TLRD는 표 형식 데이터에 대한 LLM의 추론 능력을 향상시키기 위해 3단계 근거 증류 프레임워크를 제안합니다. 인스턴스, 데이터셋 분포, 비교 이웃이라는 세 가지 수준의 근거를 합성하여 학생 모델에 증류함으로써, 예측 성능과 설명 가능성을 동시에 확보합니다.
핵심 포인트
- 표 형식 데이터의 특성 분포 및 상호작용 이해 문제 해결
- 3단계 근거(인스턴스, 분포, 이웃)를 통한 구조화된 감독 제공
- 트리 앙상블 모델과의 성능 격차를 크게 단축
- 추가 비용 없이 예측과 함께 읽기 쉬운 근거 생성 가능
표 형식 데이터(Tabular data)는 현실 세계의 정보를 저장하는 주요 매체이며, 머신러닝(Machine Learning)의 많은 산업적 응용을 주도합니다. 전통적인 예측기(Predictors)는 강력한 예측 성능을 달성하지만, 의사결정에 필수적인 읽기 가능하고 사례별로 특화된 설명을 제공하지 못합니다. 대규모 언어 모델(LLMs)은 예측과 함께 설명을 생성함으로써 이러한 격차를 자연스럽게 메울 수 있습니다. 그러나 특성 분포(Feature distributions) 및 상호작용(Interactions)과 같은 데이터셋 특유의 패턴으로 인해 LLMs가 표 형식 데이터를 이해하고 추론하는 데 어려움이 있으며, 레이블 전용 미세 조정(Label-only fine-tuning)은 치명적 망각(Catastrophic forgetting)을 대가로 성능을 향상시킵니다. 이 문제를 해결하기 위해, 우리는 레이블 전용 표 형식 데이터셋을 LLMs를 위한 구조화된 근거 감독(Rationale supervision)으로 변환하는 프레임워크인 3단계 근거 증류(Tri-Level Rationale Distillation, TLRD)를 제안합니다. TLRD는 고성능 교사 모델(High-capacity teacher)을 사용하여 인스턴스 수준의 특성(Instance-level feature), 데이터셋 수준의 분포 맥락(Dataset-level distributional context), 비교 수준의 검색된 이웃(Comparison-level retrieved neighbors)이라는 세 가지 상호 보완적인 증거에 기반한 근거 코퍼스(Rationale corpus)를 합성한 다음, 이 근거를 학생 LLMs(Student LLMs)로 증류(Distill)하여, 원시 특성(Raw features)만으로도 추가 비용 없는 예측과 근거 있는 설명을 가능하게 합니다. 다양한 도메인의 데이터셋에 대한 실험 결과, TLRD는 LLMs와 최첨단 트리 앙상블(State-of-the-art tree ensembles) 사이의 성능 격차를 크게 줄이는 동시에 근거 있고 읽기 쉬운 설명을 생성하여, 중대한 의사결정(High-stakes decision-making)을 위한 가치 있는 참고 자료를 제공함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기