arXiv논문2026. 05. 14. 13:30

LIFT: 테이블 명시화를 위한 라스트 마일 미세 조정 (Last-Mile Fine-Tuning)

요약

Lift는 사전 학습된 LLM이 비정형 텍스트에서 초기 테이블을 추출하고, 미세 조정된 SLM이 이 테이블의 오류를 수정하는 '라스트 마일 미세 조정(last-mile fine-tuning)' 파이프라인입니다. 이 접근 방식은 단 1,000개의 학습 예시만으로도 기존 엔드 투 엔드 미세 조정보다 높은 성능을 보여주었으며, 특히 입력 형식의 가변성에 대한 견고성을 입증했습니다.

핵심 포인트

Lift는 LLM과 SLM을 결합하여 테이블 추출 및 오류 수정 과정을 거치는 파이프라인입니다.
단 1,000개의 학습 예시만으로도 기존 엔드 투 엔드 미세 조정 방식에 필적하거나 능가하는 성능을 달성했습니다.
TEDS 지표를 기준으로 높은 성능을 보였으며, 입력 형식의 가변성에 대한 견고성을 제공합니다.
라스트 마일 미세 조정(last-mile fine-tuning)은 데이터가 제한적이거나 정확도를 유지하며 입력 변화에 대응할 때 유용한 대안입니다.

우리는 라스트 마일 미세 조정 (last-mile fine-tuning), 즉 Lift를 제안합니다. 이는 사전 학습된 거대 언어 모델 (Large Language Model, LLM)이 비정형 클립보드 텍스트에서 초기 테이블을 추출하고, 미세 조정된 소형 언어 모델 (Small Language Model, SLM, 1B-24B 파라미터)이 추출된 테이블의 오류를 수정하는 파이프라인입니다. 3개의 데이터셋에서 추출한 2,596개의 테이블 벤치마크에서, Lift는 트리 편집 거리 기반 유사도 (Tree-Edit-Distance-based Similarity, TEDS) 지표를 기준으로 단 1,000개의 학습 예시만으로도 엔드 투 엔드 (end-to-end) SLM 미세 조정을 대등하거나 능가하는 성능을 보여주었으며, 엔드 투 엔드 미세 조정보다 최대 0.144 TEDS 포인트 더 높은 성능을 기록했습니다. 우리는 이 접근 방식을 라스트 마일 미세 조정 (last-mile fine-tuning)이라 명명하며, 이것이 입력 형식의 가변성에도 더 견고하다는 것을 보여줍니다. 셀프 디버그 (self-debug) 및 엔드 투 엔드 미세 조정 접근 방식과의 비교를 통해, 라스트 마일 미세 조정은 학습 데이터가 제한적이거나 정확도를 타협하지 않으면서 입력 변화에 대한 견고함을 추구할 때 매력적인 옵션임을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LIFT: 테이블 명시화를 위한 라스트 마일 미세 조정 (Last-Mile Fine-Tuning)

요약

핵심 포인트

댓글