테이블 데이터 수치 추론의 일반화 성능 향상: TaNOS 프레임워크

전문 도메인 테이블 데이터 기반의 수치 추론 (Numerical Reasoning) 모델들은 특정 영역(in-domain)에서는 높은 정확도를 보이지만, 다른 도메인으로 이동할 경우 성능이 급격히 저하되는 문제점(limited robustness to domain shift)을 안고 있습니다. 기존에 사용되던 지도 미세 조정 (Supervised Fine-Tuning, SFT) 방식은 특정 데이터셋의 헤더와 연산 구조를 암기하는 '지름길'에 의존할 뿐, 근본적인 구조적 추론 능력을 갖추기 어렵다는 한계가 있었습니다.

이에 본 논문에서는 이러한 문제를 해결하기 위해 TaNOS라는 지속적인 사전 학습 (continual pre-training) 프레임워크를 제안합니다. TaNOS는 세 가지 핵심 구성 요소를 결합하여 모델의 수치 추론 능력을 근본적으로 개선하는 것을 목표로 합니다.

헤더 익명화 (Header Anonymization): 테이블 헤더에 포함된 특정 단어(lexical) 정보가 모델이 연산 구조 자체를 이해하기보다 표면적인 텍스트 패턴을 암기하게 만드는 현상을 줄입니다. 이를 통해 도메인 의미론과 수치 연산 구조를 분리하는 데 기여합니다.
연산 스케치 (Operation Sketches): 테이블의 최소한의 구조적 단서(minimal structural cues)만을 제공하여, 모델이 데이터가 가진 근본적인 계산 로직에 집중하도록 유도합니다.
정확성 보장 자가 지도 학습 (Correctness-Guaranteed Self-Supervised Pretraining): 주어진 테이블로부터 프로그램-질문 쌍(program-question pairs)을 생성하는 과정에서, 항상 정확성이 보장되는 방식으로 사전 학습을 진행합니다. 이는 모델이 단순히 패턴을 인식하는 것을 넘어, 논리적으로 올바른 추론 과정을 스스로 구축하도록 돕습니다.

TaNOS를 적용한 실험 결과는 이 프레임워크의 우수성을 명확히 보여줍니다. 8B 파라미터로 조정된 모델에 TaNOS를 적용했을 때, FinQA 데이터셋에서 단지 10%의 학습 데이터만을 사용했음에도 불구하고 **80.13%의 실행 정확도(execution accuracy)**를 달성했습니다. 이는 전체 학습 데이터를 사용한 SFT 기준선(73.97%)을 능가하는 수치이며, GPT-5나 Gemini-2.5-Pro와 같은 최신 독점 모델들보다도 우수한 성능입니다.

무엇보다 중요한 것은 도메인 이동 실험 (domain-shift experiments) 결과입니다. 표준 SFT 방식이 도메인 간에 10pp 이상의 큰 성능 격차(gap)를 보이는 반면, TaNOS는 교차 도메인에서 2pp 미만의 매우 작은 성능 차이를 보여주었습니다. 이는 모델이 특정 도메인의 지식에 의존하지 않고 일반화된 구조적 추론 능력을 갖추었음을 입증합니다.

결론적으로, TaNOS는 헤더 비의존적인 표현 방식과 구조적 안내를 결합한 자가 지도 학습을 통해 수치 추론 모델의 로버스트니스(robustness)와 전이 가능성(transferability)을 획기적으로 개선하는 효과적인 방법론임을 제시합니다.

Insights

테이블 데이터 수치 추론의 일반화 성능 향상: TaNOS 프레임워크

요약

핵심 포인트

댓글

사람들은 Anthropic이 Opus 5를 ARC-AGI 퍼즐과 유사한 RL 환경에서 실제로 학습시켰다는 사실을 깨닫지 못하고 있습니다

Anthropic CEO Dario Amodei, HBM 시장의 약 85%를 점유하는 SK hynix 및 Samsung과 메모리 공급 계약

Next.js, TypeScript, 그리고 선언적 엔진(Declarative Engine)으로 50개 이상의 계산기를 만들며 배운 것들

UK AISI / CAISI의 Kimi K3 사이버 역량 예비 평가

사람들은 Anthropic이 Opus 5를 ARC-AGI 퍼즐과 유사한 RL 환경에서 실제로 학습시켰다는 사실을 깨닫지 못하고 있습니다

Anthropic CEO Dario Amodei, HBM 시장의 약 85%를 점유하는 SK hynix 및 Samsung과 메모리 공급 계약

Next.js, TypeScript, 그리고 선언적 엔진(Declarative Engine)으로 50개 이상의 계산기를 만들며 배운 것들

UK AISI / CAISI의 Kimi K3 사이버 역량 예비 평가