arXiv논문2026. 04. 28. 18:09

SAGE: 의존성 인식 표 데이터 생성을 위한 희소 적응형 가이드

요약

SAGE(Sparse Adaptive Guidance)는 개인정보 보호가 중요한 영역에서 고품질 합성 표 데이터를 생성하기 위해 설계된 새로운 LLM 기반 프레임워크입니다. 기존의 접근 방식들이 특징 간 의존성을 밀집화하거나 정적으로 가정하는 한계를 가졌던 반면, SAGE는 상호 정보 기반의 희소하고 동적인 의존성 그래프를 구축합니다. 이 프레임워크는 명시적 컨텍스트 선택과 로짓 수정을 통해 LLM이 진정한 관련 정보에만 집중하도록 적응적으로 생성 과정을 안내함으로써, 데이터 충실도와 하류 유틸리티를 크게 향상시키고 정책 위반을 줄입니다.

핵심 포인트

SAGE는 합성 표 데이터 생성을 위한 새로운 LLM 기반 프레임워크로, 기존 방법의 의존성 모델링 한계를 극복합니다.
핵심 메커니즘은 상호 정보(mutual information)를 활용하여 희소하고 동적인 의존성 그래프를 구성하는 것입니다.
이 그래프는 명시적 컨텍스트 선택 및 로짓 수정을 통해 LLM의 생성 과정을 적응적으로 가이드합니다.
실험 결과, SAGE는 데이터 충실도와 하류 유틸리티를 개선할 뿐만 아니라 정책 위반을 줄이는 효과를 입증했습니다.

민감한 개인정보 보호가 요구되거나 자원이 부족한 영역에서 데이터 가용성을 향상시키기 위해 고품질의 합성 표 데이터를 생성하는 것은 여전히 중요한 과제로 남아있습니다. 최근의 접근법들은 표 행을 시퀀스로 표현하여 LLM(대규모 언어 모델) 을 활용하지만, 두 가지 근본적인 한계에 직면해 있습니다: (1) 특징 간 의존성을 밀집화하여 모델링함으로써 허위 상관관계를 도입한다는 점; 그리고 (2) 특징 간의 관계를 정적이라고 가정하여 이러한 의존성이 특징 값에 따라 어떻게 변화하는지를 무시한다는 점입니다. 이러한 한계를 극복하기 위해 우리는 희소하고 동적인 의존성 가이드를 강제하는 새로운 LLM 기반 생성 프레임워크인 SAGE(Sparse Adaptive Guidance) 를 제안합니다. SAGE 는 특징을 가치 인식형 가짜 특징(pseudo-features) 으로 이산화화(discretizes) 하고, 상호 정보(mutual information) 기반의 희소 의존성 그래프를 구성합니다. 이 그래프는 명시적인 컨텍스트 선택이나 암묵적인 로짓 수정(logit correction) 을 통해 생성을 적응적으로 가이드하여, LLM 이 합성 과정에서 진정한 관련 정보에만 집중할 수 있도록 합니다. 여섯 개의 데이터셋과 여러 작업을 대상으로 한 광범위한 실험 결과, SAGE 는 이전 LLM 기반 방법 대비 F1 점수를 10% 향상시키는 등 데이터 충실도(data fidelity) 와 하류 유틸리티(downstream utility) 를 개선하는 데 그치지 않고, 정책 위반(policy violations) 을 한 점 줄이는 효과도 보여줍니다. 이러한 결과는 표 데이터 생성에서 적응형 구조의 중요성을 부각시키며, LLM 의 컨텍스트 민감형 제어(context-sensitive control) 에 대한 새로운 통찰을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SAGE: 의존성 인식 표 데이터 생성을 위한 희소 적응형 가이드

요약

핵심 포인트

댓글