arXiv논문2026. 06. 19. 11:48

Text-to-JSON 학습을 위한 소스 기반 데이터 생성

요약

비정형 문서에서 JSON 구조를 추출하기 위한 새로운 데이터 생성 파이프라인인 STAGE를 제안합니다. 스프레드시트를 기반으로 정답 값을 검증하여 신뢰할 수 있는 학습 데이터를 합성하며, 기존 방식 대비 모델의 추출 성능을 대폭 향상시켰습니다.

핵심 포인트

스프레드시트를 활용한 소스 기반(source-grounded) 데이터 생성 방식 제안
LLM을 사용하여 보고서와 JSON 스키마를 자동으로 구축
STAGE-Eval 벤치마크를 통해 데이터 생성 성능 검증
Qwen3-4B 모델의 JSON 추출 정확도를 31.37%에서 74.27%로 향상

금융 보고서부터 임상 기록에 이르기까지, 기존 산업들은 고가치 정보를 저장하기 위해 길고 비정형적인 문서(unstructured documents)에 크게 의존하고 있습니다. 이러한 정보를 구조화되고 기계가 읽을 수 있는 표현(machine-readable representations)으로 안정적으로 추출하는 것은 콘텐츠를 자동화된 시스템에서 활용할 수 있도록 만드는 핵심 전제 조건입니다. JSON은 이러한 구조적 추출을 위한 자연스러운 대상이지만, 신뢰할 수 있고 확장 가능한 Text-to-JSON 학습 데이터를 구축하는 것은 여전히 어려운 과제로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 STAGE (Spreadsheet-grounded Text-to-JSON Artifact GEneration)를 제안합니다. STAGE는 확장 가능한 합성을 위해 LLM을 사용하여 보고서와 JSON 스키마(schema)를 구축하는 동시에, 기반이 되는 스프레드시트(spreadsheet)를 통해 정답 값(ground-truth values)을 검증하는 소스 기반(source-grounded) 데이터 생성 파이프라인입니다. 851개의 예제로 구성된 소스 기반 벤치마크인 STAGE-Eval을 통한 평가 결과, STAGE는 기존 방식보다 더 강력한 학습 데이터를 생성함을 보여주었습니다. 이는 Qwen3-4B의 정확한 일치(exact match) 성능을 31.37%에서 74.27%로, 값 정확도(value accuracy)를 45.46%에서 90.69%로 향상시켰습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Text-to-JSON 학습을 위한 소스 기반 데이터 생성

요약

핵심 포인트

댓글