Stanford EDGAR Filings Dataset: 레이아웃을 충실히 반영하고 토큰 효율적인 사전 학습 데이터로 재구성된 미국 기업 및
요약
Stanford 연구진이 금융 언어 모델 학습을 위해 SEC 공시 자료를 재구성한 SEFD 데이터셋을 공개했습니다. 레이아웃을 보존한 MultiMarkdown 형식을 사용하여 토큰 효율성을 높였으며, 금융 추론 및 문서 이해를 위한 고품질 사전 학습 데이터를 제공합니다.
핵심 포인트
- 레이아웃을 충실히 반영한 토큰 효율적인 MultiMarkdown 형식 제공
- 152B 토큰 규모의 SEFD-v1 초기 스냅샷 출시
- 수치 예측을 위한 EDGAR-Forecast 벤치마크 도입
- 재무 표 전사를 평가하는 EDGAR-OCR 벤치마크 도입
- Common Crawl 대비 중복률 0.1% 미만의 고유 데이터셋
고품질의 공개 웹 코퍼스(Web corpora)가 점점 고갈됨에 따라, 깨끗한 긴 문맥(Long-context) 문서들은 대규모 언어 모델(LLMs)을 위한 희소하고 값비싼 학습 데이터 소스가 되었습니다. 기존의 긴 문맥 코퍼스는 종종 독점적이어서 획득 비용이 많이 들거나, 합성적으로 생성되었거나, 프로그래밍과 같은 좁은 도메인에 집중되어 있습니다. 우리는 금융 언어 모델링(Language modeling) 및 평가를 위해 SEC 공시 자료를 레이아웃을 충실히 반영하는 MultiMarkdown 형식으로 공개 재구성한 Stanford EDGAR Filings Dataset (SEFD)을 소개합니다. SEFD는 감사된 재무제표, 리스크 공시, 소유권 보고서, 회계 주석, 시장 변동 이벤트를 유발하는 공시 자료를 긴 문맥 사전 학습(Pretraining) 데이터 및 금융 추론, 예측, 컴플라이언스(Compliance), 문서 이해를 위한 기초 자료로 사용할 수 있게 합니다. 결과물인 코퍼스는 토큰 효율적(Token-efficient)이며 모델 준비가 완료된 상태(Model-ready)이고, Common Crawl 유래 코퍼스와의 중복이 0.1% 미만입니다. 우리는 152B 토큰 규모의 초기 공개 스냅샷인 SEFD-v1을 출시하며, 약 550B 토큰으로 추정되는 1,850만 건의 공시 아카이브에 대한 코퍼스 수준의 분석을 제공합니다. 나아가 우리는 SEFD에서 파생된 두 가지 벤치마크를 소개합니다: 모델의 지식 컷오프(Knowledge cutoffs) 이후 공시에 기반한 수치 예측을 평가하는 EDGAR-Forecast와 복잡한 재무 표(Table)의 전사(Transcription)를 평가하는 EDGAR-OCR입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기