Docusign이 NVIDIA Nemotron Parse를 통해 계약서 테이블 추출을 프로덕션 단계로 가져오는 방법
요약
Docusign은 계약서 내 복잡한 테이블 데이터를 정확하게 추출하기 위해 NVIDIA Nemotron Parse 모델을 프로덕션 환경에 통합했습니다. 범용 VLM이 해결하기 어려운 병합된 셀이나 중첩된 레이아웃 문제를 특화된 시각-언어 모델로 해결하여 비즈니스 데이터 활용도를 높였습니다.
핵심 포인트
- NVIDIA Nemotron Parse를 활용한 계약서 테이블 추출 최적화
- 범용 VLM의 한계인 복잡한 레이아웃 및 병합 셀 문제 해결
- 문서 이해 파이프라인에 전용 모델 계층을 추가하여 정확도 향상
- SLA 준수 및 리소스 추적 등 비즈니스 운영 효율성 증대
Hiral Shah, Docusign 제품 관리 시니어 디렉터 작성
이번 주 샌프란시스코에서 열린 AI Engineer World’s Fair의 엔지니어링 팀들 사이에서 나타나는 주요 반복적 테마는 특화된 AI 모델을 연구 단계에서 벗어나 직접 대규모 프로덕션 (Production) 환경으로 이동시키려는 움직임입니다.
Docusign의 경우, 이러한 최적화 과제는 엄청난 규모로 발생합니다. 우리는 매일 수백만 건의 트랜잭션을 처리하며 180개 이상의 국가에서 약 190만 명의 고객을 보유하고 있습니다. 기업들은 역사적으로 이러한 계약서를 살아있는 비즈니스 데이터 소스가 아닌 정적인 문서로 취급함으로써 발생하는 마찰, 지연 및 의무 이행 누락으로 인해 매년 상당한 가치를 상실해 왔습니다.
그 갇혀 있는 가치의 상당 부분은 테이블 (Tables) 안에 들어 있습니다. 기업 관계를 정의하는 가격 일정, SLA (Service Level Agreement) 의무 사항, 계약자 요율표 등은 계약서에서 정확하게 추출하기 가장 어려운 부분인 경우가 많습니다.
이를 해결하기 위해, 우리는 문서 이해를 위해 특별히 제작된 시각-언어 모델 (Vision-Language Model, VLM)인 NVIDIA Nemotron Parse를 문서 처리 파이프라인 (Pipeline)에 직접 통합했습니다.
Docusign과 NVIDIA는 이번 주 AI Engineer World’s Fair 무대에서 참석자들에게 내부 아키텍처 (Architecture)가 어떻게 작동하는지 보여주었습니다. 그 모습은 다음과 같습니다:
계약서 테이블이 범용 AI를 망가뜨리는 이유
계약서에는 병합된 셀 (Merged cells), 다중 페이지 구조, 혼합된 서식, 중첩된 레이아웃이 일상적으로 포함되어 있으며, 이는 범용 시각-언어 모델 (VLMs) 및 광범위한 AI 모델들이 처리하도록 설계되지 않은 요소들입니다. 그 결과, 수동 수정이 필요한 부정확한 추출이 발생하며, 이는 가속화하려 했던 워크플로 (Workflows)를 오히려 느리게 만듭니다.
우리 팀은 이러한 운영상의 마찰이 실제 기업 시나리오에서 매일 발생하는 것을 목격하고 있습니다:
-
시스템 다운타임 (System Downtime): 중요한 시스템이 다운되었을 때, 운영 팀은 어떤 SLA (Service Level Agreement) 통지 요구 사항이 적용되는지, 그리고 누구에게 통지해야 하는지를 즉시 파악해야 합니다.
-
리소스 추적 (Resource Tracking): 비즈니스 이해관계자가 법무 팀에 계약자 계약 시 합의된 시간당 요율이 얼마인지 문의할 때, 그 답변은 종종 요율표 (rate card) 테이블 깊숙이 숨겨져 있습니다.
-
벤더 갱신 (Vendor Renewals): 구매 팀이 복잡한 벤더 갱신을 관리할 때, 여러 부속서 (exhibits)에 흩어져 있는 가격 구조를 하나로 모으기 위해서는 상당한 수동 검토가 필요합니다.
프로덕션 파이프라인: 레이아웃에서 구조화된 데이터로
Docusign의 문서 이해 파이프라인은 대규모로 계약서를 처리하며, 수백만 개의 문서에 대해 레이아웃 탐지 (layout detection) 및 광학 문자 인식 (OCR, Optical Character Recognition)을 수행합니다. 여기에 신뢰할 수 있는 테이블 추출 (table extraction) 기능을 추가하려면, 이전 단계들이 완전히 해결할 수 없었던 구조적 복잡성을 처리할 수 있는 전용 모델 계층이 필요했습니다.
이 통합의 핵심은 NVIDIA Nemotron Parse로, 레이아웃 탐지, OCR, 그리고 문서 의미론 (document semantics)을 결합하여 복잡한 테이블을 정확하게 해석하고 재구성하는 소형 시각-언어 모델 (vision-language model)입니다.
프로덕션 배포를 위해 모델 인프라는 두 가지 핵심 요구 사항을 중심으로 구성됩니다:
-
vLLM을 통한 서빙 (Serving with vLLM): Nemotron Parse는 vLLM을 통해 서빙되며, Docusign의 기존 레이아웃 및 OCR 파이프라인에 직접 통합됩니다.
-
데이터 거버넌스 및 로컬리티 (Data Governance & Locality): 민감한 계약 데이터는 완전히 Docusign의 보안 환경 내에 머뭅니다. 기밀 비즈니스 약관을 다룰 때 문서를 로컬에 유지하는 것은 필수 요구 사항이며, 동시에 우리 엔지니어링 팀이 특정 사용 사례에 맞춰 모델을 실행하고 최적화할 수 있는 유연성을 제공합니다.
합성 벤치마크를 넘어서
이 통합을 제대로 검증하기 위해, 우리는 깔끔한 합성 벤치마크 (synthetic benchmarks)를 건너뛰었습니다. 합성 벤치마크는 기업용 계약서가 실제로 포함하고 있는 서식의 변형, 일관되지 않은 구조, 그리고 혼합된 언어 콘텐츠를 포착하지 못하기 때문입니다. 대신, 우리는 실제의 복잡한 기업용 계약서를 대상으로 아키텍처를 테스트했습니다.
이 프로덕션 배포 (production deployment)의 정확성과 신뢰성 덕분에 NVIDIA는 자체 기업 계약을 관리하기 위해 Docusign IAM을 배포할 수 있는 확신을 얻었습니다.
로드맵의 다음 단계
작업은 여기서 멈추지 않습니다. 우리의 엔지니어링 팀은 더욱 복잡하고 다양한 테이블 구조에 대한 모델 정확도를 지속적으로 개선하고 있습니다. 또한 우리는 NVIDIA Agent Toolkit을 통해 에이전트 워크플로 (agentic workflows)와의 더 깊은 통합을 적극적으로 탐색하고 있으며, 다운스트림 개발자 시스템과 직접 통합할 수 있는 퍼블릭 API도 곧 출시될 예정입니다.
Nemotron Parse를 기반으로 하는 테이블 추출 기능은 현재 Agreement Manager 내에서의 추출을 위해 베타 고객을 모집 중이며, 곧 정식 출시 (general availability)를 앞두고 있습니다.
문서 인텔리전스 (document intelligence) 파이프라인을 구축 중이거나 VLM (Vision-Language Models)을 프로덕션 단계로 옮기고 있다면, 여러분의 팀은 구조적 레이아웃 변형 문제를 어떻게 해결하고 계신가요? 댓글에서 의견을 나누어 봅시다!
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기