의미적 유사성을 넘어: 기업 신용 심사를 위한 2단계 비매개변수적 검색 워크플로우

기업 신용 심사 (Corporate credit underwriting)를 수행하는 분석가들은 수백 페이지에 달하고 여러 언어로 구성된 길고 이질적인 재무 문서에서 실행 가능한 증거를 추출해야 합니다. 표준적인 검색 증강 생성 (RAG, Retrieval-Augmented Generation) 파이프라인은 의미적 유사성 (Semantic similarity)을 최적화하는데, 이는 주제적으로는 관련이 있지만 의사결정 유용성 (Decision utility)이 부족한 구절을 빈번하게 노출하는 문제를 야기하며, 우리는 이를 유사성-유용성 격차 (Similarity-utility gap)라고 정의합니다. 우리는 높은 재현율 (High-recall)의 후보 검색과 높은 정밀도 (High-precision)의 유용성 순위 산정을 분리하는 2단계 비매개변수적 (Non-parametric) 검색 아키텍처를 제안합니다. 첫 번째 단계는 어휘적 (Lexical) 검색과 밀집 다국어 (Dense multilingual) 검색을 결합하여 광범위한 후보 풀을 구축합니다. 두 번째 단계는 질의 의도 (Query intent)와 문서 구조 신호를 사용하여 후보를 필터링하는 적응형 검색 컨트롤러 (Adaptive retrieval controller)를 적용하며, 이어서 의미적 근접성 (Semantic proximity)이 아닌 분석적 유용성에 따라 구절의 순위를 매기는 LLM-as-a-Judge 유용성 점수 산정 메커니즘을 수행합니다. 문맥 인식 추출 (Context-aware extraction) 모듈은 서술형 텍스트와 복잡한 재무 표 전반에 걸쳐 구조적 충실도 (Structural fidelity)를 보존합니다. 이 시스템은 기업의 데이터 거버넌스 (Data governance) 요구 사항을 충족하기 위해 전적으로 온프레미스 (On-premise) 환경에 배포되었습니다. 분석가가 선별한 관련성 레이블이 포함된 독점 재무 문서의 다국어 코퍼스 (Corpus)를 통해 평가한 결과, 본 시스템은 단순 검색 (Naive retrieval) 베이스라인을 크게 능가했습니다. 800명 이상의 신용 분석가들이 사용하는 실제 운영 환경에 배포된 결과, 문서 검토 시간이 수 시간에서 약 3분으로 단축되었으며, 이는 문서 집약적인 의사결정 지원 워크플로우에서 유용성 인식 (Utility-aware) RAG 아키텍처의 실질적인 가치를 입증합니다.

Insights

의미적 유사성을 넘어: 기업 신용 심사를 위한 2단계 비매개변수적 검색 워크플로우

요약

핵심 포인트

댓글

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공