기업 실사(Due Diligence) 에이전트 실전: 60개 이상의 실제 기업을 위한 AI 실사 보고서

5일에서 10분으로: AI는 어떻게 기업 실사를 재구성하는가

기업의 대출 전 실사(Due Diligence)는 은행과 금융 기관이 가장 골머리를 앓는 단계입니다. 한 대출 담당자는 자신의 업무를 이렇게 묘사했습니다. "Tianyancha(天眼查)를 열어 기업 정보를 확인하고, Wind로 시장 상황을 체크한 뒤, 다시 Baidu에서 뉴스를 검색합니다. 마지막으로 7~8개의 시스템에 흩어져 있는 데이터를 Word 템플릿에 하나씩 끼워 맞춥니다." 기업 한 곳당 최소 5일이 걸립니다. 그룹 고객이거나 관계사가 많은 경우라면 2주 이상 소요되기도 합니다.

한 지점장은 허탈하게 말했습니다. "25명의 고객 관리자(RM)가 있는데, 각자가 작성하는 실사 보고서 형식이 모두 다릅니다. 똑같은 기업임에도 A 매니저는 '저위험'으로 평가하고, B 매니저는 '중위험'으로 평가합니다. 누가 맞고 틀린지 판단할 방법이 없습니다." 문제의 근원은 개인의 역량 차이가 아니라 도구 체인(Toolchain)의 파편화에 있습니다. 데이터가 서로 다른 시스템에 흩어져 있고, 통합된 입구도, 표준화된 수집 프로세스도 없기 때문입니다.

우리는 12개 금융 기관의 실사 프로세스를 조사하여 세 가지 공통적인 페인 포인트(Pain Point)를 발견했습니다: 정보의 산재(데이터가 6~~10개의 시스템에 분산됨), 긴 소요 시간(기업당 5~~10 영업일), 품질의 불균형(개인의 경험에 의존하며 표준화된 프로세스가 없음).

본문은 이러한 문제를 AI Agent로 해결하는 실전 프로젝트인 '기업 실사 엔진 v5.0'에 대해 기록합니다. 이것은 개념 증명(PoC)이나 데모(Demo)가 아니라, 60개 이상의 실제 기업을 대상으로 검증을 마친 프로덕션급(Production-grade) 시스템입니다.

기술 아키텍처: 다중 소스 데이터 통합 데이터 흐름

실사의 핵심 난제는 '분석'이 아니라 '수집'입니다. 상장 기업의 완전한 프로필을 작성하려면 최소 6개의 이기종 데이터 소스(Heterogeneous data sources)에서 정보를 가져와야 합니다. 전통적인 방식은 사람이 일일이 복사하여 붙여넣는(Copy-Paste) 방식이었지만, 우리의 솔루션은 Agent를 사용하여 데이터 흐름을 자동으로 오케스트레이션(Orchestration)합니다.

사용자 입력 "Midea Group"
    │
    ▼
...

이 데이터 흐름의 핵심 설계 원칙은 **병렬 수집, 직렬 추론(Parallel Collection, Serial Reasoning)**입니다. Step 2의 시장 상황 및 여론 데이터는 병렬로 가져올 수 있고, Step 3의 세 가지 MCP 호출도 병렬로 가능하지만, Step 4의 종합 점수는 모든 데이터가 도착한 후 교차 검증을 수행해야 합니다. 이러한 설계를 통해 엔드 투 엔드(End-to-end) 소요 시간을 10분 이내로 단축했습니다.

또 다른 핵심 설계는 **점진적 기능 저하(Progressive Degradation)**입니다. 만약 MCP 도구를 사용할 수 없는 경우(예: 기업이 비상장사인 경우), 엔진은 시장 상황 및 밸류에이션(Valuation) 모듈을 건너뛰고 기업 정보 + 리스크 + 뉴스만 포함된 '기본 버전' 보고서를 반환하며, 오류를 내며 종료되지 않습니다. 이 설계는 실제 사용 시 매우 중요합니다. 우리의 60개 이상 기업 샘플 중 11개는 비상장 기업이었으며, 만약 모든 데이터 소스가 갖춰져야만 보고서를 생성하도록 했다면 이 11개 기업은 제외되었을 것입니다.

5대 핵심 능력 상세 설명

1. 주식 코드 조회

기업명을 입력하면 자동으로 일치하는 주식 코드를 검색합니다. 예를 들어 "Midea Group"을 입력하면 엔진은 웹 검색을 통해 000333.SZ를 찾아냅니다. 이 단계는 간단해 보이지만, 이후의 모든 데이터 획득(시장 상황, 밸류에이션, 과거 추세 등)을 위한 전제 조건입니다. 비상장 기업의 경우 엔진은 stock_code: null로 표시하고 관련 모듈을 건너뜁니다. 실제 테스트에서 주식 코드 조회 성공률은 98% 이상이었으며, 소수의 실패 사례는 주로 검색 엔진에 아직 인덱싱되지 않은 명칭 변경(예: "Gree Real Estate"가 "Zhuhai Investment Group"으로 변경됨) 때문이었습니다.

2. 실시간 시장 데이터

ifind 인터페이스를 통해 실시간 주가, 등락률, 거래량, 회전율 등의 지표를 가져옵니다. 이 데이터는 보고서의 "시장 데이터" 섹션에 직접 기록되어 분석가가 거래 소프트웨어에서 수동으로 옮겨 적는 수고를 덜어줍니다. 더 중요한 것은 시장 데이터와 이후의 밸류에이션 지표 간의 교차 검증입니다. 만약 PE_TTM이 14배로 나타나는데 주가가 비정상적으로 변동한다면, 보고서에는 "데이터 일관성 확인 필요"라고 표시됩니다.

3. 기업 뉴스 및 여론

웹 검색을 통해 기업의 최신 뉴스를 가져오며, 엔진은 뉴스에 대한 감성 분석(Sentiment Analysis)을 수행하여 여론 등급(긍정/중립/부정)과 여론 점수(0-100)를 출력합니다. 이는 단순한 키워드 매칭이 아니라 문맥에 기반한 의미론적 판단(Semantic judgment)입니다. 긍정적 신호와 리스크 신호가 동시에 나타날 경우, 보고서는 이를 단순히 상쇄하는 것이 아니라 각각 나열합니다. 예를 들어 "Midea Group의 해외 매출 사상 최고치"라는 뉴스와 "Midea Group이 반덤핑 조사 대상이 됨"이라는 뉴스가 동시에 나타나면, 여론 점수는 단순히 0점이 되는 것이 아니라 "성장 신호와 정책 리스크가 공존함"이라고 표시됩니다.

4. 기업 정보(工商信息) 검색

MCP 도구인 company_business_info를 통해 법정 대표자, 자본금, 주주 구조, 경영진, 산업 분류 등의 기업 등록 정보를 가져옵니다. 이 데이터는 공식 기업 데이터베이스에서 가져오므로 사람이 Tianyancha에서 스크린샷을 찍는 것보다 더 정확하며, 구조화된(Structured) 이점이 있습니다. 주주 지분율은 관계사 분석에 직접 활용될 수 있습니다. Midea Group의 기업 정보 결과에 따르면, 최대 주주인 Midea Holding Co., Ltd.가 30.94%를 보유하고 있으며, 이러한 구조화된 데이터는 관계사 분석 모델에 직접 입력될 수 있습니다.

5. 리스크 스캔

MCP 도구인 company_risk_info를 통해 강제 집행 정보, 행정 처분, 세금 체납 기록, 영업 이상 명단 등을 스캔합니다. 이는 실사에서 가장 중요한 단계이자 가장 놓치기 쉬운 단계이기도 합니다. 전통적인 실사에서 대출 담당자들은 종종 한두 가지 차원만 확인하고 업무를 마무리하곤 합니다. 엔진은 네 가지 유형의 리스크를 모두 스캔하며, 항목 중 하나라도 기록이 있으면 즉시 빨간색으로 표시합니다. 60개 이상의 기업 실측 결과, 우리는 행정 처분 기록이 있는 3개 기업과 영업 이상 표시가 있었던 1개 기업을 포착했습니다. 이러한 정보는 사람이 직접 검색했다면 누락되었을 가능성이 매우 높습니다.

실전 사례: Midea Group 실사 보고서 생성

Midea Group을 예로 들어 전체 실사 프로세스를 보여드리겠습니다.

입력: "Midea Group" (기업명만 입력, 기타 사전 정보 없음)

엔진 작동 과정:

단계	동작	소요 시간	결과
Step 1	주식 코드 인터넷 검색	~3s	000333.SZ
...
총 소요 시간: 약 20초 (네트워크 지연 포함. 60개 이상의 기업을 배치(Batch) 처리할 경우, 병렬 처리 시 기업당 평균 2분 미만 소요)

JSON 보고서 주요 필드:

{
  "basic_info": {
    "company_name": "美的集团",
...

한 가지 세부 사항에 주목할 필요가 있습니다. 리스크 스캔 결과는 "낮음"으로 표시되었지만, 종합 평가 결과는 "중간 위험"입니다. 이는 여론 점수(65점)가 종합 점수를 낮추었기 때문입니다. 즉, 시장 측면의 불확실성이 엔진에 의해 포착되어 최종 결론에 반영된 것입니다. 이러한 "다중 소스 교차 검증(Cross-validation), 가장 엄격한 결론 채택" 전략은 AI 환각(Hallucination)을 방지하기 위한 핵심 설계입니다. 단일 데이터 소스에서 "문제 없음"이라고 말하는 것만으로는 부족하며, 반드시 여러 차원에서 교차 확인을 거친 후에야 "낮은 위험"이라는 판단을 내릴 수 있습니다.

60개 이상 기업 검증: 산업 전반에 걸친 배치 실사 (Batch Due Diligence)

우리는 60개 이상의 실제 기업을 대상으로 엔진의 안정성을 검증했습니다. 이 기업들은 네 개의 주요 산업을 포괄합니다:

산업	기업 수	상장/비상장	대표 기업
제조업	22	18/4	Midea Group, BYD, CATL
...
배치 실행 통계 데이터:

전체 완료율: 93.3% (56/60개 기업 완전한 보고서 생성, 4개 기업은 기업명 모호성으로 인해 수동 확인 필요)
평균 보고서 생성 소요 시간: 기업당 1분 48초
JSON 평균 크기: 5.2KB, Markdown 평균 크기: 3.8KB
실행 로그: engine_log.txt 총 155KB, 전체 호출 체인(Call chain) 및 예외 처리 과정 기록

가장 전형적인 실패 패턴은 기업 명칭의 모호성입니다. 예를 들어 "Huayi"를 입력했을 때, 이것이 Huayi Brothers인지 Huayi Group인지 알 수 없는 경우입니다. v5.0의 처리 방식은 결과를 추측하여 바로 반환하는 대신, 모든 일치 항목을 나열하여 사용자가 선택하도록 하는 것입니다. 이러한 "한 번 더 묻더라도 잘못된 데이터를 주지 않는다"는 설계 철학은 금융 시나리오에서 특히 중요합니다.

산업 차원에서 보면, 제조업의 실사 보고서 완성도가 가장 높았습니다 (22개 기업 중 21개가 완전한 6차원 데이터를 반환). 이는 상장 비율이 높고 공개 정보가 풍부하기 때문입니다. 금융업의 특이점은 은행류 기업의 경우 전통적인 의미의 "PE/PB" 가치 평가 로직이 없다는 점인데, 엔진은 이를 자동으로 인식하고 평가 차원을 조정합니다.

진화 과정: 정적 데모에서 프로덕션 엔진으로

이 프로젝트는 한 번에 완성된 것이 아닙니다. 5개 버전의 반복(Iteration)을 되돌아보면, "작동 가능한" 수준에서 "신뢰할 수 있는" 수준으로 나아가는 명확한 경로를 볼 수 있습니다:

버전	날짜	핵심 개선 사항	한계
v1.0	2026-04-28	정적 데이터, 보고서 템플릿 검증	전체 하드코딩(Hard-coded), 재사용 불가
...
가장 결정적인 도약은 v4.0에서 v5.0 사이에서 일어났습니다. v4.0은 Ark API에 의존하여 데이터를 가져왔는데, 호출할 때마다 비용이 발생하여 60개 기업을 한 번 돌리는 데 비용이 만만치 않았습니다. v5.0은 인터넷 검색을 주 데이터 채널로 도입하고, MCP 도구를 보조 수단으로 활용했습니다. 이를 통해 API 비용 제로(Zero API cost)를 달성했을 뿐만 아니라, 데이터 출처가 더 투명하고 감사(Audit) 가능해졌습니다. 금융 기관 입장에서 "비용 제로"는 단순히 돈을 아끼는 것을 넘어 컴플라이언스(Compliance) 측면에서도 이점입니다. 제3자 데이터 구매가 없으면 공급업체 리스크도 사라지기 때문입니다.

v1.0에서 v3.0까지의 17일 동안 팀이 해결한 문제는 사실 "데이터가 어디서 오는가"라는 엔지니어링 문제였습니다. v2.0은 하드코딩을 설정화(Configuration)로 바꾸었고, v3.0은 배치 처리 능력을 추가했지만, 여전히 데이터를 지정된 위치로 수동 운반해야 했습니다. v4.0에서 에이전트(Agent) 자동 오케스트레이션(Orchestration)이 도입된 후에야 비로소 "기업명 입력, 완전한 보고서 출력"이라는 폐쇄 루프(Closed-loop) 경험이 실현되었습니다.

다중 소스 검증: AI 환각에 대응하는 엔지니어링 해법

AI 생성 콘텐츠의 가장 큰 신뢰 위기는 환각(Hallucination)입니다. 모델이 존재하지 않는 데이터를 자신 있게 지어내어, 실제 데이터보다 더 진짜처럼 보이게 만드는 현상입니다. 실사 시나리오에서 허구의 리스크 기록 하나는 수억 달러 규모의 대출 판단 오류를 초래할 수 있습니다.

우리의 해법은 "모델을 더 똑똑하게 만드는 것"이 아니라, 데이터 흐름(Data flow) 설계를 통해 물리적 차원에서 환각을 차단하는 것입니다:

데이터와 추론의 분리: 보고서의 모든 데이터 포인트에는 데이터 출처(ifind/MCP/인터넷 검색)가 표시됩니다. 분석 결론은 데이터가 모두 확보된 후에만 생성되며, 모델이 "결론을 먼저 내리고 증거를 찾는" 행위를 금지합니다.
교차 검증 레드 플래그(Red-flag): 동일한 지표를 서로 다른 데이터 소스에서 가져온 후 일관성을 비교하며, 편차가 임계값을 초과하면 즉시 빨간색으로 표시합니다.
점진적 기능 저하(Graceful Degradation): 데이터 소스를 사용할 수 없는 경우, 모델의 "추측"으로 강등되는 대신 해당 모듈을 건너뜁니다.
출력의 감사 가능성: 모든 JSON 보고서에는 data_sources 필드가 포함되어 각 데이터 포인트의 출처와 획득 시간을 기록하며, 전체 경로 추적(Traceability)을 지원합니다.

이 메커니즘은 60개 이상의 기업 검증에서 안정적으로 작동했습니다. 허구의 데이터는 단 한 건도 발견되지 않았습니다. 이는 모델이 착해졌기 때문이 아니라, 데이터 흐름 설계가 환각이 발생할 틈을 주지 않았기 때문입니다. 즉, 추측할 기회를 주지 않으면 추측하지 않습니다. 155KB의 engine_log.txt에는 모든 API 호출의 입력 및 출력 파라미터가 기록되어 있어, 어떤 데이터 포인트라도 원본 요청까지 추적할 수 있습니다. 이는 전통적인 수동 실사로는 구현할 수 없는 감사 입도(Granularity)입니다.

도입 시사점: "보조 도구"에서 "인프라스트럭처"로

60개 이상의 기업을 대상으로 한 기업 실사 엔진의 실전 적용은 한 가지 판단을 검증해 주었습니다. 금융 시나리오에서 AI의 가치는 "사람을 대신해 분석하는 것"이 아니라, 데이터 수집과 표준화를 인프라스트럭처(Infrastructure)로 만드는 것에 있습니다.

전통적인 실사(Due Diligence) 과정의 5일 중, 4.5일은 데이터 수집과 형식 정리(Formatting)에 소비되며, 실제 분석과 판단에는 단 반나절만이 할애됩니다. AI는 이 4.5일을 10분으로 압축하여, 분석가가 산업 트렌드 해석, 특수관계인 이익 분석, 협상 전략 수립과 같이 인간의 판단이 진정으로 필요한 단계에 에너지를 집중할 수 있게 합니다.

더욱 심오한 영향은 표준화(Standardization)에 있습니다. 60개 이상의 기업에 대해 통일된 JSON 및 MD 이중 형식으로 출력된다는 것은, 실사 결과가 처음으로 비교 가능성(Comparability)을 갖추게 되었음을 의미합니다. 서로 다른 분석가가 작성한 보고서가 더 이상 제각각인 것이 아니라, 동일한 기준(Metric) 하에서의 차이 분석(Difference Analysis)이 가능해진 것입니다. 이 가치는 단순히 "며칠의 시간을 아끼는 것" 그 자체를 훨씬 뛰어넘습니다.

도구(Tool)에서 인프라스트럭처(Infrastructure)로의 도약을 나타내는 지표는 기술이 얼마나 복잡한가가 아니라, 다른 시스템이 이를 의존할 수 있는가입니다. 스코어링 엔진(Scoring Engine)이 실사 엔진의 JSON 출력을 안정적으로 소비할 수 있고, 리스크 관리(Risk Control) 시스템이 리스크 스캔 결과를 규칙 트리거(Rule Trigger) 조건으로 사용할 수 있을 때, 실사는 비로소 "보고서 작성"에서 "데이터 생성"으로 진화합니다. 그리고 이 데이터는 전체 금융 리스크 관리 체인의 시작점이 됩니다.

Agent Skills 오픈소스 생태계

본문에 언급된 기술과 프레임워크는 오픈소스로 공개되었습니다. Star / Fork / PR을 환영합니다:

저장소	내용	라이선스	링크
financial-ai-skills	104개의 금융 AI 기술, API 비용 제로	MIT	https://github.com/yuzhaopeng-up/financial-ai-skills
...

AI 생성

Insights

기업 실사 에이전트: 60개 이상의 실제 기업에 대한 AI 실사 보고서

요약

핵심 포인트