재무 결산 프로세스에 AI를 구현하며 우리가 잘못했던 점

Generative AI (생성형 AI) 재무 보고 파일럿 프로젝트를 시작한 지 6개월이 지났을 때, 우리는 문제에 직면했습니다. AI는 어떤 분석가보다도 빠르게 차이 분석(variance explanations) 초안을 작성할 수 있었지만, 감사인들은 이를 수용하지 않았습니다. 내용이 틀려서가 아니었습니다. 내용은 정확했습니다. 문제는 AI가 어떻게 그러한 결론에 도달했는지 충분히 설명할 수 없었다는 점이었습니다. 그때 저는 기술적 역량이 곧 운영 준비성(operational readiness)을 의미하는 것은 아니라는 사실을 깨달았습니다.

구현 과정을 점검하고 Grant Thornton 및 PwC와 같이 이 길을 먼저 걸어간 기업의 동료들과 상담한 끝에, 저는 Generative AI 재무 보고 (Generative AI Financial Reporting) 이니셔티브를 저해하는 다섯 가지 반복적인 실수를 식별했습니다. 주의해야 할 사항과 동일한 함정을 피하는 방법을 소개합니다.

실수 #1: 통제 프레임워크(Control Framework) 평가 생략

우리가 잘못한 점

우리는 AI 파일럿을 통제 환경(control environment)의 변화가 아닌 생산성 실험으로 취급했습니다. SOX(사반스-옥슬리법) 문서를 업데이트하거나, 검증 절차를 정의하거나, 외부 감사인에게 브리핑하지 않은 채 AI를 배포했습니다. 10-Q(분기 보고서) 제출 3주 전, 감사인들은 "AI가 생성한 공시 내용이 정확하다는 것을 어떻게 보장합니까?"라고 물었습니다. 우리에게는 문서화된 답변이 없었습니다.

해결책

생성형 AI 재무 보고 도구를 운영 환경에 배포하기 전에:

통제 기술서(Control narratives) 업데이트: AI 출력물이 어떻게 검증되는지 문서화합니다.
샘플링 절차 정의: AI 생성 콘텐츠 중 몇 퍼센트가 인간의 검토를 거칠지 명시합니다.
에스컬레이션 규칙(Escalation rules) 수립: 어떤 시나리오에서 반드시 인간의 감독이 필요한지 식별합니다 (예: 중요성 평가(Materiality assessments)에 영향을 미치는 모든 사항).
감사인에게 조기 통지: 현장 감사(Fieldwork) 단계가 아닌 계획 단계에서 감사인에게 내용을 브리핑합니다.

현재 우리는 다음과 같은 공식적인 통제 절차를 갖추고 있습니다: "경영진은 위험 기반(Risk-based) 샘플링을 통해 AI가 생성한 재무제표 콘텐츠를 검토하며, 중요한 계정 공시 사항은 100% 검토하고, 중요하지 않은 기술(Narratives)은 25%를 샘플링하여 검토한다." 우리의 감사인들은 이 방식이 문서화되어 있고 테스트 가능하기 때문에 이 접근 방식을 승인했습니다.

실수 #2: 불충분하거나 편향된 데이터로 학습시키기

우리가 잘못한 점

우리는 지난 4분기 동안의 재무 보고서를 사용하여 AI 모델을 학습시켰습니다. 4분기라는 양이 많아 보였지만, 알고 보니 4분기 모두에 동일한 특이한 구조조정 관련 기술(Narrative)이 포함되어 있었습니다. 이로 인해 AI는 구조조정이 관련 없는 기간에도 구조조정 관련 언어를 포함하도록 학습되었습니다.

해결책

학습 데이터를 신중하게 큐레이션하십시오:

볼륨(Volume): 정상적인 변동성을 포착할 수 있도록 최소 2~3년 치의 과거 보고서를 포함합니다.
다양성(Diversity): 다양한 비즈니스 상황(성장기, 침체기, M&A 활동 등)을 포함합니다.
품질(Quality): 오류가 있는 초안 버전이 아닌, 승인되고 확정된 콘텐츠로만 학습시킵니다.
레이블링(Labeling): 모범 사례(Best practices)를 나타내는 예시와 수용 가능하지만 이상적이지는 않은 출력물을 구분하여 태그를 지정합니다.

우리는 유기적 성장(Organic growth) 기간과 인수(Acquisition) 기간을 모두 아우르는 8분기 분량의 데이터로 학습 세트를 다시 구축했습니다. 모델이 더 대표성 있는 샘플로부터 학습했기 때문에 출력 결과가 극적으로 개선되었습니다.

실수 #3: 복잡한 판단을 AI에 과도하게 의존하기

우리가 잘못한 점

일상적인 변동 사항 설명에서 AI가 보여준 성공에 고무된 나머지, 우리는 AI에게 영업권 손상 검토 메모 (goodwill impairment assessment memo) 초안 작성을 요청했습니다. 결과물은 기술적으로는 일관성이 있었으나, 우리의 사실 관계 패턴 (fact pattern)에 잘못된 가치 평가 방법 (valuation method)을 적용했습니다. 검토 과정에서 이를 발견했지만, 이는 유창함 (fluency)이 곧 정확성 (correctness)을 의미하지는 않는다는 사실을 상기시켜 준 계기가 되었습니다.

해결책

AI 사용에 대한 명확한 경계를 설정하십시오:

좋은 AI 활용 사례 (Good AI Use Cases):

사실 관계가 명확한 서술형 문장 초안 작성 (예: 판매량 증가로 인한 매출 증가)
데이터를 공시 템플릿 형식으로 변환 (예: 리스 만기 표)
규제 업데이트 요약 (예: "ASU 2024-03은 ...에 대한 수익 인식 규정을 개정합니다")

나쁜 AI 활용 사례 (Bad AI Use Cases):

특정 사건이 재평가 (reassessment)를 유발하는지 여부 결정 (전문가적 판단 필요)
내부통제 미비점 (control deficiency)이 중요한지 여부 평가 (위험 요인에 대한 이해 필요)
공정 가치 측정 (fair value measurement) 접근 방식 결정 (가치 평가 전문 지식 필요)

우리는 의사결정 매트릭스 (decision matrix)를 만들었습니다: 일상적/사실적 사항 = AI 지원; 복잡함/판단 필요 사항 = AI의 조사 지원을 받는 인간 주도.

실수 #4: 모델 드리프트 (Model Drift) 및 유지보수 소홀

우리가 잘못한 점

1분기 파일럿 프로젝트를 성공적으로 마친 후, 우리는 2분기를 위해 모델을 재학습 (retrain)시키지 않았습니다. 그 사이 FASB(재무회계기준위원회)에서 리스 회계 (lease accounting)에 영향을 미치는 개정안을 발표했습니다. AI는 업데이트되지 않았기 때문에 계속해서 이전 지침을 적용하고 있었습니다. 우리는 리스 회계 전문가가 불일치 사항을 지적했을 때에야 이 사실을 발견했습니다.

해결책

AI 모델을 유지보수가 필요한 다른 모든 시스템처럼 취급하십시오:

분기별 검토 (Quarterly reviews): 최근의 규제 변화로 인해 재학습이 필요한지 평가
성능 모니터링 (Performance monitoring): 드리프트 (drift)를 감지하기 위해 시간이 지남에 따라 정확도 지표를 추적
피드백 루프 (Feedback loops): 수정 사항을 학습 데이터에 다시 입력하여 모델이 실수로부터 배우도록 함
버전 관리 (Version control): 각 보고 기간에 어떤 모델 버전이 사용되었는지 문서화

이제 우리는 분기 결산 킥오프 미팅(kickoff meetings)의 고정 의제로 다음 항목을 두고 있습니다: "AI 모델 업데이트가 필요한 규제 또는 비즈니스 변경 사항이 있었는가?" 만약 그렇다면, 결산 사이클이 시작되기 전에 재학습 (retraining) 일정을 잡습니다. 금융 서비스 분야에 경험이 풍부한 AI 개발 팀 (AI development teams)과 협력하면 이러한 유지보수 프로토콜을 구축하고 모델이 진화하는 표준에 맞춰 최신 상태를 유지하도록 하는 데 도움이 될 수 있습니다.

실수 #5: 데이터 프라이버시 및 기밀성 무시

우리가 잘못한 점

우리는 벤더의 데이터 사용 정책을 철저히 검토하지 않은 채 클라우드 기반 생성형 AI (Generative AI) 도구를 사용했습니다. 서비스 약관의 구석진 곳에는 다음과 같은 내용이 숨겨져 있었습니다: 벤더가 모델을 개선하기 위해 고객의 입력을 사용할 수 있다는 점입니다. 이는 이론적으로 우리의 독점적인 금융 데이터가 경쟁사가 사용하는 모델에 정보를 제공할 수 있음을 의미했습니다. 우리 법무 팀은 매우 불쾌해했습니다.

해결책

금융 데이터를 사용하여 AI 도구를 배포하기 전에 다음 사항을 수행해야 합니다:

벤더 계약 검토: 귀하의 데이터를 제3자 학습용으로 사용하는 것을 명시적으로 금지하는지 확인하십시오.
데이터 레지던시 (Data residency) 평가: 데이터가 어디에서 처리되고 저장되는지 확인하십시오 (특히 국가 간 규제와 관련하여).
액세스 제어 (Access controls) 평가: 벤더 직원이 권한 없이 귀하의 데이터를 볼 수 없는지 확인하십시오.
종료 계획 수립: 서비스를 종료할 경우 데이터를 회수하거나 삭제할 수 있는지 확인하십시오.

우리는 우리 인스턴스(instance) 외부의 모델 학습에는 우리 데이터를 절대 사용하지 않겠다는 계약적 보장이 있는 엔터프라이즈 AI 플랫폼으로 전환했습니다. 비용은 더 높았지만, 리스크 완화(risk mitigation) 측면에서 그만한 가치가 있었습니다.

실제 성공적인 모습은 어떠한가

이러한 실수들을 해결한 후, 우리의 생성형 AI (Generative AI) 재무 보고 구현은 마침내 우리가 기대했던 생산성 향상을 가져다주고 있습니다:

차이 분석 (Variance analysis) 초안 작성 시간 55% 감소
주석 (Footnote) 준비 시간 40% 감소
감사 문서화 (Audit documentation) 시간 30% 감소
오류율 변동 없음 (AI의 실수는 검토 과정에서 발견되었으며, 왜곡 표시 (misstatements)의 증가는 없었음)

하지만 이러한 지표들은 우리가 AI를 단순한 생산성 향상 도구(productivity hack)가 아닌, 통제 환경(control environment)의 강화 수단으로 취급한 후에야 비로소 가능해졌습니다.

결론

생성형 AI 재무 보고(Generative AI Financial Reporting)의 기술적 역량은 인상적이지만, 이를 성공적으로 배포하기 위해서는 단순히 좋은 기술 그 이상의 것이 필요합니다. 재무 보고에 관여하는 모든 시스템에 적용하는 규율인 엄격한 통제(controls), 사려 깊은 경계 설정, 지속적인 유지보수, 그리고 세심한 벤더 관리(vendor management)가 필요합니다. 이를 제대로 수행하고 있는 기업들은 AI 도입을 '프로세스를 부차적으로 고려하는 기술 프로젝트'가 아니라, '기술을 조력자로 활용하는 프로세스 재설계 프로젝트'로 취급하고 있습니다. 이러한 시스템들이 AI 에이전트 오케스트레이션 (AI Agent Orchestration) 프레임워크를 통해 더 넓은 기업용 AI 인프라와 점점 더 많이 상호작용함에 따라, 이러한 기초적인 통제의 중요성은 더욱 커지고 있습니다. 저희의 실수로부터 배우십시오. 통제 환경을 먼저 구축한 다음, 그 안에서 기술을 확장하십시오.

재무 결산 프로세스에 AI를 도입하며 우리가 범했던 실수

요약

핵심 포인트

재무 결산 프로세스에 AI를 구현하며 우리가 잘못했던 점

실수 #1: 통제 프레임워크(Control Framework) 평가 생략

우리가 잘못한 점

해결책

실수 #2: 불충분하거나 편향된 데이터로 학습시키기

우리가 잘못한 점

해결책

실수 #3: 복잡한 판단을 AI에 과도하게 의존하기

우리가 잘못한 점

해결책

실수 #4: 모델 드리프트 (Model Drift) 및 유지보수 소홀

우리가 잘못한 점

해결책

실수 #5: 데이터 프라이버시 및 기밀성 무시

우리가 잘못한 점

해결책

실제 성공적인 모습은 어떠한가

결론

댓글