LLM 거버넌스를 위한 기계적 강제 (Mechanical Enforcement): 금융 의사결정 시스템에서의 거버넌스-태스크 디커플링
요약
본 연구는 금융 워크플로우 내 LLM의 거버넌스 문제를 다루며, 기존 평가 방식이 의사결정 근거 수준에서의 정책 준수 여부를 측정하지 못함을 지적합니다. 이를 해결하기 위해 '기계적 강제(mechanical enforcement)'라는 구조적 분리 방식을 도입하여 텍스트 전용 거버넌스와 비교했습니다. 그 결과, 기계적 강제는 의사결정 근거의 품질을 크게 향상시키고 태스크 정확도를 높여, 규제 대상 AI 시스템에서 거버넌스와 태스크 평가가 독립적인 축임을 입증했습니다.
핵심 포인트
- 기존 LLM 거버넌스는 본인-대리인 문제로 인해 출력값만 준수된 것처럼 보일 수 있습니다.
- 연구는 근거(rationale) 수준의 정책 준수 여부를 정량화하는 5가지 새로운 거버넌스 지표를 도입했습니다.
- 기계적 강제는 모델 해석 루프 외부에서 작동하며, 의사결정 근거의 품질을 크게 향상시키고 태스크 정확도를 높였습니다.
- 구조적 분리를 통해 LLM의 거버넌스와 핵심 태스크 수행 능력이 서로 독립적인 축임을 입증했습니다 (governance-task decoupling).
- 규제 대상 AI 시스템에서 단순히 높은 정확도(accuracy)가 충분한 거버넌스 대리 지표가 될 수 없습니다.
규제 대상인 금융 워크플로우 내의 대규모 언어 모델 (Large language models, LLMs)은 동일한 모델이 해석하는 자연어 정책 (natural-language policies)에 의해 거버넌스(governance)를 받으며, 이는 본인-대리인 문제 (principal--agent failure)를 야기합니다. 즉, 출력값이 실제로는 준수되지 않았음에도 불구하고 준수된 것처럼 보일 수 있습니다. 기존의 평가 지표들은 태스크 정확도 (task accuracy)를 측정하지만, 규제 대상 의사결정이 반드시 감사 가능 (auditable)해야 하는 단계인 의사결정 근거 (decision rationale) 수준에서 거버넌스가 행동을 제약하는지 여부는 측정하지 못합니다.
본 연구에서는 근거 (rationale) 수준에서의 정책 준수 여부를 정량화하는 다섯 가지 거버넌스 지표를 도입하고, 이를 합성 뱅킹 도메인 (synthetic banking domain)에 적용하여 텍스트 전용 거버넌스 (text-only governance)와 기계적 강제 (mechanical enforcement)를 비교합니다. 여기서 기계적 강제란 모델의 해석 루프 (interpretive loop) 외부에서 작동하는 네 가지 원시 요소 (primitives)를 의미합니다. 텍스트 전용 거버넌스 하에서는 유보 (deferrals)된 사례의 27%가 의사결정과 관련된 정보를 포함하지 않습니다. 기계적 강제는 이 비율을 73% 감소시키고, 유보 정보의 함유량을 두 배 이상 높이며, 태스크 정확도를 MCC $0.43$에서 $0.88$로 향상시킵니다.
이러한 개선은 구조적 분리 (architectural separation)에 의해 주도됩니다. 기계적 강제 하에서 LLM이 생성한 근거 (rationales)는 텍스트 전용 거버넌스와 유사한 CDL을 보여주며, 성능 향상은 명확한 의사결정 과정을 모델의 통제 범위에서 제거함으로써 발생합니다. 인과적 절제 실험 (causal ablation)을 통해 각 원시 요소 (primitive)가 개별적으로 필요함을 확인했습니다. 우리의 핵심 발견은 거버넌스-태스크 디커플링 (governance-task decoupling)입니다. 구조적 스트레스 (structural stress) 상황에서 텍스트 전용 거버넌스는 두 차원 모두에서 동시에 저하되는 반면, 기계적 강제는 태스크 성능이 떨어지더라도 거버넌스의 품질을 유지합니다. 이는 거버넌스와 태스크 평가가 서로 다른 축임을 시사하며, 규제 대상 AI 시스템에서 정확도 (accuracy)가 거버넌스를 위한 충분한 대리 지표 (proxy)가 될 수 없음을 의미합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기