LLM 거버넌스를 위한 기계적 강제 (Mechanical Enforcement): 금융 의사결정 시스템에서의 거버넌스-태스크 디커플링

규제 대상인 금융 워크플로우 내의 대규모 언어 모델 (Large language models, LLMs)은 동일한 모델이 해석하는 자연어 정책 (natural-language policies)에 의해 거버넌스(governance)를 받으며, 이는 본인-대리인 문제 (principal--agent failure)를 야기합니다. 즉, 출력값이 실제로는 준수되지 않았음에도 불구하고 준수된 것처럼 보일 수 있습니다. 기존의 평가 지표들은 태스크 정확도 (task accuracy)를 측정하지만, 규제 대상 의사결정이 반드시 감사 가능 (auditable)해야 하는 단계인 의사결정 근거 (decision rationale) 수준에서 거버넌스가 행동을 제약하는지 여부는 측정하지 못합니다.

본 연구에서는 근거 (rationale) 수준에서의 정책 준수 여부를 정량화하는 다섯 가지 거버넌스 지표를 도입하고, 이를 합성 뱅킹 도메인 (synthetic banking domain)에 적용하여 텍스트 전용 거버넌스 (text-only governance)와 기계적 강제 (mechanical enforcement)를 비교합니다. 여기서 기계적 강제란 모델의 해석 루프 (interpretive loop) 외부에서 작동하는 네 가지 원시 요소 (primitives)를 의미합니다. 텍스트 전용 거버넌스 하에서는 유보 (deferrals)된 사례의 27%가 의사결정과 관련된 정보를 포함하지 않습니다. 기계적 강제는 이 비율을 73% 감소시키고, 유보 정보의 함유량을 두 배 이상 높이며, 태스크 정확도를 MCC $0.43$에서 $0.88$로 향상시킵니다.

이러한 개선은 구조적 분리 (architectural separation)에 의해 주도됩니다. 기계적 강제 하에서 LLM이 생성한 근거 (rationales)는 텍스트 전용 거버넌스와 유사한 CDL을 보여주며, 성능 향상은 명확한 의사결정 과정을 모델의 통제 범위에서 제거함으로써 발생합니다. 인과적 절제 실험 (causal ablation)을 통해 각 원시 요소 (primitive)가 개별적으로 필요함을 확인했습니다. 우리의 핵심 발견은 거버넌스-태스크 디커플링 (governance-task decoupling)입니다. 구조적 스트레스 (structural stress) 상황에서 텍스트 전용 거버넌스는 두 차원 모두에서 동시에 저하되는 반면, 기계적 강제는 태스크 성능이 떨어지더라도 거버넌스의 품질을 유지합니다. 이는 거버넌스와 태스크 평가가 서로 다른 축임을 시사하며, 규제 대상 AI 시스템에서 정확도 (accuracy)가 거버넌스를 위한 충분한 대리 지표 (proxy)가 될 수 없음을 의미합니다.

Insights

LLM 거버넌스를 위한 기계적 강제 (Mechanical Enforcement): 금융 의사결정 시스템에서의 거버넌스-태스크 디커플링

요약

핵심 포인트

댓글

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것

AT&T, 번들 상품 수요 증가로 신규 무선 가입자 목표치 상회

WSJ 오피니언: US SEC, 메시지 유실 관련 Coinbase와의 FOIA 소송 합의

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것

AT&T, 번들 상품 수요 증가로 신규 무선 가입자 목표치 상회

WSJ 오피니언: US SEC, 메시지 유실 관련 Coinbase와의 FOIA 소송 합의