고위험 AI를 위한 결정론적 의사결정: RAG의 배포 가능성과 머신러닝의 정확도를 갖춘 Zero-Egress 파이프라인
요약
LLM 기반 교육 상담 에이전트에서 발생하는 개입 편향(intervention bias) 문제를 식별하고, 이를 해결하기 위한 결정론적 의사결정 파이프라인을 제안합니다. GPT-4o와 같은 제로샷 모델의 높은 거짓 양성률을 Decision Transformer와 XGBoost를 활용한 지도 학습으로 해결하여 정확도와 낮은 지연 시간을 달성했습니다.
핵심 포인트
- LLM 에이전트가 개입이 불필요한 상황에서도 행동을 권고하는 개입 편향 확인
- RAG 및 SQL 증강 검색 방식도 유사한 보정 오류를 보임
- Decision Transformer와 XGBoost를 통해 제로에 가까운 보정 오차 달성
- DT는 5ms 미만의 낮은 지연 시간과 높은 F1 스코어를 기록
- LLM-as-judge 방식이 개입 편향을 감지하지 못하는 평가 격차 지적
우리는 제로샷 대규모 언어 모델 (LLM) 교육 상담 에이전트의 이전에는 정량화되지 않았던 실패 모드로서 개입 편향 (intervention bias)을 식별했습니다. 즉, 작업 특화 훈련 (task-specific training) 없이는, 사후 최적 오라클 정책 (hindsight-optimal oracle policy)이 불개입을 명령할 때 모델이 행동을 권고하는 현상입니다. Open University Learning Analytics Dataset (N=800명 학생, 4개의 시간적 절단점)을 활용한 6개 분기 절제 연구 (six-arm ablation) 결과, 오라클이 학생의 70.1%를 개입이 필요하지 않은 상태로 지정한 56일째에, 제로샷 GPT-4o는 73%에게 행동을 권고하여 43%포인트의 거짓 양성률 (false-positive rate)을 보였습니다. 상용 RAG 및 SQL 증강 검색 (SQL-augmented retrieval) 또한 유사하게 잘못 보정되어 있으며, 이는 10,000명의 학생을 대상으로 할 경우 사이클당 약 4,300건의 불필요한 상담 연락을 의미합니다. 지도 정책 학습 (Supervised policy learning)은 이러한 편향을 제거합니다. 엄격한 접두사 전용 특징 (prefix-only features) 하에서 동일한 오라클 라벨링 궤적 (oracle-labelled trajectories)으로 학습된 궤적 조건부 ONNX Decision Transformer (DT)와 스냅샷 XGBoost 분류기는 모두 거의 제로에 가까운 보정 오차 (calibration error)를 달성했습니다. DT는 5개의 모든 행동 클래스에 대해 macro-F1 0.79 (macro-recall 0.85)에 도달하였으며, 붕괴 없이 희귀한 부하 감소 (load-reduction) 행동까지 예측하면서 0%의 행동 뒤집힘률 (action flip rate)과 5ms 미만의 CPU 결정 지연 시간 (decision latency)을 기록했습니다. 두 지도 학습 분기는 대등한 수준이며, 최종 절단점에서 XGBoost 대비 DT의 우위는 지표적일 뿐입니다 (코호트 간 비대칭). 범위: 우리는 구조화된 OULAD 데이터의 통제된 오라클 입력 하에서 2단계 의사결정 (EAV 상태 벡터에서 지도 정책으로)을 검증했습니다. 높은 충실도는 일반적인 고위험 AI (high-stakes-AI) 능력이 아닌 특징-오라클 정렬 (feature-oracle alignment)을 반영합니다. 가장 강력한 발견은 절대적인 정확도가 아니라 개입 편향의 대조입니다. 또한 우리는 평가 격차 (Evaluation Gap)를 보여줍니다: LLM-as-judge 점수 산정 (DeepEval G-Eval)은 개입 편향을 인지하지 못하며, 결정의 품질보다는 유창한 과잉 처방에 보상을 줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기