Answer Engineering: 대규모 언어 모델(LLM)의 프로토콜 제약 의사결정을 위한 국소적 궤적 편집 (Local
요약
LLM이 절차적 준수가 중요한 도메인에서 프로토콜을 어기는 문제를 해결하기 위해, 생성 과정 중 추론 궤적에 규칙 기반 개입을 적용하는 'Answer Engineering' 기법을 제안합니다. 임상 벤치마크 실험을 통해 재학습 없이도 모델의 프로토콜 준수율과 정확도를 크게 향상시킬 수 있음을 입증했습니다.
핵심 포인트
- 재학습 없이 추론 궤적에 국소적 규칙 개입 적용
- 임상 프로토콜 준수율을 83.5%까지 향상
- 균형 정확도를 42.0%에서 80.7%로 대폭 개선
- 런타임 제어를 통한 감사 가능한 추론 제어 가능성 제시
절차적 준수가 중요한 도메인에서 대규모 언어 모델(Large Language Models, LLMs)은 확신에 차 있지만 프로토콜에 어긋나는 답변을 생성할 수 있습니다. 본 논문은 재학습(retraining), 모델 가중치(model weights) 수정, 또는 전역 탐색(global search)을 수행하지 않고, 표준 자기회귀 생성(autoregressive generation) 과정 중 가시적인 추론 궤적(reasoning trajectory)에 국소적인 규칙 기반 개입을 적용하는 결정론적 런타임 및 저작 레이어인 Answer Engineering을 제시합니다. 이 방법은 돌발성 난청(Sudden Sensorineural Hearing Loss, SSNHL)에 대한 통제된 임상 벤치마크를 통해 평가되었으며, 이 질환의 올바른 관리는 증상 발생 시점, 웨버/린네(Weber/Rinne) 소리굽쇠 검사 결과, 그리고 이경(otoscopic) 소견에 대한 프로토콜과 일치하는 해석에 달려 있습니다. 벤치마크 결과, 단계별 추론은 오류를 제거하기보다는 이동시켰습니다. 가이드 없는 생성(unguided generation) 시 SSNHL 준수 결과는 54.5%에서 25.1%로 감소한 반면, 전음성 대조 조건(conductive contrast condition)에서의 수용도는 1.6%에서 58.9%로 증가했습니다. 국소적 궤적 편집(Local trajectory editing)은 SSNHL 준수율을 83.5%로, 전음성 사례 준수율을 77.9%로 높였으며, 추론 전용 생성(reasoning-only generation) 시 42.0%였던 균형 정확도(balanced accuracy)를 80.7%로 끌어올렸습니다. 이러한 결과는 추론 궤적에 대한 감사 가능한(auditable) 런타임 제어를 통해 프로토콜 준수 능력을 향상시킬 수 있다는 시스템 수준의 관점을 뒷받침하는 동시에, 규칙 커버리지(rule coverage), 트리거 신뢰성(trigger reliability), 그리고 지속적인 진단 우선 생성(diagnosis-first generation) 역학으로 인한 한계점 또한 식별합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기