임상 프로세스에서의 에이전틱 AI (Agentic AI)

당신의 임상 프로세스는 이미 AI가 어디에 위치해야 하는지 알고 있습니다

에이전틱 AI (Agentic AI)를 위해 기존 BPMN 의료 워크플로우를 APMN으로 전환하기 위한 기술 가이드

대부분의 의료 AI 프로그램은 잘못된 질문을 던지는 것부터 시작합니다.

"어떤 AI 플랫폼을 채택해야 할까요?" "무엇을 파일럿 테스트해야 할까요?" "새로운 것을 만들어보고 무엇이 효과가 있는지 봅시다."

그동안 프로세스 저장소에는 환자 입원 전 단계 (preadmission)를 위한 BPMN 다이어그램이 놓여 있습니다. 사전 승인 (prior authorisation)을 위한 또 다른 다이어그램이 있고, 임상 분류 (clinical triage)를 위한 또 다른 다이어그램이 있습니다. 각각은 수년간의 기관 지식을 나타냅니다. 모든 준수 요구 사항이 부호화되어 있고, 모든 예외 경로가 실제 환자를 대상으로 테스트되었습니다.

그 지식은 무시됩니다. 팀들은 처음부터 다시 만듭니다. 파일럿은 파일럿 상태로 머물러 있습니다.

더 나은 시작점이 있습니다.

BPMN이 표현할 수 없는 것

BPMN 2.0은 결정론적 (deterministic) 의료 프로세스를 잘 처리합니다. 순차적 케어 단계, 병렬 워크스트림, 인간 작업, 서비스 호출, 예외 처리 등 이 모든 것을 다룹니다.

문제는 AI 에이전트 (AI agents)는 결정론적이지 않다는 것입니다. 의료 분야에서는 세 가지 특정 격차가 중요합니다:

확률적 출력 (Probabilistic outputs). 영상의학 전문의는 진단을 내립니다. AI 모델은 확률 분포 (probability distribution)를 반환합니다. BPMN에는 "신뢰도가 90%를 초과하면 진행하고, 그 미만이면 임상의에게 에스컬레이션(escalate)하라"고 말할 방법이 없습니다. 팀들은 이를 서비스 태스크 변수와 배타적 게이트웨이 (exclusive gateways)에 억지로 끼워 넣습니다. 작동은 하지만 의사 결정 경로를 감사 (audit)하기 어렵게 만듭니다.

AI 특화 실패 모드 (AI-specific failure modes). BPMN은 시스템 장애는 잘 처리합니다. 하지만 AI 실패는 제대로 처리하지 못합니다. 환각 (hallucination)에 대한 경계 이벤트 (boundary event)가 없고, 모델 드리프트 (model drift)에 대한 에러 핸들러 (error handler)가 없으며, "모델은 확신했지만 출력이 임상적으로 불가능함"을 포착할 표준 방식이 없습니다.

전이 상태 (Transition states). 병원은 스위치를 켜듯 한순간에 임상 결정을 AI에 넘길 수 없습니다. BPMN에는 "6개월 동안 인간과 함께 AI를 실행하고, 결과를 비교한 다음 결정하라"는 개념이 없습니다. 작업은 인간이 하거나 자동화되거나 둘 중 하나입니다. 그 중간은 없습니다.

APMN이 추가하는 것

APMN -- AI Process Model and Notation -- 은 기존 BPMN 도구 및 다이어그램과 완전히 하위 호환성 (backwards compatible)을 유지하면서 이러한 격차를 해결하는 BPMN 2.0의 공개 확장 모델입니다.

이는 BPMN 2.0의 공식 확장 메커니즘을 사용합니다. 따라서 기존의 다이어그램들은 그대로 유효하게 유지됩니다.

헬스케어를 위한 핵심 구성 요소는 다음과 같습니다:

agentTask -- AI 모델이 임상적 추론 (clinical reasoning), 문서 분석 (document analysis), 또는 행정 처리 (administrative processing)를 수행합니다. 모델, 버전, 프롬프트 컨텍스트 (prompt context), 그리고 출력 스키마 (output schema)가 다이어그램에 명시적으로 나타납니다.

ragTask -- 추론을 수행하기 전에 임상적 컨텍스트 (clinical context)를 검색 (retrieve)합니다. 환자 이력, 이전 영상 데이터, 약물 기록, 임상 가이드라인 등이 포함됩니다. 검색 단계는 서비스 호출 (service call) 내부에 숨겨진 것이 아니라, 일급 프로세스 노드 (first-class process node)로 취급됩니다.

confidenceGate -- AI 신뢰도 점수 (confidence score)를 기반으로 경로를 결정합니다. 임계값 (thresholds)은 프로세스 및 위험 감수 성향 (risk appetite)에 따라 구성할 수 있습니다. 높은 신뢰도는 그대로 진행하며, 중간 범위는 임상의 검토를 위해 플래그를 지정합니다. 낮은 신뢰도는 인간 작업 (human task)으로 폴백 (fallback)합니다.

humanInLoopTask -- 프로세스가 계속되기 전, AI 출력물에 대한 임상의의 구조화된 검토를 수행합니다. AI 감독 (AI oversight)을 위해 특별히 설계되었으며, 임상의는 AI의 권장 사항, 신뢰도 점수, 근거 문서, 그리고 출력을 도출한 핵심 요인들을 확인합니다.

escapeGate -- 자동 안전망 (automatic safety net)입니다. AI 신뢰도가 최소 하한선 미만으로 떨어지거나, 모델이 타임아웃 (timeout)되거나, 출력이 구조적 검증 (structural validation)에 실패할 경우, escapeGate가 이를 포착하여 결정론적 폴백 (deterministic fallback) 경로로 안내합니다. 즉, AI가 도입되기 전에 실행되던 신뢰할 수 있는 프로세스로 돌아가는 것입니다.

modelVersionGate -- 전체 환자군에 대해 업그레이드를 적용하기 전, 일정 비율의 케이스에 대해 두 가지 모델 버전을 병렬로 실행하고 결과를 비교합니다.

전체 사양은 apmn.kshetra.studio/spec/apmn-v0.1 에서 확인할 수 있습니다.

TwinTrack 아키텍처

APMN 채택의 이면에 있는 아키텍처 원칙은 AI 인프라와 결정론적 인프라(deterministic infrastructure) 사이의 근본적인 분리이며, 이 둘은 경량화된 오케스트레이션 램프(orchestration ramps)를 통해 연결됩니다.

감사를 통과하고 임상의가 신뢰하는 귀하의 기존 임상 프로세스는 신뢰할 수 있는 트랙(reliable track)에서 실행됩니다. 이는 변경되지 않습니다.

AI는 혁신 트랙(innovation track)에서 병렬로 실행됩니다. 온램프(On-ramps)는 귀하가 정의한 라우팅 기준(routing criteria)에 따라 선택된 케이스를 AI 트랙으로 전환합니다. 오프램프(Off-ramps)는 신뢰도(confidence)가 떨어지거나 탈출 게이트(escapeGate)가 작동하면 케이스를 다시 신뢰할 수 있는 트랙으로 되돌립니다.

이러한 분리는 AI 트랙의 실패가 신뢰할 수 있는 트랙으로 전파될 수 없음을 의미합니다. AI 결정에 대한 거버넌스는 결정론적 결정에 대한 거버넌스와 격리됩니다. 임상의는 신뢰할 수 있는 트랙을 무조건적으로 신뢰하며, 이는 임상 환경에서 AI를 도입하기 위한 전제 조건입니다.

증거가 축적됨에 따라, 라우팅 기준은 귀하의 위험 감수 성향(risk appetite)에 따라 결정된 속도로 확장됩니다.

실제 사례: 환자 사전 입원 (Patient Preadmission)

표준 BPMN: 의뢰 접수, 보험 확인, 의료 기록 검토, 임상 우선순위 평가, 일정 예약, 확정. 2, 3, 4단계는 인간의 작업(human tasks)입니다.

TwinTrack 기반의 APMN 방식:

보험 확인 (Verify insurance): ragTask가 보험 증권 문서를 검색합니다. agentTask가 자격 요건을 확인합니다. confidenceGate가 신뢰도 점수에 따라 경로를 지정합니다. escapeGate가 실패를 포착하여 인간 작업으로 되돌립니다.

의료 기록 검토 (Review medical history): ragTask가 EHR(전자 건강 기록) 및 임상 가이드라인을 검색합니다. agentTask가 내용을 요약하고 위험 요소를 표시합니다. escapeGate는 결과가 임상의에게 도달하기 전에 출력을 검증합니다. humanInLoopTask는 임상의의 승인을 위해 원본 문서와 함께 AI 요약본을 제시합니다.

임상 우선순위 평가 (Assess clinical priority): agentTask가 긴급도 점수를 적용합니다. confidenceGate는 높은 신뢰도 점수는 신속 예약으로, 경계선 점수는 컨설턴트 검토로, 낮은 신뢰도는 신뢰할 수 있는 트랙의 인간 작업으로 경로를 지정합니다.

1, 5, 6단계는 변경되지 않습니다. 비즈니스 로직과 컴플라이언스 (Compliance) 요구사항도 변경되지 않습니다. 이제 세 가지 병목 구간에 AI가 준비 작업을 수행하도록 설정되었으며, 인간의 감독은 신뢰도 수준과 임상적 위험도에 따라 조정됩니다.

전/후 다이어그램을 포함한 전체 작업 예시는 apmn.kshetra.studio/examples/patient_preadmission 에서 확인할 수 있습니다.

시작하기

기존의 BPMN을 TwinTrack에 업로드하세요. TwinTrack은 AI가 개입할 수 있는 모든 인간의 작업을 식별하고, 전환 신뢰도 (Conversion confidence)를 점수화하며, APMN 출력물과 배포 가능한 Orkes Conductor JSON을 생성합니다.

사용자는 신뢰도 임계값 (Confidence thresholds), 라우팅 기준 (Routing criteria), 그리고 도입 속도를 직접 제어할 수 있습니다.

APMN 사양 v0.1 (Apache 2.0): apmn.kshetra.studio/spec/apmn-v0.1
APMN 시각적 모델러 (MIT): apmn-modeler.kshetra.studio
TwinTrack, 무료 체험: bpmn2ai.kshetra.studio

규제 맥락과 거버넌스 프레임워크 (Governance framework)를 포함한 전체 기사: apmn.kshetra.studio

Dinesh Singh Panwar, Kshetra Studio 설립자. APMN 및 TwinTrack 제작자. 전 Westpac Group 기술 부문 총괄.