AI 헬스케어 이후, 의료 월드 모델(Medical World Models)이 차세대 생명과학 AI 플랫폼이 될 수 있는 이유

부제: 위험 예측에서 개입 시뮬레이션(intervention simulation)으로의 전환에 대한 시스템 설계 관점의 고찰

지난 10년 동안 대부분의 AI 헬스케어 내러티브는 기계가 질병을 보는 것을 돕는 것에 집중되어 왔습니다. 컴퓨터 비전 (Computer vision) 시스템은 의료 영상에서 병변을 탐지합니다. 위험 모델 (Risk models)은 심혈관 사건, 당뇨병, 재입원 또는 좋지 않은 결과의 확률을 추정합니다. 대규모 언어 모델 (Large language models, LLM)은 임상 노트를 요약하고, 검사 보고서를 설명하며, 의료 텍스트 워크플로우를 보조합니다. 이러한 기능들은 중요합니다. 하지만 이들 대부분은 여전히 다음 두 가지 질문 중 하나에 답하고 있습니다: 현재 상태는 어떠한가? 미래에 어떤 일이 일어날 수 있는가?

지난 몇 년 동안, AI 신약 개발 (AI drug discovery)은 생명과학 AI 분야에서 가장 눈에 띄는 최전선 중 하나가 되었습니다. AI는 현재 타겟 발굴 (target discovery), 분자 생성 (molecule generation), 단백질 모델링 (protein modeling), 가상 스크리닝 (virtual screening), 그리고 임상 시험 최적화 (trial optimization)에 사용되고 있습니다. 이는 중대한 변화입니다. AI는 더 이상 질병을 식별하는 것만을 돕는 것이 아니라, 분자를 발견하는 것도 돕고 있습니다.

하지만 그 너머에 또 다른 단계가 있을 수 있습니다. 차세대 생명과학 AI 플랫폼은 단순히 질병을 식별하거나 분자를 발견하는 것에 그치지 않을 수도 있습니다. 그것은 개인의 생물학적 상태를 표현하고, 가능한 개입 (interventions)을 인코딩하며, 상태 전이 가설 (state-transition hypotheses)을 시뮬레이션하고, 증거를 추적하며, 종단적 피드백 (longitudinal feedback)을 통해 결정을 업데이트할 수 있는 시스템을 구축하는 것에 관한 것일 수 있습니다. 이것이 바로 의료 월드 모델 (medical world model)의 이면에 있는 아이디어입니다.

의료 월드 모델은 단순히 다음과 같이 묻지 않습니다: 환자의 위험도는 얼마인가? 대신 다음과 같이 묻습니다: 우리가 이 조치를 취한다면, 환자의 상태가 어떻게 변할 것인가? 모델은 왜 그 전이가 타당하다고 믿는가? 어떤 증거가 그것을 뒷받침하는가? 다음 결정을 업데이트하기 위해 어떤 피드백이 필요한가? 이 글은 시스템 설계 관점에서 그 아이디어를 설명합니다.

헬스케어 AI는 주로 인식과 예측에서 시작되었습니다

많은 헬스케어 AI 시스템은 세 가지 범주로 단순화될 수 있습니다:
인식 (Recognition): 이 이미지는 비정상인가? 병변이 있는가? 이 ECG 패턴은 의심스러운가?
분류 (Classification): 이 사례는 어떤 하위 유형에 속하는가?

이 환자는 어떤 위험군에 속하는가? 예측 (Prediction): 미래 사건이 발생할 확률은 얼마인가? 재입원 가능성은 얼마나 높은가? 추정되는 질병 위험도는 얼마인가? 전형적인 의료 예측 모델 (Medical prediction model)은 다음과 같은 형태를 띱니다:

risk = predict_risk ( patient_state )

예를 들어:

patient_state = { " age " : 52 , " bmi " : 29.1 , " fasting_glucose " : 6.2 , " hba1c " : 6.0 , " blood_pressure " : " 138/86 " , " family_history " : [ " type_2_diabetes " ], " sleep_duration " : 5.8 }

risk = predict_diabetes_risk ( patient_state )

출력값은 다음과 같을 수 있습니다:

{ "risk_level" : "high" , "estimated_5y_risk" : 0.32 }

이는 다음 질문에 답합니다: 미래의 위험도가 얼마나 높은가? 이것은 유용합니다. 하지만 실제 의료 및 건강 관리 결정은 여기서 끝나지 않습니다. 다음 질문들은 대개 다음과 같습니다:

무엇을 가장 먼저 해야 하는가? 영양, 운동, 수면, 약물 검토, 또는 추적 관찰 중 무엇을 우선시해야 하는가? 현재의 기전 가설 (Mechanism hypothesis)에 가장 잘 부합하는 중재 (Intervention)는 무엇인가? 어떤 지표 (Markers)를 모니터링해야 하는가? 예상된 변화가 나타나지 않는다면, 조치가 잘못된 것인가, 기전이 틀린 것인가, 아니면 피드백 주기 (Feedback window)가 잘못된 것인가?

그 시점에서 시스템에는 대부분의 예측 모델이 명시적으로 표현하지 못하는 무언가가 필요합니다: 행동 (Action).

의료 월드 모델 (Medical world model)은 무엇을 모델링하는가?

의료 월드 모델은 더 거대한 의료 챗봇이 아닙니다. 자동 치료 생성기도 아닙니다. 이는 다음 다섯 가지 객체를 중심으로 구축된 감사 가능한 추론 아키텍처 (Auditable inference architecture)로 이해하는 것이 더 적절합니다:

상태 (State): 현재 개인의 상태
행동 (Action): 정의된 중재 또는 결정 옵션
전이 (Transition): 행동 이후 상태가 어떻게 변할지에 대한 가설
근거 (Evidence): 가설을 뒷받침하는 근거 사슬 (Evidence chain)
피드백 (Feedback): 모델을 업데이트하는 데 사용되는 실제 세계의 추적 관찰

예측 모델은 흔히 다음과 같은 형태를 보입니다:
state -> outcome

의료 월드 모델은 다음과 같은 형태에 더 가깝습니다:
state + action + evidence -> transition hypothesis -> feedback update

다시 말해:
예측 모델: 무엇이 일어날 수 있는가?
의료 월드 모델: 우리가 행동한다면 무엇이 일어날 수 있는가?

이는 위험 예측 (Risk prediction)에서 중재 시뮬레이션 (Intervention simulation)으로의 전환을 의미합니다.

상태 (State): 행동에 대해 추론하기 전의 개인을 표현함

첫 번째 단계는 더 큰 모델을 훈련시키는 것이 아닙니다. 첫 번째 단계는 상태 (State)를 정의하는 것입니다. 단순화된 PatientState 객체는 다음과 같은 모습일 수 있습니다:

from dataclasses import dataclass
from typing import Dict, List, Optional

@dataclass
class PatientState:
    demographics: Dict
    clinical_markers: Dict
    symptoms: List[str]
    lifestyle: Dict
    medications: List[str]
    history: Dict
    omics: Optional[Dict] = None
    wearable: Optional[Dict] = None

# 예시:
patient_state = PatientState(
    demographics = {
        "age": 52,
        "sex": "unspecified"
    },
    clinical_markers = {
        "bmi": 29.1,
        "fasting_glucose": 6.2,
        "hba1c": 6.0,
        "triglycerides": 2.1,
        "hdl_c": 0.95,
        "blood_pressure": "138/86"
    },
    symptoms = ["fatigue", "post_meal_sleepiness"],
    lifestyle = {
        "sleep_hours": 5.8,
        "exercise_frequency_per_week": 1,
        "diet_pattern": "high_refined_carbohydrate",
        "stress_level": "high"
    },
    medications = [],
    history = {
        "family_history": ["type_2_diabetes"],
        "previous_diagnosis": []
    }
)

목표는 끝없는 필드를 추가하는 것이 아닙니다. 목표는 다음과 같은 것들을 지원할 수 있는 상태 표현 (State representation)을 만드는 것입니다:

행동 선택 (Action selection)
증거 검색 (Evidence retrieval)
전이 추정 (Transition estimation)
안전성 점검 (Safety checking)
피드백 업데이트 (Feedback updates)

행동 (Actions)에 의해 참조될 수 없거나 피드백을 통해 업데이트될 수 없는 상태는 월드 모델 (World-model) 시스템에서 그리 유용하지 않습니다.

행동 (Action): 중재 (Interventions)를 계산 가능하게 만들기

예측 모델 (Prediction models)에는 반드시 행동이 필요하지는 않습니다. 하지만 의료 월드 모델 (Medical world models)에는 행동이 필요합니다. "생활 습관 개선"이라는 문구는 좋은 행동 객체 (Action object)가 아닙니다. 이는 실행, 추적, 감사 또는 업데이트하기에는 너무 모호합니다.

더 나은 접근 방식은 개입 (Intervention)을 구조화된 객체 (Structured objects)로 인코딩하는 것입니다:

@dataclass
class InterventionAction:
action_id: str
category: str
description: str
target_mechanism: List[str]
intensity: str
duration_weeks: int
monitoring_markers: List[str]
safety_notes: List[str]

예시:
action = InterventionAction(
action_id = "nutrition_low_glycemic_8w",
category = "nutrition",
description = "정제 탄수화물을 줄인 8주간의 저혈당 지수 식단 조정",
target_mechanism = [
"postprandial_glucose_variability",
"insulin_resistance",
"weight_management"
],
intensity = "moderate",
duration_weeks = 8,
monitoring_markers = [
"fasting_glucose",
"hba1c",
"weight",
"waist_circumference",
"postprandial_glucose"
],
safety_notes = [
"의학적 처방이 아님",
"당뇨병 약물을 사용하는 경우 임상의와 상담할 것",
"해당되는 경우 저혈당 위험을 모니터링할 것"
]
)

이것이 중요한 이유는 의료 월드 모델 (Medical world model)이 단순히 권장 사항을 생성하는 데 그쳐서는 안 되기 때문입니다. 모델은 각 행동이 다음과 같은 특성을 갖도록 해야 합니다: 기술 가능성 (describable); 실행 가능성 (executable); 추적 가능성 (trackable); 감사 가능성 (auditable); 검토 가능성 (reviewable); 피드백 호환성 (feedback-compatible).

전환: 치료 효과의 약속이 아닌, 가설 (Transition: a hypothesis, not a treatment-effect promise)

일반적인 공학적 언어로는 다음과 같이 작성하고 싶은 유혹을 느낄 수 있습니다:
next_state = model.predict_next_state(state, action)

하지만 의학에서는 이것이 오해를 불러일으킬 수 있습니다. 이는 마치 시스템이 개별적인 치료 효과 (Individual treatment effects)를 예측하는 것처럼 들리기 때문입니다.

더 안전하고 정확한 이름은 다음과 같습니다: transition_hypothesis = estimate_transition_tendency(state, action). Transition 객체는 다음과 같이 보일 수 있습니다:
@dataclass
class TransitionHypothesis :
expected_direction : Dict
mechanism_rationale : List[str]
uncertainty_level : str
time_window_weeks : int
assumptions : List[str]
예시: transition = TransitionHypothesis(
expected_direction = { "fasting_glucose" : "decrease_possible", "postprandial_glucose" : "decrease_possible", "weight" : "slight_decrease_possible", "energy_level" : "may_improve" },
mechanism_rationale = [ "lower refined carbohydrate intake may reduce postprandial glucose excursion", "weight reduction may improve insulin sensitivity", "improved dietary pattern may reduce metabolic stress" ],
uncertainty_level = "moderate",
time_window_weeks = 8,
assumptions = [ "adequate adherence", "no major medication change", "baseline data quality is acceptable", "no unrecognized endocrine disorder" ]
)
이것이 말하지 않는 것을 주목하세요: 완치할 것이다, 역전시킬 것이다, 정상화시킬 것이다, 개선할 것이다 (with certainty). 대신, 이것은 이렇게 말합니다: decrease_possible, may_improve transition tendency. 이 구분이 필수적입니다. 의료 월드 모델(medical world model)은 결정론적인 치료 약속이 아니라 메커니즘 제약 조건이 있는 transition hypothesis를 생성해야 합니다.

증거: 모든 transition에는 증거 사슬(evidence chain)이 필요합니다. 증거가 없는 transition은 단지 생성된 제안일 뿐입니다. 의료 월드 모델은 evidence object가 필요합니다.
@dataclass
class EvidenceItem :
source_type : str
description : str
strength : str
url_or_reference : Optional[str] = None

@dataclass
class EvidenceChain :
items : List[EvidenceItem]
overall_strength : str
limitations : List[str]
예시: evidence_chain = EvidenceChain(
items = [ EvidenceItem (
source_type = "clinical_guideline",
description = "Lifestyle modification is commonly recommended for metabolic risk management."
)
)

, strength = " high " ), EvidenceItem ( source_type = " mechanistic_evidence ", description = " 정제 탄수화물 섭취를 줄이면 식후 혈당 변동 (postprandial glucose excursions)이 낮아질 수 있습니다. ", strength = " moderate " ), EvidenceItem ( source_type = " individual_context ", description = " 환자는 정제 탄수화물 섭취가 높고 운동 빈도가 낮다고 보고했습니다. ", strength = " contextual " ) ], overall_strength = " moderate ", limitations = [ " 개인별 반응이 다를 수 있음 ", " 순응도 (adherence)가 불확실함 ", " 임상적 평가를 대체할 수 없음 " ] ) 이 증거 객체는 다음 질문에 답하는 데 도움을 주어야 합니다: 추론의 근거는 무엇인가? 증거의 강도는 어느 정도인가? 가정은 무엇인가? 불확실성은 무엇인가? 임상적 또는 안전성 경계는 무엇인가? 이 계층이 없다면, 의료 월드 모델 (medical world model)은 블랙박스 (black-box) 추천 엔진이 될 위험이 있습니다. 7. 피드백: 모델은 시간이 지남에 따라 업데이트되어야 합니다. 월드 모델은 일회성 답변 생성기가 아닙니다. 반드시 피드백을 지원해야 합니다. @dataclass class FollowUpFeedback : timepoint_weeks : int observed_markers : Dict adherence : Dict symptoms_change : Dict adverse_events : List [ str ] 예시: feedback = FollowUpFeedback ( timepoint_weeks = 8 , observed_markers = { " fasting_glucose " : 5.8 , " hba1c " : 5.8 , " weight " : - 2.1 , " waist_circumference " : - 3.0 }, adherence = { " diet " : " medium " , " exercise " : " low " , " sleep " : " unchanged " }, symptoms_change = { " fatigue " : " slightly_improved " , " post_meal_sleepiness " : " improved " }, adverse_events = [] ) 그런 다음 기록을 업데이트합니다: def update_state_with_feedback ( previous_state : PatientState , action : InterventionAction , transition : TransitionHypothesis , feedback : FollowUpFeedback ): audit_log = { " previous_state " : previous_state , " action " : action , " expected_transition " : transition , " observed_feedback " : feedback , " interpretation " : None , " next_step " : None } if feedback .

adherence [ " diet " ] == " medium " : audit_log [ " interpretation " ] = ( " 부분적인 개선이 관찰됨; 순응도 (adherence)가 효과 크기를 제한할 수 있음. " ) audit_log [ " next_step " ] = ( " 행동 강도 및 순응도 장벽을 검토할 것. " ) else : audit_log [ " interpretation " ] = ( " 피드백을 주의해서 해석해야 함. " ) audit_log [ " next_step " ] = ( " 중재 계획 (intervention plan)을 업데이트하기 전에 더 많은 맥락을 수집할 것. " ) return audit_log

핵심 루프는 다음과 같습니다: 관찰 (observe) -> 행동 (act) -> 시뮬레이션 (simulate) -> 모니터링 (monitor) -> 업데이트 (update)

플랫폼 관점에서 이는 매우 중요합니다. 차세대 의료 AI는 단일 용도의 진단 도구가 아닐 수도 있습니다. 그것은 종단적 피드백 플랫폼 (longitudinal feedback platform)이 될 수 있습니다.

최소 기능 의료 월드 모델 (minimal medical world-model) 워크플로우

최소한의 워크플로우는 다음과 같은 형태를 띨 수 있습니다:

def medical_world_model_loop ( patient_id : str ):
# 1. 상태 관찰 (Observe state)
state = observe_patient_state ( patient_id )

# 2. 후보 행동 생성 (Generate candidate actions)
candidate_actions = generate_candidate_actions ( state )

# 3. 안전 필터 (Safety filter)
safe_actions = []
for action in candidate_actions :
    if pass_safety_gate ( state , action ):
        safe_actions . append ( action )

# 4. 전이 추정 (Estimate transitions)
transition_candidates = []
for action in safe_actions :
    transition = estimate_transition_tendency ( state , action )
    evidence = build_evidence_chain ( state , action , transition )
    transition_candidates . append ({ " action " : action , " transition " : transition , " evidence " : evidence })

# 5. 인간 참여형 검토 (Human-in-the-loop review)
selected_action = clinician_or_expert_review ( transition_candidates )

# 6. 실행 및 모니터링 (Execute and monitor)
feedback = collect_follow_up_feedback ( patient_id , selected_action )

# 7. 상태 및 감사 로그 업데이트 (Update state and audit log)

AI 헬스케어 이후, 의료 월드 모델(Medical World Models)이 차세대 생명과학 AI 플랫폼이 될 수 있는 이유

요약

핵심 포인트

댓글