상세한(Verbose) 프롬프트가 모델로 하여금 양성 유전자 변이를 병원성으로 오판하게 만든다: 27회 ACMG 분류 실측

과도하게 상세한 프롬프트(Prompt) 프레임워크는 모델을 더 똑똑하게 만들기는커녕, 오히려 NGS 양성 변이의 오판율을 급증시킵니다. 이 보고서는 캐시를 완전히 제거한 상태에서 진행된 27회의 실측을 통해, 이전에 "글자가 많으면 토큰(token)을 아낄 수 있다"는 가설이 허상임을 입증하고, 의학적 추론에서 Verbose 프롬프트가 가진 치명적인 편향을 드러냅니다. Gemini CLI를 위한 NGS 분석 프롬프트를 설계 중인 엔지니어에게 적합한 내용입니다.

실험 결함 수정: stdev=8,350 배경에서 n=1의 측정은 동전 던지기와 같다

C-3 단계에서 Verbose 스타일이 Concise 스타일보다 11,802개의 입력 토큰(input tokens)을 절약한 것으로 나타났으며, 이는 매우 직관에 어긋나면서도 눈길을 끄는 결과입니다. 하지만 이 결론은 세 가지 근본적인 결함 위에 세워졌습니다:

n=1: 각 프롬프트 스타일당 단 한 번만 실행되었습니다. H1에서 이미 stdev=8,350이 측정된 환경에서 11,802의 차이는 1.4σ 이내에 위치하므로, 통계적으로는 동전 던지기와 다를 바 없습니다.
세션 오염(Session Pollution): 세 가지 스타일이 동일한 세션 내에서 순차적으로 실행되었습니다. 먼저 실행된 BRCA1 분석이 서버 측 캐시(server-side cache)를 예열(warm-up)시켰고, 나중에 실행된 Concise 버전은 서로 다른 접두사(prefix)를 맞닥뜨리게 되어, 프롬프트 스타일의 효과가 아닌 캐시 적중률(cache hit rate)을 측정하게 되었습니다.
품질 관리(Quality Control) 부재: 토큰은 아꼈지만, 정답을 맞혔는가? C-3에서는 이를 전혀 측정하지 않았습니다.

C-4 설계에서는 이 세 가지를 수정했습니다: 각 변이(variant) 그룹 사이에 120초의 휴식 시간을 두어 캐시를 제거하고, 각 항목당 n=3을 실행하며, 출력값에 키워드 적중률(keyword hit rate)을 품질 점수로 추가했습니다.

설계 대조 실측: 3가지 프롬프트 스타일과 3가지 실제 변이의 대결

Ground truth variants:

V1 BRCA1 c.5266dupC: Pathogenic (핵심 기준: PVS1, PS4)
V2 TP53 c.817C>T: Pathogenic (핵심 기준: PS1, PM1)
V3 BRCA2 c.9976A>T: Benign (핵심 기준: BA1 — 집단 빈도 > 5%)

세 가지 프롬프트 스타일:

Verbose (719–742자): 임상 유전체학자(clinical geneticist)의 역할을 상세히 기술하고, 전체 PVS1/PS/PM/PP 병원성 기준 프레임워크를 나열하며, 체계적인 평가를 요구함.
Concise (58–83자): "ACMG classify [GENE] HGVS. One sentence."
Structured (168–191자): JSON-like 필드 형식으로 Gene / Variant / Protein / Type / Task / Output format 구성.

품질 평가 기준: 출력이 정확한 분류 용어와 최소 하나 이상의 정확한 ACMG 기준 코드(criteria code)를 포함하는지 여부.

실측 결과: Verbose의 품질이 가장 낮으며, 그 이유는 매우 구체적이다

지표	Verbose	Concise	Structured
전체 median input tokens	16,231	12,169	14,186
...

Verbose의 stdev는 가장 낮았습니다(534). 이는 캐시가 격리된(cache-isolated) 환경에서 토큰 소비가 매우 안정적임을 의미합니다. 하지만 품질 점수는 48.1%에 불과했으며, 그 원인은 전적으로 V3에서 기인했습니다.

치명적인 V3 Benign: Verbose 0/3 전멸

Verbose는 BRCA2 c.9976A>T (Benign variant)에 대한 세 번의 실행에서 모두 오답을 냈습니다.

V3는 인구 집단에서 흔히 발견되는 일반적인 변이(common population variant)로, 정확한 분류는 Benign(BA1: gnomAD MAF > 5%)입니다. 그러나 Verbose 프롬프트는 시작 단계부터 모델의 역할을 "PVS1, PS1–PS4, PM1–PM6, PP1–PP5 등을 심층 평가하는 것"으로 설정했습니다. 이는 문제의 프레임워크 자체에서 모델이 병원성 증거를 찾도록 유도하는 것과 같습니다.

모델은 BRCA2 유전자 + nonsense 변이 형태(p.Lys3326Ter)를 읽고 PVS1의 직관적인 판단 프레임워크를 활성화하여, 가장 중요한 빈도 데이터(BA1 조건)를 무시했습니다. 반면 Concise 방식의 "ACMG classify BRCA2 c.9976A>T (nonsense, common population variant). One sentence."는 단 83자였고, 미리 설정된 프레임워크가 없었기에 오히려 모델이 모든 방향을 완전하게 평가할 수 있었으며, 세 번의 시도 모두 정답을 맞혔습니다.

이 결과 자체가 하나의 경고입니다: 지나치게 상세한 "전문가 역할 설정" 프롬프트는 경계 사례(특히 Benign 변이)에서 아무것도 말하지 않는 것보다 더 위험할 수 있습니다.

V2 TP53의 뜻밖의 에피소드

V2(TP53 c.817C>T, Pathogenic)의 Verbose와 Structured 품질은 모두 44.4%에 그쳤습니다. TP53 p.Arg273Cys는 잘 알려진 hotspot missense이지만, 주요 ACMG 기준은 PVS1(null variant가 아님)이 아닌 PS1, PM1입니다. Verbose 프레임워크는 PVS1 판단 프로세스를 과도하게 강조하여, 오히려 모델이 non-null variant에 대한 논술 방향을 분산시키는 결과를 초래했습니다.

Concise는 프레임워크를 미리 설정하지 않았기에, 모델이 hotspot mutation과 관련된 PS1 증거를 직접 찾을 기회를 제공하여 77.8%의 품질을 달성했습니다.

Thinking Token Tax: 복잡도는 올라갔지만, 사고량은 비례해서 늘어나지 않는다

Thinking Token Tax (사고 토큰 세)란 추론 능력(extended thinking)을 가진 모델이 최종 결과를 생성하기 전, 배경 계산에서 사용하는 토큰 비용을 의미하며, 프롬프트 길이에 따라 선형적으로 비례하여 증가하지 않는다는 특징이 있습니다.

쿼리 유형	글자 수	Input Tokens	Thoughts Tokens	사고 비율	지연 시간
Simple (ACMG 약어 설명)	39	941	23	2.4%	15s
...

Simple에서 Medium으로 넘어갈 때 thoughts tokens는 29배(23 → 676) 급증했고, 지연 시간은 3.3배 증가했습니다. 하지만 Medium에서 Complex로 갈 때는 프롬프트가 5배 길어지고 PVS1/PS/PM 등 9개 기준을 단계별로 나열하도록 요구했음에도 불구하고, thoughts tokens는 1.6배(676 → 1,097)만 증가했으며 지연 시간은 거의 변하지 않았습니다(50s → 53s).

Extended Thinking의 예산(budget)은 프롬프트 길이에 비례하지 않습니다. ACMG 분류와 같이 고도로 구조화되고 지식 집약적인 작업의 경우, 모델의 사고량은 중간 정도의 복잡도에서 이미 천장에 도달합니다. 프롬프트를 더 상세하게 쓰는 것은 input token만 늘릴 뿐, 사고의 깊이를 상응하게 증가시키지는 못합니다.

이 발견은 실무적인 의미를 갖습니다. 만약 Gemini가 ACMG 분류를 더 "진지하게 생각"하도록 만들고 싶다면, 프롬프트를 더 상세하게 쓰는 대신 structured format 내에서 직접 "Step-by-step evaluation"을 명시적으로 요구하여, input 길이가 아닌 output 형식이 사고 구조를 유도하도록 해야 합니다.

실무 제언: NGS 분석을 위한 프롬프트 설계 4대 원칙

Never frame a diagnostic prompt pathogenesis-first: 프롬프트 시작부터 PVS1, PS1–PS4 등의 병원성 기준을 가득 나열하지 마세요. Benign variant는 이러한 프레임워크 하에서 시스템적으로 오판될 수 있습니다.
Concise beats Verbose on quality: Ground truth 검증이 가능한 시나리오에서는 짧고 정확한 프롬프트의 품질이 더 높습니다 (81.5% vs 48.1%).
Structured wins on speed: Structured format(필드 방식)은 품질이 Concise보다 약간 낮지만, 캐시 워밍업(cache warming) 이후 input token 분산(variance)이 눈에 띄게 안정적이어서 배치 평가 파이프라인에 적합합니다.
n=1 token 측정은 의미가 없다: 표준편차(stdev)가 수천에 달하는 환경에서 단 한 번의 비교는 캐시 적중률에 따른 행운 혹은 불운일 수 있습니다. 최소 n=3으로 측정하고, 그룹별로 캐시를 삭제한 뒤 테스트하십시오.

상세한(Verbose) 프롬프트가 모델로 하여금 양성 변이를 병원성으로 오판하게 만든다: 27회 ACMG 분류 실측 결과

요약

핵심 포인트