Skill 시리즈 (04): Skill Metrics — 사용자가 인지하기 전에 품질 저하를 포착하는 L1/L2/L3 모니터링 - Insights | Molayo

지표(Metrics)가 없을 때 발생하는 비용

Skill의 성능이 저하되었을 때 어떻게 알 수 있을까요?

사용자의 불만이 생길 때까지 기다리기 — 첫 번째 불만이 접수되기 전까지 얼마나 많은 나쁜 경험이 발생했을까요?
누군가 "최근에 AI가 예전만 못하다"라고 말할 때까지 기다리기 — 어떤 Skill인지, 어떤 차원(dimension)인지 분리해낼 방법이 없습니다.
비즈니스 지표(business metrics)가 떨어질 때까지 기다리기 — 원인을 추적하는 데 비용이 많이 듭니다.

지표 시스템(metrics system)은 사용자가 인지하기 전에 성능 저하를 포착합니다.

L1/L2/L3 프레임워크

L3 — 시스템 상태 (System Health)
  latency (지연 시간), availability (가용성), token cost (토큰 비용), error rate (에러율)
  수집: 모든 호출 시 자동 수행
...

계층 의존성 (Layer dependency):

L3 정상 → L2 품질 (quality) → L1 가치 (value)

L3 타임아웃 (timeouts) → L2 출력물 잘림 (output truncated) → L1 작업 실패 (task fails)
...

알림(alert)이 발생하면 L3부터 시작하여 위로 올라가세요. L1에서 아래로 내려가며 진단하는 것은 훨씬 더 느립니다.

데모 설계

테스트 대상: rnd-technical-writer — 주제가 주어지면 Markdown 기술 문서를 작성합니다.

중국어와 영어가 혼합된 6번의 호출:

ID	입력 (생략됨)	언어
T01	Python asyncio event loop internals	EN
...
L2 형식 체크 (rule-based, LLM 미사용):

def check_format(article: str) -> tuple[bool, list[str]]:
    issues = []
    if "---" not in article[:300]:
...

L2 품질 점수 산정 (LLM-as-Judge, 가중치 적용):

technical_accuracy (기술적 정확도) × 0.35
depth (깊이)              × 0.25
clarity (명확성)            × 0.20
...

실행 결과

1단계: L3 수집

[T01] Python asyncio...       ✓ 52.9s  ~1515 tokens
[T02] Redis caching...        ✓ 40.2s  ~470 tokens
[T03] Docker multi-stage...   ✓ 33.5s  ~1312 tokens
...

2단계: L2 점수 산정

[T01] ✓ format ok  acc=4 dep=4 cla=5 pra=4  → 4.20/5
[T02] ✗ missing frontmatter; no code block; too short: 71 words
                   acc=4 dep=3 cla=4 pra=3  → 3.55/5
...

상태 대시보드 (Health Dashboard)

══════════════════════════════════════════════════════════════════════
  Skill Health Dashboard: rnd-technical-writer
══════════════════════════════════════════════════════════════════════
...

세 가지 발견 사항

발견 사항 1: P90 50.6초, 모든 호출이 임계값 초과

6개의 호출 모두 30초 임계값을 초과했습니다. 가장 빨랐던 호출은 T03으로 33.5초였습니다. 전체 기술 문서를 생성하는 데 glm-4-flash는 30~50초가 소요되며, 이는 사용자가 체감할 수 있는 대기 시간입니다.

지표(Metrics)가 없다면 팀은 "AI가 느린 것 같다"라는 말만 듣게 됩니다. 하지만 P90 데이터가 있다면 다음과 같이 말할 수 있습니다: "P90이 50.6초로, 목표치인 30초보다 67% 높습니다. 결정 사항: 모델을 교체하거나 스트리밍 출력(Streaming output)을 추가합니다."

다음 단계:

생성 지연 시간(Latency)이 더 낮은 모델 평가
사용자가 전체 응답을 기다리는 대신 텍스트가 나타나는 것을 볼 수 있도록 스트리밍 출력 추가
또는 이 생성 시간이 해당 유스케이스(Use case)에서 허용 가능하다면 임계값을 60초로 조정

발견 사항 2: 중국어 요청은 형식 검사 실패 — 영어는 100% 통과

T01, T03, T05(영어)는 모두 형식 검사를 통과했습니다. T02와 T06(중국어)은 모두 실패했습니다:

T02: 프론트매터(Frontmatter) 누락, 코드 블록 없음, "71단어" (split()을 이용한 단어 수는 중국어 텍스트에서 거의 의미가 없음)
T06: 프론트매터 누락, "149단어" (동일한 문제)

두 가지 문제가 겹쳐 있습니다:

split() 단어 수 계산이 중국어에서 실패함 — 단어 사이에 공백이 없으므로, split()은 700자 길이의 기사에 대해 71개의 토큰만을 반환합니다.
모델이 일부 중국어 요청에서 프론트매터를 건너뜀 — 영어 프롬프트는 거의 항상 프론트매터를 생성합니다.

Skill 프롬프트는 영어로 작성되었습니다. 중국어 출력에 대해 형식 요구 사항이 다시 명시되지 않았기 때문에, 모델은 이를 선택 사항으로 취급했습니다. 해결 방법:

## 출력 요구 사항 (Output Requirements)
요청 언어(중국어 또는 영어)에 관계없이, 출력에는 반드시 다음이 포함되어야 합니다:
- YAML 프론트매터 (title, description, tags)
...

발견 사항 3: 품질 점수 3.83 — 임계값을 간신히 상회

평균 품질 점수는 3.83/5로, 임계값인 3.8을 통과했습니다. 임계값보다 겨우 0.03 높았습니다. 임계값이 없다면 이 수치는 그냥 "괜찮음"으로 읽힐 것입니다.

T02와 T06은 모두 3.55점을 기록하여 평균을 낮추었습니다. 이들의 depth(깊이)와 practical_value(실용적 가치) 차원은 4 또는 5가 아닌 3점을 기록했습니다. 중국어 기사들이 더 짧고 덜 상세했기 때문에, 판정 모델(Judge)이 이를 정확하게 낮게 평가한 것입니다.

두 가지 L2 신호가 서로를 확인해 주었습니다. 형식 체크(format check)에서는 "프론트매터(frontmatter) 누락, 코드 블록 없음"을 발견했고, 품질 점수(quality score)에서는 "depth=3, practical_value=3"을 발견했습니다. 두 신호 모두 Skill 프롬프트가 중국어 출력 범위를 충분히 커버하지 못하고 있다는 동일한 격차를 가리켰습니다.

경고 임계값 참조 (Alert Thresholds Reference)

# L3
availability_7d < 99%         → CRITICAL: 즉시 조사 필요
p90_latency > 30s             → WARNING: 모델/엔드포인트 상태 확인
...

구현 로드맵 (Implementation Roadmap)

Step 1 (도구 불필요, 지금 바로 수행):
  □ 현재 보유한 Skill 목록 작성
  □ 각 Skill에 대한 호출 빈도 및 주관적 품질을 수동으로 추정
...

요약 (Summary)

P90 경고는 "느린 것 같다"는 느낌을 숫자로 변환합니다: 50.6초 대 30초 임계값과 같이 직접적인 조치가 가능합니다 — 모델을 교체하거나, 스트리밍(streaming)을 추가하거나, 목표치를 조정하십시오.
형식 준수 여부가 언어적 사각지대를 드러냈습니다: 영어는 100%였으나 중국어는 프론트매터(frontmatter)에서 실패했습니다; Skill 프롬프트가 영어 동작은 암묵적으로 커버하고 있었지만, 중국어에 대해서는 명시적으로 기술하지 않았습니다.
품질 점수 3.83은 간신히 통과했으며, L2 이중 신호가 서로를 확인했습니다: 형식 체크는 구조적 문제를 발견했고, 품질 점수는 깊이(depth) 문제를 발견했습니다 — 두 신호 모두 Skill 프롬프트가 중국어 출력을 커버하는 데 있어 동일한 격차가 있음을 가리켰습니다.

참고 문헌 (References)

Langfuse documentation — Skill call tracing
전체 데모 코드: skill-04-metrics

실제 기업급 워크플로우에서 검증된 AI 에이전트 및 Skill의 큐레이션 마켓플레이스인 PrimeSkills를 확인해 보세요. 군더더기 없이 실제로 작동하는 것들만 모았습니다.

제 홈페이지에서 더 유용한 지식과 흥미로운 제품들을 찾아보세요.

Skill 시리즈 (04): Skill Metrics — 사용자가 인지하기 전에 품질 저하를 포착하는 L1/L2/L3 모니터링

요약

핵심 포인트