멀티모달 에이전트 기술 (Multimodal Agent Skills): 예측 가능성에서 프로덕션 워크플로우까지

저자: Jia Jingqiu - 영어 웹 버전: 2026-07-01
원본 정식 버전: https://www.jiajingqiu.com/agent-skills-multimodal/

초록 (Abstract)

멀티모달 에이전트 (Multimodal agents)는 "도구를 호출할 수 있는" 단계에서 "복잡한 워크플로우 (workflows)를 안정적으로 실행할 수 있는" 단계로 나아가고 있습니다. 프로덕션 (production) 환경에서 병목 현상은 모델의 능력 그 자체보다는 기술 설계 (skill design)인 경우가 많습니다. 즉, 언제 기술을 트리거해야 하는지, 얼마나 많은 컨텍스트 (context)를 로드해야 하는지, 어떤 단계를 따라야 하는지, 어떻게 분기 (branches)를 선택해야 하는지, 어떻게 오래된 지침 (stale instructions)을 피해야 하는지, 그리고 성공을 어떻게 평가해야 하는지의 문제입니다. 훌륭한 에이전트 기술을 작성하기 위한 Matt Pocock의 프레임워크에서 영감을 받아, 본 논문은 커머스 워크플로우를 위한 멀티모달 멀티 기술 (multimodal multi-skill) 아키텍처를 제안합니다. 단일한 거대 기술 대신, 프로덕션 시스템은 제품 정보의 진실성 (product truth), 증거 게이팅 (evidence gating), 라우팅 (routing), 키프레임 (keyframes), 생성 프롬프트 (generation prompts), 비디오 QA (video QA), 게시 승인 (publication acceptance) 및 실패 메모리 (failure memory)를 위해 작고 검사 가능한 기술들을 조합해야 합니다. 목표는 더 많은 지침을 제공하는 것이 아닙니다. 목표는 더 예측 가능한 프로세스를 만드는 것입니다.

1. 논지: 기술은 예측 가능성을 위한 도구이다

기술은 에이전트를 더 똑똑하게 들리게 만들기 때문에 가치 있는 것이 아닙니다. 기술은 반복적인 작업을 더 예측 가능한 프로세스로 바꿀 때 가치가 있습니다. 브레인스토밍 기술은 매번 다른 아이디어를 생성할 수 있지만, 목표를 안정적으로 이해하고, 후보를 생성하며, 이를 필터링하고, 다음 행동을 제안해야 합니다. 마찬가지로, 멀티모달 프로덕션 기술은 제품 사실을 안정적으로 보호하고, 증거를 검사하며, 경로를 선택하고, 취약한 출력을 거부해야 합니다.

이러한 구분은 매우 중요합니다. 왜냐하면 멀티모달 출력은 시각적으로는 설득력이 있어 보일 수 있지만, 상업적으로는 틀릴 수 있기 때문입니다. 영상은 세련되어 보일 수 있지만 패키지 구성이 어긋날 수 있습니다. 제품 이미지는 프리미엄처럼 보일 수 있지만 로고, 재질 또는 크기가 잘못될 수 있습니다. 보고서는 유창하게 읽힐 수 있지만 스크린샷을 전혀 확인하지 않을 수 있습니다. 기술 설계 (Skill design)는 에이전트가 속도를 늦추고, 올바른 증거를 검사하며, 감사 가능한 흔적 (auditable trail)을 남기게 만드는 계층입니다.

멀티모달 기술 시스템의 첫 번째 원칙은 예측 가능성 (predictability)입니다. 모든 기술은 하나의 마법 같은 결과물을 약속하는 것이 아니라, 하나의 프로세스를 안정화해야 합니다.

2. 멀티모달 작업에 많은 기술이 필요한 이유

커머스 비디오 작업은 단일 작업이 아닙니다. 이는 텍스트, 이미지, 비디오, 오디오, 제품 페이지, 플랫폼 규칙 및 비즈니스 목표에 걸친 일련의 작은 결정들의 체인 (chain)입니다. 만약 모든 것을 하나의 거대한 기술 안에 집어넣는다면, 에이전트는 너무 많은 미래의 목표를 한꺼번에 보게 되어 종종 최종 결과물 (artifact)을 향해 서둘러 달려가게 됩니다.

단계	입력 (Input)	출력 (Output)	주요 리스크 (Main Risk)
제품 진실 (Product truth)	링크, 사진, 제목, 사양, 리뷰	제품 진실 카드 (Product Truth Card)	스타일 관련 단어에 의해 사실이 오염됨
...

3. 멀티모달 기술의 분류 (Taxonomy)

01 제품 진실 기술 (Product Truth Skill)

제품명, 카테고리, 소재, 형태, 로고, 패키징, 시각적 앵커 (visual anchors), 지원되는 주장 (supported claims) 및 미확인 사항을 추출합니다. 창의적인 카피를 작성해서는 안 됩니다.

02 증거 게이트 기술 (Evidence Gate Skill)

작업이 준비되었는지, 더 많은 증거가 필요한지, 또는 생성 전에 차단되어야 하는지를 결정합니다. 이는 비용이 많이 드는 출력을 내보내기 전의 안전 밸브 (safety valve) 역할을 합니다.

03 라우터 기술 (Router Skill)

가공되지 않은 사용자 텍스트를 구조화된 의도 (intent)로 변환합니다: 모달리티 (modality), 제품 카테고리, 플랫폼, 작업 단계 및 리스크. 스타일 요청은 검색 의도 (retrieval intent)가 아니라 생성 페이로드 (generation payload)에 포함되어야 합니다.

04 스토리보드 및 키프레임 기술 (Storyboard and Keyframe Skill)

제품 진실을 장면 (scenes), 동작 (actions), 제품 앵커, 화면 텍스트, 보이스오버 (voiceover) 및 QA 리스크로 전환합니다. 비디오는 종종 키프레임 우선 (keyframe-first) 방식이어야 합니다.

05 생성 프롬프트 기술 (Generation Prompt Skill)

승인된 사실, 참조 및 장면 계획을 사용하여 모델별 프롬프트 계약 (prompt contracts)을 구축합니다. 누락된 사실을 발명하는 것이 아니라 실행해야 합니다.

06 멀티모달 QA 기술 (Multimodal QA Skill)

제품의 형태, 소재, 손과 물체의 접촉, 동작 로직, 시간적 충실도 (temporal fidelity), 시청각 정렬 (audio-visual alignment) 및 상업적 가독성을 검사합니다.

07 게시 승인 기술 (Publication Acceptance Skill)

파일 존재 여부, 형식, 표시되는 페이지, 플랫폼 적합성, 제품 진실 및 승인 증거를 확인합니다. "생성됨 (Generated)"이 곧 "사용 가능함 (usable)"을 의미하지는 않습니다.

08 실패 메모리 기술 (Failure Memory Skill)

실패 레이블(failure labels), 증거(evidence), 복구 작업(repair actions) 및 다음 실행 규칙(next-time rules)을 저장하여, 향후 라우팅(routing) 시 반복적인 실수를 피할 수 있도록 합니다.

4. 멀티 스킬 아키텍처 (Multi-skill architecture)

프로덕션급(production-grade) 멀티모달 에이전트는 범용적인 스킬(universal skill)로 시작해서는 안 됩니다. 작은 라우터(router)와 일련의 특화된 스킬(specialized skills) 세트로 시작해야 합니다. 라우터는 사용자의 원래 요청을 보존하고, 구조화된 의도(structured intent)를 추출하며, 다음 스킬을 지정합니다.

raw_user_text
  -> Router Skill
  -> Product Truth Skill
...

경계(boundary)가 중요합니다. 라우터는 프롬프트(prompts)를 작성해서는 안 됩니다. 제품 진실(product-truth) 스킬은 스타일 확장(style expansion)을 수행해서는 안 됩니다. 증거 게이트(evidence gate)는 생성을 중단할 수 있어야 합니다. QA 스킬은 실패를 레이블링하고 복구 작업(repair actions)을 제안해야 합니다. 메모리 스킬은 모호한 회고(retrospectives)가 아닌, 다음 실행 규칙(next-time rules)을 생성해야 합니다.

5. 호출 설계 (Invocation design): 모델 호출형 또는 사용자 호출형

모델 호출형(Model-invoked) 스킬은 사용자의 노력을 줄여주지만, 스킬 설명이 에이전트의 환경(environment)에 포함되어야 하므로 컨텍스트 부하(context load)를 증가시킵니다. 사용자 호출형(User-invoked) 스킬은 에이전트를 더 가볍게 유지하지만, 운영자의 인지 부하(cognitive load)를 증가시킵니다. 멀티모달 시스템은 리스크와 빈도에 따라 이를 선택해야 합니다.

스킬 유형	권장 트리거	이유
증거 게이트 (Evidence gate)	모델 호출형 (Model-invoked)	생성 전 고위험 체크
...

6. 제품 진실 카드 (Product Truth Card) 및 클린 스킬 라우팅 (clean skill routing)

클린 라우트(clean route)는 사실(facts), 스타일(style), 작업 의도(task intent)를 한데 섞은 긴 프롬프트가 아닙니다. 이는 데이터 경계(data boundary)입니다. 사용자의 원래 요청을 보존하고, 좁은 범위의 검색 의도(retrieval intent)를 추출하며, 제품 사실(product facts)을 고정(freeze)하고, 스타일은 생성 단계에만 전달한 다음, 멀티모달 QA를 통해 후보 출력(candidate output)을 검증합니다.

raw_user_text
  -> retrieval_intent
  -> product_truth_card
...

계층 (Layer)	용도 (Used For)	금지 사항 (Must Not Do)
raw_user_text	증거 (Evidence), 재생 (replay) 및 디버깅 (debugging). 원래의 요청을 온전하게 유지합니다.	기술 검색 (skill retrieval)에 직접 입력하지 마십시오.
...

하드 게이트 (hard gate)는 간단합니다. 만약 제품 진실 카드 (Product Truth Card)가 존재하지 않는다면, 시스템은 스토리보드 (storyboard), 스크립트 (script) 또는 비디오 프롬프트 (video-prompt) 생성 단계로 진입해서는 안 됩니다. "제품을 변경하지 마세요"라는 문장은 프롬프트 문장으로서 너무 약합니다. 제품 정보 (product facts)는 이후의 기술 (skills)들이 덮어쓸 수 없는 잠금 상태 (locked state)로 유지되어야 합니다.

생성 우선순위 (Generation priority)

제품의 기하학적 구조 (Product geometry)를 최우선으로 하며, 그다음 색상 (color), 라벨 (label), 로고 (logo), 패키징 (packaging), 눈에 보이는 액세서리 (visible accessories), 알려진 주장 (known claims), 플랫폼 형식 (platform format), 장면 로직 (scene logic), 마지막으로 창의적 스타일 (creative style) 순으로 진행합니다.

모델 경로 (Model route)

제품의 외형이 중요할 때는 이미지-투-비디오 (image-to-video) 또는 레퍼런스-투-비디오 (reference-to-video)를 사용합니다. 순수 텍스트-투-비디오 (text-to-video)는 SKU 수준의 제품 충실도 (product fidelity)보다는 컨셉 필름 (concept films)에 더 적합합니다.

TikTok 분기 (TikTok branch)

발견형 커머스 (Discovery commerce): 먼저 주의를 끄는 훅 (hook)을 제공한 다음, 제품을 검색하지 않았던 시청자도 제품의 동작을 명확하게 이해할 수 있도록 증명해야 합니다.

Amazon 분기 (Amazon branch)

의도형 커머스 (Intent commerce): 구매자는 이미 비교 중입니다. 명확성 (clarity), 신뢰 (trust), 기능 증명 (feature proof), 주장 안전성 (claim safety) 및 의구심 감소 (doubt reduction)를 우선시하십시오.

7. 정보 설계: SKILL.md를 작게 유지하기

주요 기술 파일 (skill file)은 지식 저장소 (knowledge dump)가 아니라 제어 표면 (control surface)이어야 합니다. 트리거 (trigger), 핵심 단계 (core steps) 및 완료 기준 (completion criteria)을 SKILL.md에 넣으십시오. 분기별 특화 자료는 에이전트가 필요할 때만 열어볼 수 있는 참조 (references), 템플릿 (templates) 및 예시 (examples)로 이동시키십시오.

multimodal-commerce-skills/
  router/SKILL.md
  product-truth/SKILL.md
...

이는 에이전트를 위한 점진적 공개 (progressive disclosure) 방식입니다. 대부분의 작업은 단계 (steps)만 로드해야 합니다. 플랫폼 규칙 (platform rules), 실패 분류 체계 (failure taxonomies), 템플릿 (templates) 및 예시 (examples)는 컨텍스트 포인터 (context pointers) 뒤에 위치해야 합니다.

8. 멀티모달 에이전트를 위한 리딩 워드 (Leading words)

리딩 워드 (Leading word)는 특정 동작을 짧고 재사용 가능한 문구로 압축합니다. 이 문구는 기술 (skill), 템플릿 (templates), QA 라벨 (QA labels) 및 에이전트 자체의 운영 언어 (operational language)에 나타나야 합니다. 이를 통해 원하는 동작을 더 쉽게 반복할 수 있습니다.

주요 단어 (Leading Word)	의미 (Meaning)	용도 (Use)
product truth	제품 사실(product facts)이 변질되어서는 안 됩니다.	모든 커머스 생성 (All commerce generation).
...

9. 가지치기 (Pruning): 침전물 및 무의미한 동작(no-ops) 제거

멀티모달 기술 (Multimodal skills)은 종종 침전물에 의해 비대해집니다. 생성에 실패할 때마다 경고가 하나씩 추가됩니다. 플랫폼이 추가될 때마다 예외 사항이 하나씩 늘어납니다. 잘못된 출력이 나올 때마다 스타일 문구가 하나씩 추가됩니다. 결국 기술은 길어지고, 중복되며, 노후화됩니다.

삭제 테스트 (deletion tests)를 사용하세요. 만약 한 단락을 삭제해도 에이전트의 동작이 변하지 않는다면, 그것은 아마도 무의미한 동작 (no-op)일 것입니다. 만약 특정 규칙이 단 하나의 분기 (branch)에만 적용된다면, 해당 분기로 이동시키세요. 만약 하나의 개념이 여러 파일에 나타난다면, 단 하나의 진실의 원천 (source of truth)을 선택하세요. 만약 스타일 요청이 산문 (prose) 형태로 반복된다면, 이를 구조화된 필드 (structured field)로 전환하세요.

각 규칙은 반드시 동작을 변화시켜야 합니다.
각 개념은 단 하나의 진실의 원천 (source of truth)을 가져야 합니다.
특정 분기에 특화된 참조 (branch-specific references)는 메인 기술 파일 외부에 존재해야 합니다.
스타일 문구는 파라미터 (parameters) 또는 주요 단어 (leading words)가 되어야 합니다.
실패 노트 (failure notes)는 먼저 실패 메모리 (failure memory)에 기록되어야 하며, 반복적으로 중요하게 작용할 경우에만 승격되어야 합니다.

10. 평가 프레임워크 (Evaluation framework)

멀티 기술 시스템 (multi-skill system)은 호출 (invocation), 프로세스 (process), 출력 (output), 메모리 (memory)의 네 가지 계층에서 평가가 필요합니다.

호출 (Invocation)

적절한 시점에 올바른 기술이 실행되었는가? 모델이 호출한 기술이 컨텍스트 부하 (context load)를 너무 많이 증가시키지는 않았는가? 사용자가 진입점 (entry points)을 기억할 수 있는가?

프로세스 (Process)

에이전트가 모든 단계를 완료했는가? 충분한 검사 (inspection)를 수행했는가? 그리고 앞으로 나아가기 전에 올바른 분기 (branch)를 선택했는가?

출력 (Output)

결과물 (asset)이 제품 사실 (product truth)을 보존했는가? 플랫폼에 적합한가? 증거 (evidence)와 일치하는가? 그리고 수정 시간 (repair time)을 줄였는가?

메모리 (Memory)

반복되는 실패가 줄어들고 있는가? 다음번 규칙이 검색되어 향후 라우팅 결정 (routing decisions)에 사용되고 있는가?

11. 최소 라우터 템플릿 (Minimal router template)

라우터는 작아야 합니다. 라우터는 가공되지 않은 사용자 텍스트를 보존하고, 검색 의도 (retrieval intent)를 추출하며, 모든 하위 명령 (downstream instruction)을 흡수하지 않고 작업을 라우팅해야 합니다.

# 멀티모달 커머스 라우터 (Multimodal Commerce Router)

사용자가 제품 링크, 제품 이미지, 비디오 등을 제공할 때 사용하세요,
...

12. Product-Truth Feedback Training과의 관계

Product-Truth Feedback Training (PTFT)는 생성(generation) 과정에서 어떤 데이터를 캡처해야 하는지를 정의합니다: 제품 진실성 (product truth), 경로 선택 (route choice), QA 라벨 (QA label), 실패 증거 (failure evidence), 수정 작업 (repair action) 및 선호도 신호 (preference signal) 등이 이에 해당합니다. 멀티 스킬 (multi-skill) 시스템은 이러한 데이터를 신뢰성 있게 생성하는 운영 계층 (operating layer) 역할을 합니다.

PTFT 모듈	스킬 계층 구현 (Skill-Layer Implementation)
Product Truth Card	Product Truth Skill
...

요약하자면, PTFT는 무엇을 학습해야 하는지를 말해줍니다. 스킬 시스템은 에이전트가 이를 학습하는 데 필요한 증거를 어떻게 신뢰성 있게 생성할 것인지를 말해줍니다. Product Truth Card 라우팅은 누락되었던 런타임 경계 (runtime boundary)를 추가합니다: 즉, 창의적인 생성 (creative generation)이 시작되기 전에 사실 관계 (facts)를 고정(frozen)합니다.

13. 결론

멀티모달 에이전트의 다음 단계는 더 긴 프롬프트 (prompt)나 단일한 거대 매뉴얼이 아닙니다. 그것은 작고, 조합 가능하며, 감사 가능한 (auditable) 스킬들의 집합입니다. 제품 진실성 (product truth), 증거 게이트 (evidence gates), 라우팅 (routing), 키프레임 (keyframes), 생성 프롬프트 (generation prompts), QA, 수락 (acceptance) 및 실패 메모리 (failure memory)는 각각 명시적이어야 합니다. 성숙한 멀티모달 시스템은 단순히 다듬어진 에셋 (assets)을 생성하는 데 그치지 않습니다. 매 실행이 끝난 후 더 명확한 판단, 더 적은 반복 오류, 그리고 더 재사용 가능한 프로덕션 인텔리전스 (production intelligence)를 남깁니다.

Insights