하나의 거대한 미디어 프롬프트 대신 394개의 좁은 Claude 스킬을 구축한 이유

요약

거대한 시스템 프롬프트 대신 394개의 세분화된 '좁은 스킬(narrow skills)'을 구축하여 미디어 어시스턴트를 개발한 사례를 소개합니다. 각 스킬은 단일 작업에 집중하여 출력의 품질을 높이고, 테스트와 조합이 용이하다는 장점이 있습니다.

핵심 포인트

거대 프롬프트는 지침이 분산되어 결과물이 평균적이고 모호해짐
좁은 스킬은 특정 형식에 집중하여 출력의 날카로움과 충실도를 높임
개별 스킬 단위로 어설션(assertion) 작성이 가능해져 정량적 평가가 용이함
독립적인 스킬들을 파이프라인 형태로 연결하여 고품질 워크플로우 구축 가능

AI 미디어 어시스턴트를 구축하는 명백한 방법은 하나의 거대한 시스템 프롬프트(system prompt)를 만드는 것입니다: "당신은 저널리즘, 비디오, 팟캐스팅, PR에 능숙한 전문가 미디어 프로듀서입니다..." 모든 것을 쏟아부으세요. 모델이 사용자가 무엇을 필요로 하는지 스스로 파악하게 만드는 것입니다.

저는 반대의 길을 택했습니다. 이 라이브러리는 394개의 개별적인 스킬로 구성되어 있으며, 각 스킬은 매우 좁은 범위—단 하나의 작업, 단 하나의 형식—를 다룹니다. 리드(ledes)를 위한 스킬, 쇼 노트(show notes)를 위한 스킬, 정보공개청구(FOIA) 서신을 위한 스킬이 있습니다. 초안에서 AI 특유의 흔적(AI tells)을 제거하는 일만 수행하는 스킬도 있습니다. 왜 좁은 범위의 스킬(narrow skills)이 승리했는지 그 이유를 설명하겠습니다.

하나의 거대한 프롬프트는 모든 것을 평균적인 상태로 만듭니다

모든 것에 능숙해야 하는 시스템 프롬프트는 특별히 무엇 하나도 잘하지 못합니다. 리드(lede)를 요청하면, "쓰기"에 대한 지침이 다른 40개의 작업으로 분산되어 있기 때문에 유능하지만 일반적인(generic) 도입부를 제공할 뿐입니다. 모델은 40가지 형식의 특정 관습(conventions)을 한꺼번에 완전한 충실도(fidelity)로 유지할 수 없습니다. 당신은 평균치를 얻게 됩니다. 그 평균치는 형체 없는 뭉텅이(mush)와 같습니다.

좁은 스킬은 _단 하나_의 형식에 대한 모든 무게를 담습니다. 리드가 실제로 무엇인지, 시도해 볼 가치가 있는 세 가지 스타일, 뉴스를 묻어버리는 함정, 매체 유형의 관습 등을 담습니다. 그 주의력을 빼앗는 경쟁 요소가 없습니다. 지침이 더 날카롭기 때문에 출력물도 더 날카롭습니다.

좁은 스킬은 테스트 가능합니다

이 부분이 중요하며, "하나의 거대한 프롬프트" 방식으로는 할 수 없는 부분입니다. 각 스킬은 하나의 작업만을 수행하기 때문에, 이에 대한 어설션(assertions)을 작성할 수 있습니다. 예를 들어, 한 문장의 리드를 생성했는가? 출처가 없는 인용구를 지어내는 것을 거부했는가? 등을 확인할 수 있습니다. 수십 개의 입력값에 대해 이를 실행하여 실제 통과율(pass rate)을 얻을 수 있습니다.

"훌륭한 미디어 어시스턴트가 되어라"라는 명령은 의미 있게 평가(eval)할 수 없습니다. 그에 대한 어설션이 존재하지 않기 때문입니다. 작업을 좁은 스킬로 분리함으로써 모든 스킬은 측정 가능해집니다. 이 라이브러리의 모든 스킬은 안정적인 상태로 배포되기 전, 출력이 인간이 쓴 것처럼 읽히는지에 대한 엄격한 하한선을 포함하여 7차원 루브릭(seven-dimension rubric)을 기준으로 점수가 매겨집니다.

좁은 스킬은 조합됩니다

반론이 바로 떠오를 것입니다. 40개의 스킬은 프롬프트 하나보다 더 많은 작업처럼 들립니다. 하지만 실제로는 그 반대입니다. 40개를 모두 불러오는 것이 아니라, 작업에 필요한 단 하나를 찾아내는 것입니다. 그리고 이들은 사슬처럼 연결됩니다. story-angle-finder(스토리 관점 탐색기) → reportage-structure(보도 구조) → lede-writer(리드 작성기) → fact-check(사실 확인) → libel-check(명예훼손 확인)는 실제 파이프라인(pipeline)이 되며, 각 단계의 출력이 다음 단계의 입력이 되고, 각 단계는 독립적으로 우수합니다.

솔직히 말해서, 트레이드오프(trade-off)

좁다는 것은 발견(discovery)이 중요하다는 것을 의미합니다. 즉, 적절한 스킬을 찾아내야 합니다. 이는 실제 비용이며, 그렇기에 라이브러리에는 역할 기반 가이드(role-based guides)와 모델이 자동으로 선택할 수 있게 해주는 원커맨드 플러그인 설치 기능이 포함되어 있습니다. 우리의 도박은 결과물이 즉시 배포 가능한 수준(shippable)인지가 중요한 사람들에게는 "날카롭고 찾기 쉬운 것"이 "광범위하고 평균적인 것"보다 낫다는 것입니다. 청중이 일반적인(generic) 콘텐츠를 즉각적으로 알아차리는 미디어 작업에서는, 이 차이가 압도적입니다.

이 모든 것은 무료이며 MIT 라이선스입니다. 분해해 보고, 구조를 포크(fork)하고, 좁게 접근한 것이 잘못된 결정이었다면 저에게 알려주세요.

→ github.com/ur-grue/autopunk-media-skills

AI 자동 생성 콘텐츠

원문 바로가기