테마별로 구조를 설계하는 Deep Research 스킬의 구성과 동작

서론

생성 AI 에이전트 도구용 Deep Research 스킬을 제작하여 GitHub에 공개했습니다.

스킬에 대한 설명을 겸한 비망록으로서 기사를 작성해 두기로 했습니다.

이 스킬은 "깊게 조사해줘", "딥 리서치(Deep Research) 해줘"와 같은 키워드로 기동합니다.

기동하면 에이전트가 테마에 맞춰 리포트 구조를 설계하고, 반복적인 Web 조사(Web Research)를 수행하며, 구조화된 리포트를 생성합니다.

동작 확인은 아래에서 수행되었습니다.

모델

Claude Opus 4.7
Claude Opus 4.8
Claude Sonnet 5

Coding Agent

Kiro CLI
Kiro IDE
Claude Code

유의사항

이 스킬은 제가 처음에 베이스만 만들고, 나머지는 AI와 상담하며 형태를 갖춘 것입니다.

저 자신이 리서치를 전문으로 하는 것은 아니기에, 여기에 적은 설계 판단도 유일한 정답이라기보다는 하나의 만드는 방법으로서 읽어주셨으면 합니다.

참고로, 이 기사도 절반 이상은 AI에게 쓰게 했습니다. 아마 그 편이 읽기 편하기 때문일 것입니다.

이 스킬의 특징

동적인 구조 설계: 테마의 조사 계획에 기반하여, 장(Chapter) 구성과 분석 요소, 정량과 정성의 비율을 매번 설계합니다 -
2단계 구조 설계: 조사 전에 가구조(Provisional Structure)를 설계하고, 전체 조사가 완료된 후 조사 내용에 맞춰 단 한 번 개정하여 집필합니다 -
취득 다양성과 원천 다양성의 분리: 기사의 개수가 아니라, 원천까지 추적한 독립 소스(Independent Source)의 수로 신뢰성을 측정합니다

먼저 구조를 고정하고 조사 결과를 끼워 맞추는 것이 아니라, 먼저 조사 플랜을 세운 뒤 Web 검색을 수행하고, 조사하여 알게 된 사실에 맞춰 구조를 다시 조정합니다.

신뢰성을 측정하는 방식도 같은 발상입니다.

비슷한 내용의 기사가 여러 개 나열되더라도, 원천을 추적하여 동일한 1차 정보(Primary Information)에 도달한다면 독립된 소스는 하나로 계산합니다.

생성되는 리포트 예시

실제로 이 스킬로 생성한 샘플 리포트를 리포지토리에 올려두었습니다.

테마의 성질에 따라 구조 타입이 변하고 있음을 확인할 수 있습니다.

개념 해설형: Loop Engineering (Opus 4.8)
시나리오 분석형: 생성 AI의 전력 수요와 데이터 센터, 전력망에 미치는 영향 (Opus 4.8)
인과와 시계열형: 글로벌 반도체 공급망(Supply Chain) 재편 (Sonnet 5)

모두 소제목을 잡는 방식이 다릅니다.

이 차이는 다음에 설명할 구조 설계의 메커니즘에서 비롯됩니다.

SKILL.md와 8개의 참조 파일

스킬은 하나의 엔트리 포인트(Entry Point)와 역할별로 분할한 참조 문서로 구성되어 있습니다.

deep-research-skills/
├── SKILL.md # 기동 선언, 역할, 사고 로직, 절대 규칙, 참조 맵
└── references/
...

5가지 페이즈로 동작

기동부터 결과물까지의 흐름을 5가지 페이즈(Phase)로 정의하고 있습니다.

결과물을 보관하는 장소로서, 조사 시작 시 다음 폴더를 생성합니다.

{YYYYMMDD-HHmm}-deep-research-{테마의 약칭}/
├── checkpoint.md # 각 단계의 조사 결과를 축적
├── structure.md # 설계한 리포트 구조 (가설계부터 개정까지의 이력)
...

checkpoint.md와 structure.md를 나누어 놓은 것은 의도적인 것으로, 조사의 기록과 구조의 기록을 별도로 관리합니다.

페이즈 1: 조사 계획과 가구조 설계

테마를 받았다고 해서 곧바로 검색을 하지는 않습니다.

먼저 테마의 핵심을 특정하고, 여러 개의 조사 단계로 분해합니다.

"현상의 사실", "원인 및 배경", "영향과 파급", "리스크 및 불확실성", "미래 전망"이라는 5가지 축을 의식하면서 테마에 맞춰 취사선택합니다.

다음으로, 그 조사 계획에 기반하여 가상의 리포트 구조를 설계합니다.

여기서 선택하는 것은 장과 장을 어떻게 연결할 것인가 하는 **논리 패턴(Logical Pattern)**입니다.

장 자체의 제목이 아니라, 장의 배열과 관계의 형식을 테마에 따라 선택합니다.

논리 패턴	적합한 테마
인과 연쇄	원인에서 결과, 영향으로 이어지는 테마
...
논리 패턴이 결정하는 것은 어디까지나 장을 잇는 방식입니다.

개별 소제목은 설계 원칙 중 하나인 "각 장은 독립된 질문에 답한다"에 따라 테마별로 만듭니다.

따라서 "관련 정보", "기타 논점"과 같이 내용을 특정하지 않는 소제목은 배제됩니다.

질문을 세울 수 없는 장은 통합 또는 삭제 대상이 됩니다.

정해진 템플릿과 달리, 소제목의 이름과 개수, 순서도 테마에 따라 달라집니다.

계획과 가구조(provisional structure)가 완성되면, 두 가지를 모두 정리하여 사용자에게 제시하고 승인을 요청합니다.

방향성에 대해 합의한 후 조사를 시작하므로, 수십 분을 들인 끝에 엉뚱한 리포트가 나오는 사고를 방지할 수 있습니다.

조사 계획과 가구조는 structure.md에 저장합니다.

페이즈 2 반복적 조사

승인 후, 각 조사 단계에서 「1차 정보 탐색, 2차 정보 보완, 분석, 포화 판정, 체크포인트 기록」의 루프를 돌립니다.

분석에서는 수집한 정보에 대해 세 가지 질문을 던집니다.

왜 (인과관계): 이 사실은 왜 일어나고 있는가
그래서 무엇인가 (파급효과): 다른 영역에 어떻게 영향을 미치는가
정말로 (검증): 다른 소스에서도 뒷받침되는가

이 세 가지 질문으로부터 다음 검색 키워드를 생성합니다.

체크리스트를 기계적으로 소화하는 것이 아니라, 이전 단계의 발견이 다음 단계의 방향을 바꾸어 나갑니다.

조사의 확실성(veracity)을 둘러싸고 약간의 기교를 부린 메커니즘이 들어 있습니다.

취득 다양성과 원천 다양성의 분리입니다.

여러 검색 엔진을 병용하더라도, N개의 기사가 일치하더라도, 그 원천을 추적했을 때 결국 동일한 하나의 1차 정보로 귀결된다면 독립된 소스는 하나뿐입니다.

기사 본수의 많음을 확실성으로 착각하면, 거짓된 컨센서스(false consensus)에 휘둘리게 됩니다.

따라서 결론을 뒷받침하는 핵심 주장에 대해서는 원천까지 파고들어 독립 소스 수를 다시 계산합니다.

나아가 주장의 유형에 따라 확신도의 기준을 전환합니다.

주장의 유형	예	확실성 담보	1차 대조
사실 추출계	재무 수치, 의결권 비율, 계약 문구	원본 그 자체	필수
...

사실 추출계는 원본을 확인할 수 없다면, 2차 기사가 아무리 많이 일치하더라도 확신도가 올라가지 않습니다.

반면, 애널리스트의 컨센서스나 시장 규모 추정에 대해 「1차 원본이 없으므로 확인 필요」를 기계적으로 적용하는 것은 과도한 유보이며, 정보의 가치를 훼손합니다.

확실성을 엄격하게 보는 규칙과 과도한 유보를 피하는 규칙을 모두 명문화하고 있습니다.

각 단계가 완료될 때마다 checkpoint.md에 반드시 추가 기록합니다.

주요 발견, 정량 데이터, 인과 분석, 파급 효과, 모순점, 핵심 주장의 원천, 그리고 가구조에 대한 시사점까지 기록합니다.

페이즈 3 구조의 개정

이 페이즈는 이 스킬의 특징적인 공정입니다.

모든 조사가 끝나면 먼저 checkpoint.md를 전체적으로 다시 읽습니다.

그 후, 각 단계에 기록한 가구조에 대한 시사점을 집약하여 가구조 structure.md를 개정합니다.

개정 시에는 장의 추가, 삭제, 분할, 순서 변경, 분석 요소의 변경, 정량과 정성의 비율 조정, 중심 주제의 미세 조정 등을 검토합니다.

「조사해 보니 예상치 못한 중요한 논점이 나왔다」라거나 「이 장은 정보가 부족하니 통합하자」와 같은 판단을 여기서 단 한 번 수행합니다.

개정 이유 또한 structure.md에 반드시 남깁니다.

고정 템플릿이라면 불필요한 공정이겠지만, 조사하여 알게 된 사실에 맞춰 구조를 다시 맞춘다는 설계를 실제로 성립시키는 것은 바로 이 페이즈입니다.

페이즈 4 리포트 작성

개정된 구조에 따라 report.md를 작성합니다.

동적으로 설계하는 것은 본문 섹션뿐이며, 다음의 공통 골격은 어떤 테마에서도 반드시 포함합니다.

**작성일**: YYYY-MM-DD JST
## 에그제큐티브 서머리 (Executive Summary)
(본문 섹션군 ← 동적으로 설계)
...

두 가지 메커니즘이 있습니다.

첫 번째는 전개 심도에 의한 두께 제어입니다 (output-calibration.md).

제어 대상은 분량이 아니라 전개의 깊이이며, 핵심 발견은 「사실, 인과, 파급, 함의(그래서 무엇인가)」의 4개 층까지 전개합니다.

단순한 사실의 나열이나 표를 배치한 채 방치하는 것으로는 멈추지 않습니다.

글자 수 할당량(quota)을 두지 않고, 깊이의 결과로서 분량이 생겨나도록 설계되어 있습니다.

두 번째는 문체 통제입니다 (tone-rules.md).

목표로 하는 것은 조사 회사, 투자 은행, 컨설팅 펌의 보고서 문체입니다.

단어 블랙리스트 방식이 아니라, 회피해야 할 7가지 「문장의 기능」으로 정의하고 있는 것이 특징입니다.

독자에 대한 질문이나 반어법
저자의 자기 언급 또는 메타 언급 (예: "본 보고서가 보여주는 것은" 등)
문학적인 비유를 통한 설명
판단의 완전한 유보
수사적인 반복이나 대구
과장이나 감정적인 강조
벤더(Vendor)식 수식어를 본문에 유용하는 것

이에 더해, LLM이 양산하기 쉬운 공허한 문구 ("중요한 것은 ~이다", "다각적으로", "심층적으로 파고들다" 등)나 중언부언도 배제합니다.

인용은 마크다운(Markdown)의 각주 표기법 [^N]으로 통일하며, 밴쿠버 방식(Vancouver style)으로 일련번호를 부여합니다.

핵심 주장의 각주에는 〔1차 대조〕, 〔2차·독립 복수〕, 〔확인 필요〕의 확신도 태그를 붙입니다.

페이즈 5 최종 대조

보고서 완성 후, 4가지 검증을 실시합니다.

문체 검증: 7가지 기능의 일탈을 셀프 체크와 grep으로 탐지하여, 본문의 일탈이 제로가 될 때까지 수정합니다.
인용 형식 검증: 각주 표기법의 금지 형태, 가공되지 않은 URL, 고립된 참조, 누락된 번호, 중복 등을 기계 스캔합니다.
체크포인트 대조 및 결론 검증: checkpoint.md의 발견 사항이 보고서에 반영되었는지, 결론의 5요소가 갖춰졌는지, structure.md의 개정이 실현되었는지 확인합니다.
출처 및 확신도 검증: 핵심 주장에 확신도 태그가 붙어 있는지, 허위 합의(False consensus)가 없는지, '확인 필요' 주장이 본문에서 헤지(Hedge) 표현으로 처리되었는지 확인합니다.

검증 결과는 verification.md에 기록합니다.

단순히 작성하고 끝내는 것이 아니라, 자기 채점과 수정까지 공정에 포함하고 있습니다.

사용법 및 주의사항

구동 트리거는 일본어라면 "깊게 조사해줘", "철저 조사", "딥 리서치", "포괄적으로 조사" 등이며, 영어라면 deep research, in-depth analysis, deep dive 등입니다.

입력은 다음과 같이 전달합니다.

생성형 AI의 전력 수요가 데이터 센터 입지와 전력망에 미치는 영향을 시나리오별로 철저히 조사해줘

실행 시에는 다음 사항에 주의하십시오.

1회 조사에 약 10~30분 정도 소요됩니다.
토큰(Token) 소비량이 많아집니다.
표준 웹 검색을 사용하지만, tavily나 brave가 있는 환경에서는 해당 도구도 병용합니다.
페이즈 4 이후부터는 도중에 명령 승인을 요구하는 경우가 많으므로, 전용 워크스페이스를 준비하고 자동 승인을 활성화해 두면 쾌적하게 작동합니다.

마치며

이 스킬의 요점은 세 가지입니다.

테마별로 다시 설계하는 동적 구조 설계, 조사 후 단 한 번 구조를 개정하는 2단계 구조 설계, 그리고 확실성을 출처까지 포함하여 계산하는 취득 다양성(Acquisition diversity)과 출처 다양성(Source diversity)의 분리입니다.

이와 더불어, 7가지 문장 기능으로 정의한 문체 통제와 4단계의 최종 대조를 통해 출력의 질을 공정으로서 담보하고 있습니다.

조사형 에이전트(Agent)를 구축할 때 참고가 되기를 바랍니다.

Insights