정보의 신뢰성을 체계적으로 평가하는 2가지 Claude Skill을 공개했으므로, 그 권장 유스케이스를 제안합니다

서론

정보의 신뢰성을 체계적으로 평가하는 2가지 Claude Skill을 공개하고 있습니다.

shuji-bonji/factcheck-skill — 20개 항목 × 4개 카테고리로 "사실의 정확성"을 검증
shuji-bonji/media-literacycheck-skill — 30개 항목 × 6개 카테고리로 "정보가 전달되는 방식"을 평가

본 기사에서는 "실제로 어떤 상황에서 사용할 수 있는지"를 입장별·장면별로 정리합니다. 설치 절차는 각 리포지토리(Repository)의 README를 참조해 주세요.

2가지 Skill의 차이

혼동하기 쉽지만, 팩트 체크(Fact Check)와 미디어 리터러시 체크(Media Literacy Check)는 성질이 다릅니다.

팩트 체크	미디어 리터러시 체크
무엇을 확인하는가	개별 주장·데이터가 사실인가
...	...

양자는 대립하는 것이 아니라 상호 보완적인 관계에 있습니다. "사실은 맞지만 발신 의도에 편향이 있는" 정보도 많고, "발신자는 성실하지만 인용된 데이터가 오래된" 경우도 있습니다. 그렇기 때문에 2가지 Skill은 입장이나 목적에 따라 구분해서 사용하는 것입니다. 양쪽 모두 설치해 두고 상황에 따라 호출하는 것이 기본입니다.

구분 사용의 전체상

먼저, 어느 것을 언제 사용할지에 대한 정리입니다.

상황	제1후보	보충
투자·건강·과학적 주장의 진위	factcheck-skill	1차 정보·방법론 확인이 중심
...	...	...

이후부터는 입장별 구체적 유스케이스(Use Case)입니다.

1. 개인 사용자용 — 가장 강력한 유스케이스

가장 일상적으로 효과적인 것은 개인 이용입니다.

1-1. 뉴스·SNS 정보의 일상 검증

X(구 Twitter)나 note, Qiita 등에서 흘러나오는 정보의 진위를 그 자리에서 평가할 수 있습니다.

호출 예시:

"이 기사를 팩트 체크해줘"

"이 X 게시물의 리터러시를 평가해줘: https://x.com/..."

"이 주장의 신뢰성을 30개 항목으로 평가해줘"

출력 이미지:

## 미디어 리터러시 평가 리포트
### 평가 대상
- 제목: "○○이 △△를 발표"
...

"확산시켜야 하는가"를 판단하는 재료로 사용할 수 있습니다.

1-2. 투자·건강·교육 등 리스크가 높은 정보의 정밀 조사

"○○하면 반드시 돈을 번다", "△△로 병이 낫는다" 계열의 정보는 특히 엄격하게 평가할 필요가 있습니다.

호출 예시:

"이 투자 정보의 신뢰성을, 특히 방법론과 이해관계 공개 관점에서 엄격하게 체크해줘"

"이 건강법에 대해 1차 정보가 있는지, 그리고 전문가 평가가 있는지 확인해줘"

factcheck-skill의 크리티컬(Critical) 평가 6개 항목(권위 있는 정보원·1차 정보·복수 독립 정보원·익명성·선동적 표현·논리성)으로 대부분의 수상한 정보는 걸러낼 수 있습니다.

1-3. 아이들의 정보 리터러시 교육

평가 리포트를 아이와 함께 봄으로써, "왜 이 정보를 의심해야 하는가"를 구조적으로 설명할 수 있습니다.

호출 예시:

"이 YouTube 썸네일과 제목을 아이와 함께 보기 위한 교재로서 평가해줘. 클릭베이트(Clickbait) 판단 기준을 알기 쉽게 해설해줘"

media-literacycheck-skill의 카테고리 5: 시각적 요소(썸네일·그래프 조작·이미지 가공 여부)는 아이들이 평소 접하는 콘텐츠의 이면을 보여주기에 적합합니다.

1-4. 자기 자신의 AI 출력 검증

ChatGPT, Claude, Gemini, Perplexity 등의 출력을 그대로 믿기 전에, 할루시네이션(Hallucination) 탐지를 겸한 체크를 할 수 있습니다.

호출 예시:

"방금 전 Claude의 답변을 독립 sub-agent로서 리터러시 체크해줘. 특히 인용 논문이 실재하는지 WebSearch(웹 검색 기능)로 확인해줘"

양쪽 Skill의 sub-agent 모드(agents/ 하위의 독립 검증 에이전트)가 특히 효과적입니다. 자기 평가 편향(Self-evaluation bias)을 배제하기 위해, 메인 에이전트의 대화 문맥을 전달하지 않고 평가하게 합니다.

2. 비즈니스·프로페셔널용

업무에서의 정보 정밀 조사에도 사용할 수 있습니다.

2-1. 저널리스트·라이터

취재 전 정보원 스크리닝:

「이 정보원을 취재 후보로서 평가해줘. 발신자의 전문성, 과거 발신의 일관성, 이해상충(Conflict of Interest) 여부를 체크해줘」

기사 공개 전 최종 검증:

「이 원고의 사실관계를 20개 항목으로 검증해줘. 특히 인용원의 확인 가능성과 방법론의 타당성을 엄격하게 봐줘」

팩트체크 기관(FIJ, JFC 등)의 검증 결과도 SKILL 내에서 참조하도록 설계되어 있으므로, 기지의 허위 정보 패턴에 걸려든 경우에는 경고가 발생합니다.

2-2. PR·홍보 담당

자사 발신 리스크 체크:

「이 보도자료 초안을 제3자의 시점에서 리터러시 체크(Literacy Check)해줘. 자극적인 표현과 균형 잡힌 시점 항목을 엄격하게 봐줘」

자사의 발신이 「지나치게 자극적」이거나 「편향적」이지 않은지 셀프 체크할 수 있습니다.

경쟁사 정보 검증:

「이 경쟁사의 캠페인 발표 기사를 팩트체크해줘. 과장 표현, 인용원, 데이터의 재현성을 확인해줘」

2-3. 리서처·애널리스트

시장 조사·정책 조사:

「이 컨설팅 회사의 리포트를 평가해줘. 샘플 수, 통계 기법, 데이터의 공개성 및 스폰서십 공개 여부를 확인해줘」

조사 리포트는 출처가 명확하더라도, 샘플이 편향되어 있거나 / 스폰서 기업에 유리한 관점인 경우가 많기 때문에, factcheck-skill의 카테고리 4: 문맥·편향 평가가 효과적입니다.

2-4. 컨설턴트

클라이언트 제언의 근거 뒷받침:

「이 제언서의 데이터 부분을 모두 팩트체크해줘. 각 통계의 출처, 연도, 조사 방법을 확인하고 신뢰성 스코어를 항목별로 산출해줘」

클라이언트 앞에서 "이 데이터의 출처는 무엇입니까?"라는 질문을 받고 대답하지 못하는 상황을 방지할 수 있습니다.

3. 조직·교육 기관용

3-1. 기업 내 연수

미디어 리터러시 연수·정보 보안 연수의 실전 교재로 사용할 수 있습니다.

연수 시나리오 예시:

연수 참가자에게 「명백히 이상한 정보」, 「다소 의심스러운 정보」, 「신뢰할 수 있는 정보」 3가지를 배포
Skill로 평가하게 하여 스코어와 판단 근거를 제시
「인간의 직관」과 「30개 항목 체크」 사이의 격차를 토론

평가 리포트에 판단 근거가 명시되기 때문에, 연수 참가자가 「왜 그렇게 판정되었는지」를 이해하기 쉽다는 것이 장점입니다.

3-2. 학교·대학교

정보 리터러시 수업:

「이 Wikipedia 기사를 30개 항목으로 평가해줘. 학생이 읽을 때 어떤 점을 의심해야 하는지 알기 쉽게 해설해줘」

논문·리포트 지도:

「학생의 리포트(첨부)에 대해 인용원의 신뢰성과 방법론의 타당성을 20개 항목으로 평가해줘. 개선점을 학생에게 피드백하는 형태로 작성해줘」

3-3. 팩트체크 단체

전문 기관에 의한 정식 검증 전의 초기 스크리닝 용도.

요청 예시:

「앞으로 검증할 후보 10건에 대해 각각의 신뢰성을 일괄 평가해줘. 크리티컬 평가에서 ❌가 4개 이상인 것을 우선 검증 대상으로 리스트업해줘」

트리아지(Triage) 방식으로 사용함으로써, 한정된 팩트체커의 리소스를 중요한 안건에 집중할 수 있습니다.

3-4. 행정·싱크탱크

정책 관련 정보의 다각적 평가:

「이 정책 제언을 factcheck-skill로 사실관계를 검증한 후, media-literacycheck-skill로 발신 의도 및 이해관계도 평가해줘. 두 결과를 통합 리포트로 작성해줘」

두 가지를 순차적으로 실행하여 결과를 통합하는 패턴은 정책 연구나 규제 영향 평가에 적합합니다.

4. 선진적인 유스케이스

여기서부터는 응용편입니다.

4-1. AI 답변의 메타 검증 (이중 체크)

여러 LLM의 출력을 상호 검증하는 구조를 구축할 수 있습니다.

요청 예시:

「Claude / ChatGPT / Gemini에 동일한 질문을 던진 3가지 답변을 각각 독립적으로 factcheck-skill로 평가해줘. 특히 할루시네이션(Hallucination, 실재하지 않는 논문 인용·잘못된 수치)의 유무를 비교해줘」

AI 출력의 신뢰성 비교 벤치마크로도 사용할 수 있습니다.

4-2. 실시간 모니터링

특정 토픽(선거, 재해, 의료 정보, 신흥 기술)에 대해 정보 흐름을 지속적으로 평가하는 용도.

스케줄 실행과 조합하기:

매일 아침 9시에, 지난 24시간 동안의 "#관심해시태그" 게시물 중
확산수 상위 10건을 가져와서 각각 리터러시 체크를 수행하고
리포트를 Slack에 게시한다

선거 기간 중의 허위 정보 모니터링, 재해 발생 시의 유언비어 탐지, 의료 관련 토픽의 광고/PR 식별 등, 지속적인 관측이 필요한 상황에 적합합니다.

4-3. 콘텐츠 작성 시의 가드레일 (Guardrail)

블로그나 YouTube 원고를 작성할 때, 병행하여 Skill을 실행하여 자기 점검을 수행합니다.

프롬프트 호출 예시:

"지금 쓰고 있는 기사의 최신 버전을 media-literacycheck-skill로 평가해줘. 특히 감정적·선동적인 표현이 적은지, 균형 잡힌 시각을 유지하고 있는지, 이해상충(Conflict of Interest) 공시가 되어 있는지를 확인해서 부족한 부분을 지적해줘."

글을 쓰면서 "내가 지금 어느 방향으로 편향되어 있는가"를 구조적으로 확인할 수 있습니다. 광고/PR 기사를 작성할 때의 법적 리스크 체크(광고와 기사의 구분이 명확한가)에도 유효합니다.

4-4. 학술·연구 분야에서의 응용

논문 서베이 (Survey):

"이 리서치 퀘스천(Research Question)과 관련된 논문 5편을 WebSearch로 수집해서, 각 논문의 방법론·샘플 수·이해상충 공시를 factcheck-skill의 카테고리 3: 검증·대조로 평가하고, 신뢰성 순으로 랭킹을 매겨줘."

프리프린트 (Preprint) 평가:

"arXiv의 이 논문(피어 리뷰 전)을 20개 항목으로 평가해줘. 피어 리뷰를 거치지 않은 정보를 인용할 때 주의해야 할 점을 정리해줘."

주의점과 한계

유스케이스 소개만으로는 부족하므로, 한계점도 정리합니다.

Skill의 한계

LLM의 지식 컷오프 (Knowledge Cutoff)에 의존합니다. 최신 정보에 대해서는 WebSearch를 병용하지 않으면 평가가 오래된 정보가 될 수 있습니다.
흑백을 가리는 도구가 아닙니다. 스코어는 "상대적인 신뢰성의 지표"일 뿐, 절대적인 진위 판정이 아닙니다.
평가 항목 자체에 주관이 들어갑니다. "권위 있는 정보원"의 정의는 문화와 분야에 따라 달라집니다. 일본의 미디어 환경을 전제로 제작되었기에, 해외 정보 평가 시에는 다소 편향될 가능성이 있습니다.
이미지·동영상의 직접적인 진위 판정은 불가능합니다 (이미지 조작 여부는 LLM이 간파할 수 없습니다). Google 이미지 검색이나 TinEye를 통한 역검색을 병용할 필요가 있습니다.

권장되는 운용 방식

중요한 판단은 Skill 단독으로 결정하지 마세요. 어디까지나 "인간의 판단을 보조하는" 도구로 사용합니다.
여러 정보원을 통해 크로스 체크(Cross-check)하기 전 단계의 스크리닝 용도로 사용합니다.
평가 결과를 공유할 때는 근거(어떤 항목이 ❌가 되었는지)도 함께 전달하세요. 스코어만 따로 돌아다니지 않게 해야 합니다.

입장별 추천 호출 목록

마지막으로, 입장별 "첫 마디"를 정리해 둡니다. 복사해서 사용할 수 있습니다.

입장	첫 호출 문구
개인 사용자	"이거 미디어 리터러시 체크해줘 👉 [URL]"
...

요약

팩트 체크/미디어 리터러시 체크 Skill은 한 번 만들고 끝나는 것이 아니라, 입장과 목적에 따라 나누어 호출하는 도구입니다.

처음에는 개인적으로 일상 정보 확인에 사용하고, 익숙해지면 sub-agent 모드로 AI 출력의 메타 검증, 나아가 스케줄 실행을 통한 지속 모니터링 등 단계적으로 응용 범위를 넓힐 수 있습니다.

"흑백을 가리는 마법의 지팡이"가 아니라, "내가 정보의 어떤 측면을 놓치고 있는가"를 구조적으로 알려주는 사고의 보조 바퀴로 사용할 때 가장 가치가 높다고 생각합니다.

왜 두 개의 Skill로 나누었는지, SKILL.md를 어떻게 설계했는지, Anthropic Plugin Marketplace에 어떻게 공개할 것인지 등 구현과 설계 판단의 상세 내용은 관련 기사에 정리해 두었습니다.

정보의 신뢰성을 체계적으로 평가하는 2가지 Claude Skill을 공개했으므로, 그 권장 유스케이스를 제안합니다

요약

핵심 포인트

서론

2가지 Skill의 차이

구분 사용의 전체상

1. 개인 사용자용 — 가장 강력한 유스케이스

1-1. 뉴스·SNS 정보의 일상 검증

1-2. 투자·건강·교육 등 리스크가 높은 정보의 정밀 조사

1-3. 아이들의 정보 리터러시 교육

1-4. 자기 자신의 AI 출력 검증

2. 비즈니스·프로페셔널용

2-1. 저널리스트·라이터

2-2. PR·홍보 담당

2-3. 리서처·애널리스트

2-4. 컨설턴트

3. 조직·교육 기관용

3-1. 기업 내 연수

3-2. 학교·대학교

3-3. 팩트체크 단체

3-4. 행정·싱크탱크

4. 선진적인 유스케이스

4-1. AI 답변의 메타 검증 (이중 체크)

4-2. 실시간 모니터링

4-3. 콘텐츠 작성 시의 가드레일 (Guardrail)

4-4. 학술·연구 분야에서의 응용

주의점과 한계

Skill의 한계

권장되는 운용 방식

입장별 추천 호출 목록

요약

관련 링크

Discussion

댓글