ClaudeCode와 Gemini의 반증 루프로 시장 조사부터 요구 사항 정의까지
요약
이 글은 AI 모델(ClaudeCode와 Gemini) 간의 '반증 루프(Falsification Loop)'를 활용하여 시장 조사부터 요구 사항 정의에 이르는 기획 과정을 심화시키는 방법을 설명합니다. 필자는 ClaudeCode가 결론을 내리려는 경향과 Gemini의 환각 문제를 각각 약점으로 인식하고, 두 모델을 비관적인 관점에서 맞붙여 서로의 단점을 보완하게 함으로써 다각적이고 깊이 있는 결과물을 도출하는 루틴을 구축했습니다.
핵심 포인트
- AI 모델 간의 '반증 루프'를 통해 기획 및 조사 과정을 심화시킬 수 있다.
- ClaudeCode는 결론을 내리려는 경향이 강하므로, 의식적으로 끈질기게 질문하여 깊이를 유지해야 한다.
- Gemini와 ClaudeCode를 비관적인 관점에서 맞붙여 서로의 약점(환각, 조기 합의)을 보완하는 것이 핵심이다.
- 비용 효율성을 고려하여 토론 역할에는 무료 티어가 제공되는 `gemini-3.1-flash-lite`를 활용한다.
- 최종 결과물은 AI에게 맡기는 것이 아니라, AI 간의 마찰 과정을 관찰하며 필자가 판단 재료를 모으는 방식으로 완성해야 한다.
ClaudeCode와 Gemini의 반증 루프로 시장 조사부터 요구 사항 정의까지
서론
ClaudeCode를 메인으로 두고 여러 가지를 계속 질문하고 있습니다만, 한 가지 신경 쓰이는 점이 있습니다.
무엇을 물어보든 내버려 두면 그럴싸한 결론을 내고 이야기를 마무리 지으려는 습관이 있다는 것입니다. 정말 그것이 맞는지, 조사에서 누락된 것은 없는지 끈질기게 물으면 심층적으로 파고들어 주지만, 아무 말도 하지 않으면 "완료했습니다. 태스크를 업데이트해도 될까요?"라며 끝나버립니다. 언뜻 보기에 그럴듯한 대답을 돌려주기 때문에, 지식이 없는 영역이라면 알아채지 못한 채 끝나버릴 수도 있습니다.
그래서 도입하고 있는 것이, ClaudeCode가 내놓은 결론을 Gemini(구체적으로는 gemini-3.1-flash-lite)가 비관적인 관점에서 논파하게 만드는 방법입니다. 거친 반론이라도 좋으니 흔들어 놓으면, ClaudeCode가 "아니, 그것은 틀립니다"라며 근거를 제시하는 과정에서 이야기가 깊어지는 것이 목적입니다. 상세한 내용은 뒤에서 쓰겠습니다.
나의 루틴
대략적으로 말하면, ClaudeCode에게 손을 움직이게 하여 조사하게 하고, 어느 정도 방향성이 보일 때쯤 Gemini와 토론하게 하며, 그 결과를 제가 읽고 지적한 뒤, 다시 한번 토론하게 하는 사이클을 돌리고 있습니다.
저는 이 반증 루프를 신규 앱의 시장 조사나 기획 단계에서의 방침 결정, 그리고 그것을 바탕으로 한 요구 사항 정의(Requirements Definition)까지 폭넓은 장면에서 사용하고 있습니다. 혼자 생각하다 보면 놓치기 쉽거나 조기 합의 형성이 일어나기 쉬운 부분을, AI 두 대를 맞붙임으로써 다각적으로 다듬는 것이 목적입니다.
구체적으로는 다음과 같은 흐름입니다.
- ClaudeCode에게 조사 테마를 던져주고, 벽치기(Wall-hitting, 아이디어 브레인스토밍)를 하며 일단 철저히 조사하게 한다. 웹 검색, 공식 문서 참조, 실기 검증을 위한 스크립트 작성까지 시킨다.
- 방향성이 정리되면, ClaudeCode가 내놓은 결론을
gemini-3.1-flash-lite에게 "비관적인 관점에서"라고 지시하여 논파하게 한다. (ClaudeCode 측이 내부적으로 배경, 자기 신고의 맹점 리스트, 기대하는 답변 형식까지 포함하는 구조화된 프롬프트(Structured Prompt)로 확장하여 Gemini에게 던지는 동작을 취하는 듯합니다.) - 나온 반론을 제가 읽고, 더 다듬어야 할 포인트를 지적한다.
- 어느 한쪽이 반론을 다 쏟아낼 때까지 반복시킨다. 합의했다고 해서 끝내는 것이 아니라, 소재가 다 떨어질 때까지 철저하게 끈질기게 시킨다.
- 토론 라운드별 로그는 Markdown으로 남기고, 그것을 바탕으로 한 최종 결론은 별도로 HTML로 정리하게 한다.
포인트는 두 가지가 있습니다.
첫째, 바로 결론으로 가게 하지 않는 것입니다. ClaudeCode는 내버려 두면 제대로 조사하지 않은 채 적당히 정리해서 끝내려는 습관이 있습니다. 언뜻 그럴듯한 결론을 내놓기 때문에, 제가 주의 깊게 보고 있지 않으면 어느샌가 완료된 상태가 되어버리므로 의식적으로 끈질기게 물고 늘어질 필요가 있습니다.
둘째, 양측을 비관적인 관점에서 맞붙이는 것입니다. "이 결론은 정말 옳은가", "반증은 없는가", "데이터 부족은 아닌가"를 서로 찾게 합니다. 납득할 때까지, 객관적인 데이터를 갖출 때까지 끝내지 않습니다.
왜 이런 분담인가
ClaudeCode 단독으로는 시야가 좁아지기 쉽고, 무엇보다 빨리 정리해서 끝내려는 경향이 강합니다. 이는 AI로서 악의가 있는 것이 아니라, 사용자(저)의 질문에 "답"을 돌려주고 싶은 강한 인센티브가 내재되어 있어, 불확실한 상태로 돌려주는 것보다 결론을 내는 쪽을 우선하는 것으로 보입니다.
Gemini 단독으로 사용하면 할루시네이션(Hallucination)이 많습니다(물론 ClaudeCode도 있습니다). 사실과 다른 URL을 실재하는 것처럼 생성하거나, 근거가 약한 주장을 단정적인 형태로 쓰기도 합니다. 각각의 대화만 보면 알아채기 어렵지만, ClaudeCode에게 Gemini의 발언을 검증하게 하면 많은 오류가 나옵니다.
그런데 서로 토론하게 하면 각각의 약점이 보완됩니다. ClaudeCode의 조기 수렴을 Gemini가 (거칠지만) 파고들어 흔들고, Gemini의 환각을 ClaudeCode가 실기 검증으로 없앱니다. 둘 다 완벽하지는 않지만, 토론 과정에서 결과적으로 타당한 범위로 수렴해 가는 경우가 많습니다.
두 AI 모두 자신만만하게 틀리기 때문에, 최종 판단은 제가 해야 합니다. AI에게 통째로 맡기는 것이 아니라, AI 사이의 마찰을 관찰하면서 자신의 판단 재료를 모으는 스타일입니다.
모델 선정의 현실
토론 역할에는 gemini-3.1-flash-lite를 사용하고 있습니다. 이유는 비용 때문입니다.
gemini-3.1-pro
gemini-3.1-pro가 당연히 더 똑똑하지만, API로서는 애초에 무료 티어 (Free Tier)가 마련되어 있지 않습니다 (AI Studio Web UI에서의 시용은 제한적으로 가능하지만, 스크립트로 호출하는 운용은 유료 티어 (Paid Tier)가 필수입니다). 유료 티어로 결제하여 돌리는 선택지도 있지만, 토론을 빈번하게 한다는 전제하에서는 수지타산이 맞지 않습니다.
gemini-3.1-flash-lite라면 무료 티어가 마련되어 있으며 (2026년 5월 시점에서 15 RPM · 500 RPD 정도, 프로젝트/지역에 따라 변동되므로 최신 정보는 AI Studio 대시보드에서 확인하십시오), 실제 토론은 1개 의제당 몇 턴이면 반론 소재가 고갈되는 경우가 많기 때문에 무료 티어 범위 내에서 충분히 돌릴 수 있습니다.
환각 (Hallucination) 발생률은 Pro가 더 낮겠지만, 토론의 장에서는 ClaudeCode가 사실 검증을 하는 측으로 돌아가기 때문에 Flash-Lite의 거친 정도는 큰 문제가 되지 않습니다. 오히려 Flash-Lite가 엉뚱한 반론을 내놓는 편이, ClaudeCode가 "아니, 그것은 틀렸습니다. 이유는 이렇습니다"라며 근거를 제시하게 하므로 결과적으로 이야기가 깊어집니다.
출력 포맷
토론의 라운드별 주고받은 내용은 Markdown으로 기록합니다. 이는 ClaudeCode가 이후 세션에서 동일한 테마를 다시 읽을 때의 저장소로서 기능합니다. 동일한 토픽의 속편이나 파생 조사를 할 때, 과거의 토론을 ClaudeCode가 문맥과 함께 다시 집어 올려주기 때문에 처음부터 다시 구성할 필요가 없습니다.
토론을 바탕으로 한 최종 결론은 별도로 HTML로 정리하게 합니다. 테이블이나 색상 구분이 효과적이어서, 제가 나중에 확인하고 싶을 때 시인성이 높습니다. Markdown 상태로 두면 표가 깨지거나 강조가 단조로워지기 때문에, 최종본만 HTML로 정형화하도록 하고 있습니다.
토론 로그 자체는 HTML화하지 않습니다. 어디까지나 "논의의 생(raw) 로그는 Markdown, 결론 요약은 HTML"이라는 분업입니다. 정형화는 ClaudeCode가 전부 해주기 때문에, 저는 구성과 논점만을 지시합니다.
이 방식의 한계
이 루틴은 만능이 아닙니다.
둘 다 AI이기 때문에, 유사한 정보원으로부터 유사한 오류를 공유하고 있는 경우가 있습니다. 토론에서 "양측 합의"에 도달하더라도, 그 합의 자체가 틀려 있을 수 있으므로 최종적인 사실 확인 (Fact-check)은 제가 공식 문서나 실제 기기로 확인할 수밖에 없습니다.
또 하나 자주 발생하는 것은 정보가 오래된 채로 답변하는 문제입니다. 서비스 명칭의 리브랜딩이나 요금 체계의 변경 등을 AI가 가지고 있는 오래된 지식 베이스로 대답해 버리는 경우가 있습니다. 회피책으로서 조사 의뢰 문두에 "2026년 5월 시점의 정보로"라고 날짜를 명시하도록 하고 있습니다. 최신 버전을 참조하라는 지시가 암묵적으로 포함되므로, 웹 검색이나 공식 문서의 당일 참조로 움직일 확률이 높아집니다.
이러한 주의점은 있지만, 혼자서 전부 조사하는 것보다 빠릅니다. AI 두 대에게 거친 가설과 반론을 내놓게 한 뒤에 제가 사실 확인에 들어가는 편이 놓치는 부분을 줄일 수 있습니다.
차회 예고
본 기사에서는 Gemini의 무료 티어로 할 수 있는 활용 방법을 다루었습니다. 다음 회차는 유료 범위에 대한 이야기입니다. Google AI Pro 가입 특전인 월 10달러 Google Cloud 크레딧과, 신규 GCP 프로젝트 생성 시의 300달러 Free Trial, 이 두 가지를 병용하여 Nano Banana 2 (gemini-3.1-flash-image-preview)의 이미지 생성을 실비 거의 제로로 구동하는 실험 이야기를 쓰겠습니다.
공식 문서의 명분과 실제 동작 사이에 괴리가 있어, 포럼에서도 보고가 갈리는 테마였습니다. 최종적으로는 실제 기기의 크레딧 소비 화면 숫자로 결론을 내린 기록입니다.
다음 기사로 이어집니다.
다른 플랫폼에서도 공개
본 기사는 Zenn과 Substack 양쪽에서 공개하고 있습니다. 동일한 내용입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기