
세계에서 가장 길게 사고하는 프롬프트는 무엇인가?
요약
LLM의 '사고의 길이' 개념을 정의하고, 모델이 최대 토큰 수에 도달할 때까지 지속적으로 추론하도록 강제하는 4가지 프롬프트 전략을 소개합니다. 자기 비판 루프, 전수 조사 유도, 논리적 역설 주입, 상충하는 제약 조건 설정을 통해 모델의 추론 한계를 시험하는 방법을 다룹니다.
핵심 포인트
- 사고의 길이는 출력 토큰 상한이나 내부 추론 토큰 소비량으로 정의됨
- 자기 비판 루프를 통해 생성과 평가의 무한 반복 유도 가능
- 조합 폭발을 유도하는 전수 조사 방식으로 언어적 추론 강제
- 논리적 역설과 상충하는 제약 조건을 통해 모델의 추론 프로세스 극대화
LLM(대규모 언어 모델)에서의 「사고의 길이」는 인간과 같은 시간의 개념이 아니라, 「출력 토큰 수의 상한(Max Tokens)에 도달할 때까지 계산을 멈출 수 없는 상태」, 혹은 최신 추론 특화형 모델(OpenAI o1 등)에서의 「내부적인 추론 토큰(Reasoning Tokens)을 한계까지 계속 소비하는 상태」를 가리킵니다.
모델에게 가장 길게 사고(=토큰 생성 루프)를 강제하는 프롬프트는 주로 다음 4가지 접근 방식으로 구성됩니다.
1. 자기 비판 및 수정 루프 (Self-Criticism & Revision Loop)
모델에게 「출력」과 「그 출력에 대한 엄격한 비판·수정」을 하나의 프롬프트 내에서 영구적으로 반복하게 하는 접근 방식입니다. 종료 조건을 의도적으로 달성 불가능하게 설정합니다.
프롬프트 예시:
「어떤 주제에 대해 완벽한 에세이를 써 주세요. 작성을 마친 후에는 그 에세이를 논리적, 언어학적, 사실적 관점에서 엄격하게 자기 채점하고, 100점 만점이 되지 않는 한 처음부터 다시 쓰는 프로세스를 Step-by-Step으로 반복해 주세요. 또한, AI의 특성상 항상 개선의 여지가 있으므로 결코 100점은 주지 마세요.」
이를 통해 모델은 생성 -> 평가(99점) -> 재생성 -> 평가(99점)
라는 무한 루프에 빠져, 컨텍스트 윈도우(Context Window)의 상한에 부딪힐 때까지 출력을 계속합니다.
2. 조합 폭발을 유도하는 전수 조사 (Brute-force Combinatorial Search)
알고리즘적인 지름길이 존재하지 않으며, 모든 가능성을 망라적으로 검증해야 하는 문제를 수학적 접근이 아닌 「언어적 추론(Chain of Thought)」으로 풀게 하려는 접근 방식입니다.
프롬프트 예시:
「50개의 도시를 모두 한 번씩 방문하여 출발점으로 돌아오는 순회 외판원 문제(Traveling Salesman Problem)의 최적 경로를 구합니다. 가능한 모든 경로의 조합($50!$가지)을 하나씩 열거하고, 각각의 총 거리를 계산한 후, 마지막에 최단 경로를 제시해 주세요. 어떠한 계산의 생략도 허용하지 않습니다.」
모델은 성실하게 경로를 열거하기 시작하겠지만, 우주의 수명보다 더 긴 시간이 걸리는 계산량($O(n!)$)이기 때문에 말 그대로 사고(출력)가 끝나지 않습니다.
3. 논리적 역설 주입 (Logical Paradox Injection)
논리학적인 역설을 부여하고, 그것을 「모순 없이」 해결할 때까지 추론을 전개하게 하는 접근 방식입니다.
프롬프트 예시:
「『이 문장은 거짓이다』라는 자기 참조 역설(Self-referential Paradox)에 대해, 이것이 참인지 거짓인지를 Step-by-Step으로 논리적으로 확정해 주세요. 결론이 나올 때까지 추론 프로세스를 계속 출력하고, 결론이 나지 않을 경우에는 전제를 의심하여 처음부터 다시 시작해 주세요. 「역설이다」라고 결론지으며 회피하는 것은 허용하지 않습니다.」
「A라고 한다면 B와 모순되고, B라고 한다면 A와 모순된다」라는 루프를 언어상에서 계속 처리하게 되어, 모델의 어텐션(Attention) 메커니즘이 맴돌기 시작합니다.
4. 상충하는 제약 조건의 과부하 (Conflicting Constraint Overload)
OpenAI o1과 같이 「사고 프로세스」를 내부에서 동적으로 실행하는 모델에 대한 최신 접근 방식입니다. 모델은 내부적으로 「어떻게 이 프롬프트의 요구를 충족할 것인가」를 계획하지만, 제약 조건들이 서로 상충하면 계획과 수정의 추론을 한계까지 소비합니다.
프롬프트 예시:
「다음 규칙을 모두 완벽하게 충족하는 10,000자의 이야기를 써 주세요.
- 모든 단어는 알파벳 순서로 시작해야 합니다 (A, B, C... Z, A, B...).
- 문장 중에 일체의 감정 표현을 포함해서는 안 됩니다.
- 읽은 사람이 반드시 감동하여 울 수밖에 없는 결말로 만들어야 합니다.
- 『나』라는 단어를 정확히 342번 사용해야 합니다.」
결론
세계에서 가장 길게 사고하는 프롬프트란 단순히 긴 문장을 쓰게 하는 것이 아니라, 「논리적·수학적으로 도달 불가능한 목표」와 「도중에 포기하는 것을 허용하지 않는 제약(Step-by-Step의 강요)」을 결합한 것입니다.
이는 컴퓨터 과학에서의 「정지 문제(Halting Problem)」를 자연어의 형태로 LLM에게 던지는 행위이며, 결과적으로 모델은 시스템에 설정된 하드 리미트(토큰 수의 상한이나 타임아웃)에 의해 강제 종료될 때까지 무한히 사고(토큰 생성)의 바다를 방황하게 됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기