Caveman 을 'be brief' 프롬프트와 벤치마크한 결과
요약
본 기사는 'Caveman'이라는 프롬프트가 실제로 출력을 간결하게 만드는지 검증하기 위해, 6가지 범주에 걸친 24개의 개발 프롬프트를 여러 구성(baseline, "be brief.", caveman lite/full/ultra)으로 비교한 결과를 담고 있습니다. 분석 결과, 'be brief.'라는 단 두 개의 단어만 사용해도 Caveman과 유사한 수준의 품질 점수와 현저히 낮은 토큰 수를 달성하는 것으로 나타났습니다. 따라서 압축 자체는 기대했던 만큼 차별화된 요소가 아니었으며, Caveman의 진정한 가치는 일관된 구조 유지, 모드 전환, 그리고 안전성 회피(safety escape) 능력에 있음을 발견했습니다.
핵심 포인트
- 단 두 단어('be brief.')만으로도 복잡한 'Caveman' 프롬프트와 유사한 품질 및 토큰 효율성을 달성할 수 있다.
- 프롬프트의 압축(간결화) 능력 자체는 기대만큼 차별적이지 않다.
- Caveman의 핵심 가치는 출력 구조의 일관성 유지, 모드 전환 기능, 그리고 안전성 회피 메커니즘에 있다.
- 벤치마크 하네스 코드는 오픈 소스로 공개되어 있어 연구자들이 활용할 수 있다.
Caveman 이 매우 인기가 높아져서, 이것이 단순히 "be brief"라는 지시사항을 실제로 더 잘 수행하는지 궁금해했습니다.
6 가지 범주에 걸쳐 24 개의 개발 프롬프트를 실행하여 5 가지 구성 (baseline, "be brief.", caveman lite/full/ultra) 을 비교했습니다. 별도의 Claude 가 각 프롬프트별 평가 기준에 따라 점수를 매겼습니다.
점수:
| Arm | 평균 점수 | 평균 토큰 수 |
|---|---|---|
| baseline | 0.985 | 636 |
| be brief. | 0.985 | 419 |
| caveman lite | 0.976 | 401 |
| caveman full | 0.975 | 404 |
| caveman ultra | 0.970 | 449 |
놀랍게도 2 개의 단어만으로도 Caveman 과 토큰 수와 품질에서 맞먹었습니다. Caveman 은 일관된 출력 구조, 모드 전환, 그리고 파괴적 작업에 대한 안전성 회피 (safety escape) 에서 여전히 그 가치를 입증하지만, 압축 자체는 제가 예상했던 차별화 요소가 아니었습니다. 사실 안전성 회피가 출력의 변동성에 큰 영향을 미쳤습니다.
범주별 데이터와 안전성 질문에서의 변동성 발견에 대한 전체 분석: https://www.maxtaylor.me/articles/i-benchmarked-caveman-against-two-words
비디오: https://youtu.be/wijoYNiZq3M
관심 있으신 분을 위해 벤치마크 하네스는 오픈 소스입니다: https://github.com/max-taylor/cc-compression-bench
AI 자동 생성 콘텐츠
본 콘텐츠는 r/ClaudeAI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기