r/ClaudeAI분석2026. 04. 30. 05:20

Caveman 을 'be brief' 프롬프트와 벤치마크한 결과

요약

본 기사는 'Caveman'이라는 프롬프트가 실제로 출력을 간결하게 만드는지 검증하기 위해, 6가지 범주에 걸친 24개의 개발 프롬프트를 여러 구성(baseline, "be brief.", caveman lite/full/ultra)으로 비교한 결과를 담고 있습니다. 분석 결과, 'be brief.'라는 단 두 개의 단어만 사용해도 Caveman과 유사한 수준의 품질 점수와 현저히 낮은 토큰 수를 달성하는 것으로 나타났습니다. 따라서 압축 자체는 기대했던 만큼 차별화된 요소가 아니었으며, Caveman의 진정한 가치는 일관된 구조 유지, 모드 전환, 그리고 안전성 회피(safety escape) 능력에 있음을 발견했습니다.

핵심 포인트

단 두 단어('be brief.')만으로도 복잡한 'Caveman' 프롬프트와 유사한 품질 및 토큰 효율성을 달성할 수 있다.
프롬프트의 압축(간결화) 능력 자체는 기대만큼 차별적이지 않다.
Caveman의 핵심 가치는 출력 구조의 일관성 유지, 모드 전환 기능, 그리고 안전성 회피 메커니즘에 있다.
벤치마크 하네스 코드는 오픈 소스로 공개되어 있어 연구자들이 활용할 수 있다.

Caveman 이 매우 인기가 높아져서, 이것이 단순히 "be brief"라는 지시사항을 실제로 더 잘 수행하는지 궁금해했습니다.

6 가지 범주에 걸쳐 24 개의 개발 프롬프트를 실행하여 5 가지 구성 (baseline, "be brief.", caveman lite/full/ultra) 을 비교했습니다. 별도의 Claude 가 각 프롬프트별 평가 기준에 따라 점수를 매겼습니다.

점수:

Arm	평균 점수	평균 토큰 수
baseline	0.985	636
be brief.	0.985	419
caveman lite	0.976	401
caveman full	0.975	404
caveman ultra	0.970	449

놀랍게도 2 개의 단어만으로도 Caveman 과 토큰 수와 품질에서 맞먹었습니다. Caveman 은 일관된 출력 구조, 모드 전환, 그리고 파괴적 작업에 대한 안전성 회피 (safety escape) 에서 여전히 그 가치를 입증하지만, 압축 자체는 제가 예상했던 차별화 요소가 아니었습니다. 사실 안전성 회피가 출력의 변동성에 큰 영향을 미쳤습니다.

범주별 데이터와 안전성 질문에서의 변동성 발견에 대한 전체 분석: https://www.maxtaylor.me/articles/i-benchmarked-caveman-against-two-words

비디오: https://youtu.be/wijoYNiZq3M

관심 있으신 분을 위해 벤치마크 하네스는 오픈 소스입니다: https://github.com/max-taylor/cc-compression-bench

AI 자동 생성 콘텐츠

원문 바로가기

Caveman 을 'be brief' 프롬프트와 벤치마크한 결과

요약

핵심 포인트

댓글