Claude의 "당신 말이 전적으로 맞습니다!"라는 반사적 반응을 없애기 위해 Claude Code 플러그인을 제작하고 벤치마크를 수행했습니다.
요약
Claude Code 사용자가 겪는 아첨하는 반응(sycophancy)을 줄이기 위해, 성격 과학 프레임워크를 기반으로 한 'Candor' 플러그인을 개발했습니다. 이 플러그인은 Claude를 더 직설적이고 작업 중심적인 페르소나로 전환하여 답변의 품질과 일관성을 높이는 것을 목표로 합니다.
핵심 포인트
- 성격 과학 모델을 활용한 12가지 Claude 기술 세트 구현
- 아첨하는 답변을 줄여 품질 점수 및 블라인드 테스트 결과 개선
- 문서 부식을 방지하는 큐레이터 기술 포함
- 코드 실행 권한이 없는 안전하고 감사 가능한 구조
안녕하세요,
제가 작업해 온 성격 앱(personality app) 프로젝트를 포크(fork)하여, Claude Code를 사용하는 사람들에게 유용하고 도움이 될 수 있는 베이스라인으로 전환하기로 결정했습니다. 이 프로젝트가 포크된 원본 프로젝트는 수십만 번의 성격 몬테카를로 시뮬레이션(Monte Carlo simulations)을 통해 심층적으로 테스트되었기에, 이를 Claude의 기술(skills) 형태로 구현하면 어떤 모습일지 확인해 보기로 했습니다.
Candor는 Claude를 직설적이고 작업 특화된 페르소나(persona)로 전환하는 12가지 기술 세트입니다.
제 생각에는, 현대의 Claude는 이미 명백한 사항들에 대해 상당히 아첨하지 않는(non-sycophantic) 경향이 있어, 합격/불합격(pass/fail) 테스트에서는 거의 변화가 없었습니다. 하지만 품질 점수(quality score)에서 차이가 나타났습니다. 솔직한 답변들은 두 모델 모두 100점 만점의 루브릭(rubric)에서 약 6~7점 더 높게 평가되었고, 블라인드 테스트 결과 심사위원들은 약 3 대 1의 비율로 솔직한 답변을 선호했으며, 실행 시마다 결과가 더 일관적(consistent)이었습니다. 실제적인 효과는 있지만, 기적적인 수준은 아닙니다.
작업 모드 페르소나(work-mode personas)는 네 가지 확립된 성격 과학 프레임워크(5요인 모델(Five-Factor Model), 16가지 유형 모델(16-type model), 12가지 융/브랜드 원형(Jungian/brand archetypes), 그리고 Predictive Index 4가지 동기 모델(four-drive model))를 통한 분석을 바탕으로 도출되었습니다.
제가 가장 좋아하는 것이자 제 작업 흐름(workflow)에 크게 기반한 것은 큐레이터(curator) 기술입니다. 이 기술은 문서/위키가 부식되는 것을 방지합니다(오래된 정보를 표시하고 모순을 조정함). 만약 여러분이 이미 Obsidian과 함께 Karpathy의 LLM Wiki를 활용하고 있다면 사용하기에 가장 좋습니다. 여러분의 작업에도 유용하기를 바랍니다.
벤치마크, 문서 및 출처는 모두 리포지토리(repo)에 있습니다. MIT 라이선스이며, 텔레메트리(telemetry)는 없습니다. 실제 사람들이 직접 사용해 보고 무엇이 잘못되었는지 저에게 말해준다면 정말 감사하겠습니다!
https://github.com/d0t0gg91-ux/candor
안전 및 보안 관련 사항:
- 플러그인 내에 코드 실행 기능이 없습니다. 오직 Markdown과 JSON만 제공하며, 훅(hooks), MCP 서버, 또는 실행 파일(executables)은 포함되지 않습니다. (scripts/ 및 evals/ 폴더의 Python은 리포지토리 도구이며, 사용자가 직접 실행하거나 CI에서 실행될 뿐, 플러그인 동작으로 로드되지 않습니다.)
- 부여된 권한이 없습니다. 어떤 기술도 허용된 도구(allowed-tools)를 선언하지 않으므로, candor를 설치한다고 해서 Claude가 기존에 가지고 있지 않던 도구 접근 권한을 갖게 되지는 않습니다.
- 감사 가능(Auditable)합니다. 모든 행동 규칙은 SKILL.md 파일에 평이한 언어로 작성되어 있습니다.
그것들을 신뢰하기 전에 먼저 읽어보십시오. 이 조언은 누구로부터 얻은 어떤 기술(skill)에도 적용됩니다.
candor-security는 방어적인 목적으로만 사용됩니다. 이는 귀하가 소유하거나 테스트 권한을 가진 시스템을 검토하고 강화(harden)하는 데 도움을 주며, 권한이 없는 시스템을 공격하는 용도가 아닙.
제출자: /u/Specialist-Rub-7655
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/ClaudeAI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기