oh-my-knowledge
요약
LLM의 프롬프트, RAG 코퍼스, 에이전트 워크플로우 등 지식 입력값의 성능을 평가하기 위한 프레임워크입니다. 모델을 고정한 상태에서 다양한 아티팩트의 변화에 따른 성능을 통계적으로 엄격하게 검증할 수 있습니다.
핵심 포인트
- 프롬프트, RAG, 에이전트 워크플로우 평가 지원
- Bootstrap CI 및 Krippendorff α 등 통계적 엄격성 제공
- 길이 편향 제거 및 포화 곡선 분석 기능 포함
- 모델 대신 입력 아티팩트의 변화에 집중하는 평가 방식
Repository: lizhiyao/oh-my-knowledge
Language: TypeScript
Stars: 11
Forks: 2
Topics: agent-evaluation, ai, benchmark, bootstrap-ci, claude, claude-code, evaluation-as-code, evaluation-framework, knowledge-engineering, krippendorff-alpha, llm, llm-evaluation, llm-judge, multi-judge-ensemble, prompt-engineering, prompt-testing, rag-evaluation, skill-evaluation
Description:
LLM 지식 입력(프롬프트, RAG 코퍼스, 스킬, 에이전트 워크플로우)을 위한 평가 프레임워크. 모델은 고정하고 아티팩트를 변화시키세요. 내장된 통계적 엄격성: bootstrap CI, Krippendorff α, 길이 디바이스(length-debias), 포화 곡선(saturation curves).
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Claude Ecosystem의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기