GitHub요약2026. 06. 26. 23:45

oh-my-knowledge

요약

LLM의 프롬프트, RAG 코퍼스, 에이전트 워크플로우 등 지식 입력값의 성능을 평가하기 위한 프레임워크입니다. 모델을 고정한 상태에서 다양한 아티팩트의 변화에 따른 성능을 통계적으로 엄격하게 검증할 수 있습니다.

핵심 포인트

프롬프트, RAG, 에이전트 워크플로우 평가 지원
Bootstrap CI 및 Krippendorff α 등 통계적 엄격성 제공
길이 편향 제거 및 포화 곡선 분석 기능 포함
모델 대신 입력 아티팩트의 변화에 집중하는 평가 방식

Repository: lizhiyao/oh-my-knowledge
Language: TypeScript
Stars: 11
Forks: 2
Topics: agent-evaluation, ai, benchmark, bootstrap-ci, claude, claude-code, evaluation-as-code, evaluation-framework, knowledge-engineering, krippendorff-alpha, llm, llm-evaluation, llm-judge, multi-judge-ensemble, prompt-engineering, prompt-testing, rag-evaluation, skill-evaluation

Description:
LLM 지식 입력(프롬프트, RAG 코퍼스, 스킬, 에이전트 워크플로우)을 위한 평가 프레임워크. 모델은 고정하고 아티팩트를 변화시키세요. 내장된 통계적 엄격성: bootstrap CI, Krippendorff α, 길이 디바이스(length-debias), 포화 곡선(saturation curves).

AI 자동 생성 콘텐츠

원문 바로가기

oh-my-knowledge

요약

핵심 포인트

댓글