훈련 코드나 설정을 조용히 망가뜨리곤 해서 pybench를 만들었습니다 [P]
요약
지표의 통계적 회귀를 방지하기 위한 테스트 도구인 pybench를 소개합니다. pytest와 유사한 방식으로 시드 관리 및 벤치마크 베이스라인을 자동으로 관리하여 훈련 코드의 성능 저하를 감지합니다.
핵심 포인트
- 지표의 통계적 회귀(regression)를 감지하는 도구
- 시드(seeds) 및 과거 벤치마크 결과 자동 관리
- pytest와 유사한 간단한 CLI 인터페이스 제공
- 유닛 테스트가 아닌 통계적 성능 검증 목적
이것은 통계적 테스트를 위한 pytest와 같습니다. 지표(metrics)의 통계적 수준에서의 회귀(regression)가 발생하지 않도록 보장합니다.
시드(seeds), 과거 벤치마크 결과 등과 같은 번거로운 작업들을 관리합니다.
tests/ 디렉토리 대신 benchmarks/ 디렉토리를 사용하는 pytest와 유사한 간단한 CLI입니다:
pybench # 처음 실행 시: 시드를 샘플링하고, 베이스라인(baseline)을 저장하며, NEW로 표시
pybench # 이후 실행 시: 동일한 시드에서 재실행하여 PASS / FAIL 표시
pybench update # 의도된 변경 후 베이스라인 재설정
pybench show # 현재 베이스라인 통계 출력 (--history 옵션 사용 시 커밋별 확인 가능)
피드백을 부탁드립니다.
Github: https://github.com/AnthonyBeeblebrox/pybench
Docs: https://pybench.readthedocs.io/en/latest/
수정 사항: 이것은 지표의 통계적 회귀(statistical regressions)를 위한 것이며, 유닛 테스트(unit test)를 대체하는 것이 아닙니다.
submitted by /u/SpecificPark2594 to r/MachineLearning
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기