훈련 코드나 설정을 조용히 망가뜨리곤 해서 pybench를 만들었습니다 [P]

이것은 통계적 테스트를 위한 pytest와 같습니다. 지표(metrics)의 통계적 수준에서의 회귀(regression)가 발생하지 않도록 보장합니다.
시드(seeds), 과거 벤치마크 결과 등과 같은 번거로운 작업들을 관리합니다.
tests/ 디렉토리 대신 benchmarks/ 디렉토리를 사용하는 pytest와 유사한 간단한 CLI입니다:

pybench # 처음 실행 시: 시드를 샘플링하고, 베이스라인(baseline)을 저장하며, NEW로 표시
pybench # 이후 실행 시: 동일한 시드에서 재실행하여 PASS / FAIL 표시
pybench update # 의도된 변경 후 베이스라인 재설정
pybench show # 현재 베이스라인 통계 출력 (--history 옵션 사용 시 커밋별 확인 가능)

피드백을 부탁드립니다.
Github: https://github.com/AnthonyBeeblebrox/pybench
Docs: https://pybench.readthedocs.io/en/latest/

수정 사항: 이것은 지표의 통계적 회귀(statistical regressions)를 위한 것이며, 유닛 테스트(unit test)를 대체하는 것이 아닙니다.
submitted by /u/SpecificPark2594 to r/MachineLearning
[link] [comments]

Insights

훈련 코드나 설정을 조용히 망가뜨리곤 해서 pybench를 만들었습니다 [P]

요약

핵심 포인트

댓글

arXiv의 홍수에서 벗어나기: ArxivLens로 궁극의 AI 기반 연구 엔진 구축하기

Together AI, 8.3억 달러 기업 가치로 8억 달러 투자 유치

예방 vs 탐지: AI 지원 개발에서의 조용한 격차

자동 생성된 자막이 기술 영상에 대해 잘못 알고 있는 것 — 실제 전후 비교

arXiv의 홍수에서 벗어나기: ArxivLens로 궁극의 AI 기반 연구 엔진 구축하기

Together AI, 8.3억 달러 기업 가치로 8억 달러 투자 유치

예방 vs 탐지: AI 지원 개발에서의 조용한 격차

자동 생성된 자막이 기술 영상에 대해 잘못 알고 있는 것 — 실제 전후 비교