LLM 비교에 과학적 엄밀함(Scientific Rigor)을 더하기

내가 Cli Modelarium을 만든 이유, 그리고 왜 이것이 대시보드가 아닌 당신의 터미널에 있어야 하는가

참고: 이것은 개인 프로젝트이며, 어떤 회사와도 관련이 없습니다. 이는 금융 또는 투자 조언을 구성하지 않습니다.

두 개의 LLM (Large Language Model)을 비교하고 싶을 때마다, 나는 채팅창에서의 빠른 스팟 체크 (spot check)를 선택하거나 전체 평가 플랫폼을 구동하는 것 중 하나를 골라야만 했습니다.

전자는 유용한 정보를 전혀 주지 않습니다.

후자는 비교하는 가치보다 설정하는 데 더 오랜 시간이 걸립니다.

그래서 나는 터미널에서 이를 수행하는 CLI (Command Line Interface)를 만들었습니다. 이름은 Cli Modelarium이며, 오늘 PyPI에 Apache 2.0 라이선스로 공개되었습니다.

pip install cli-modelarium

이 포스트의 나머지 부분에서는 이것이 무엇을 하는지, 왜 내가 만들었는지, 내부적으로 실제로 어떻게 작동하는지, 그리고 어떻게 1분 안에 당신의 자체적인 LLM 비교 작업에 사용할 수 있는지 설명하겠습니다.

아무도 이야기하지 않는 문제

LLM 툴링 (tooling) 환경에는 두 개의 극단이 존재합니다.

한쪽 끝에는 채팅창 스팟 체크 (spot check)가 있습니다. Claude에 프롬프트 (prompt)를 붙여넣고, 그다음 GPT에, 그다음 Gemini에 붙여넣은 뒤, 출력물을 눈으로 훑어보고 어떤 것이 "더 나은지" 결정합니다. 이것이 대부분의 개발자가 실제로 하는 방식입니다. 생산적인 것처럼 느껴지지만, 신뢰할 수 있는 결과물은 아무것도 만들어내지 못합니다.

스팟 체크의 문제는 LLM의 출력이 변동성 (variance)을 가진다는 점입니다. 동일한 프롬프트를 두 번 실행해도 다른 답변을 얻을 수 있습니다. 또한 두 모델에 동일한 프롬프트를 실행하여 비슷해 보이는 답변을 얻었을 때, 그중 하나가 미묘한 사실을 환각 (hallucinating)하고 있다는 사실을 놓칠 수도 있습니다. 단일 출력물을 눈으로 훑어보는 것은 비교가 아닙니다. 그것은 단지 느낌 (vibe)일 뿐입니다.

다른 쪽 끝에는 엔터프라이즈 평가 플랫폼 (enterprise evaluation platforms)이 있습니다. 이것들은 존재하며 강력합니다. 하지만 이들은 계정을 설정하고, 통합 (integration)을 구성하며, 데이터셋 스키마 (dataset schema)를 정의하고, 평가자 (evaluators)를 작성하고, 제공자 (providers)를 연결하며, 대시보드를 통해 실행을 오케스트레이션 (orchestrate)할 것을 요구합니다. 온보딩 (onboarding)을 마칠 때쯤이면, 당신이 답하고자 했던 질문은 이미 바뀌어 있을 것입니다.

대부분의 LLM 비교 질문들은 그러한 오버헤드(overhead)를 정당화하지 못합니다. 당신이 알고 싶은 것은 이것입니다: 이 특정 프롬프트에 대해 어떤 모델이 이 특정 비용으로 더 나은 출력을 생성하는가. 당신은 대시보드(dashboard)를 원하는 것이 아닙니다. 당신은 정답을 원합니다.

그것이 바로 Cli Modelarium이 채워주는 간극입니다.

30초 안에 파악하는 기능

설치합니다. 제공자 키(provider keys)를 설정합니다. 비교를 실행합니다. 터미널(terminal)에서 통계적으로 엄밀한(statistically rigorous) 결과를 얻습니다.

다음은 실제 예시입니다:

cli-modelarium "Explain quantum entanglement." \
  --models claude-haiku-4-5,gpt-4o-mini \
  --max-cost 0.10

이 명령은 공식 API를 통해 두 모델 모두에 프롬프트를 전송하고, 실수로 10센트 이상을 지출하지 않도록 --max-cost 제한값에 따라 호출당 비용을 추적하며, 각 모델의 첫 번째 토큰 생성 시간(time to first token)과 총 지연 시간(total latency)을 측정하고, 시간, 비용 및 전체 출력이 포함된 나란한 비교(side-by-side comparison) 결과를 반환합니다.

인프라(infrastructure)도 필요 없고, 대시보드(dashboard)도 필요 없으며, 계정 온보딩(onboarding)도 필요 없습니다. 그저 정답을 반환하는 CLI가 있을 뿐입니다.

여기에 통계적 엄밀함(statistical rigor)까지 더하고 싶다면, 몇 가지 플래그(flags)를 추가하면 됩니다:

cli-modelarium "Explain quantum entanglement." \
  --models claude-haiku-4-5,gpt-4o-mini,gemini-2.0-flash \
  --runs 10 \
...

이제 당신은 세 개의 각 모델에 대해 10회의 시행(trials)을 수행하며, 부트스트랩 신뢰 구간(bootstrap confidence intervals)을 계산하고, 대응 표본 유의성 검정(paired significance tests)을 실행하며, 출력물에서 환각(hallucination) 패턴을 확인하고, 별도의 모델을 판사(judge)로 사용하여 품질을 점수화하는 동시에, 1달러의 비용 제한 내에서 이 모든 작업을 수행합니다.

이것이 제가 메우고 싶었던 간극입니다. 출판물 수준의 방법론(publication-grade methodology)과 터미널 수준의 인체공학적 편의성(terminal-grade ergonomics).

실제로 내부에서 작동하는 방식

주요 기능들을 나열하는 것은 쉽습니다. 진짜 작업이 이루어지는 곳은 세부 사항에 있습니다.

멀티 프로바이더 지원 (Multi-Provider Support). Cli Modelarium은 통합 인터페이스를 통해 8개의 클라우드 LLM 프로바이더와 로컬 모델을 지원합니다: OpenAI, Anthropic, Google, xAI, DeepSeek, Mistral, Groq, 그리고 OpenRouter입니다. 각 프로바이더는 고유의 SDK, 인증 (auth) 패턴, 에러 의미론 (error semantics), 그리고 속도 제한 (rate-limit) 동작을 가지고 있습니다. 인터페이스는 이 모든 것을 숨겨줍니다. 사용자가 --models claude-haiku-4-5,gpt-4o-mini라고 지정하면, CLI가 각 호출을 어떤 프로바이더로 라우팅할지 결정하고, 인증 정보를 처리하며, 정규화된 출력 (normalized outputs)을 반환합니다.

실제로 사용하고자 하는 프로바이더에 대한 API 키만 있으면 됩니다. cli-modelarium configure 명령어나 환경 변수를 통해 한 번만 설정하면 됩니다.

통계적 엄밀함 (Statistical Rigor). 이 지점이 Cli Modelarium이 제가 사용해 본 다른 모든 LLM 비교 도구와 차별화되는 부분입니다. LLM의 출력에는 분산 (variance)이 존재합니다. 이를 엄밀하게 비교하려면 시각적 검사 (visual inspection)가 아닌 실제 통계가 필요합니다. 이 CLI는 BCa 방법을 사용한 부트스트랩 신뢰 구간 (bootstrap confidence intervals), 이진 결과에 대한 McNemar 테스트를 포함한 쌍체 통계 검정 (paired statistical tests), Bonferroni 및 Holm 방법을 포함한 다중 비교 교정 (multiple comparison corrections), 그리고 Cohen's d를 사용한 효과 크기 (effect sizes)를 구현합니다. 이것들은 단순히 장식용으로 추가된 기능이 아닙니다. LLM을 비교하는 연구 논문을 작성한다면 사용하게 될 바로 그 방법론들입니다. CLI는 단지 이를 플래그 (flags)를 통해 호출할 수 있게 만들었을 뿐입니다.

환각 탐지 (Hallucination Detection). 모델이 그럴듯하게 들리는 헛소리를 생성할 때, 통계적 검정만으로는 이를 잡아낼 수 없습니다. 환각 탐지는 출력물에 대해 추가적인 검사를 실행하여 조작의 흔적이 포함된 응답을 표시합니다: 지어낸 인용구, 동일 응답 내의 모순된 주장, 조작된 이름이나 날짜, 그리고 숙련된 검토자들이 식별해내는 기타 패턴들이 이에 해당합니다. 완벽하지는 않습니다. 어떤 환각 탐지기도 완벽할 수는 없습니다. 하지만 이는 인간의 검토가 필요한 고위험 출력물을 표면화해주며, 이는 아무런 정보 없이 눈을 감고 진행하는 것보다 훨씬 낫습니다.

LLM-as-Judge 패널 (LLM-as-Judge Panels). 주관적인 품질 질문의 경우, 별도의 모델을 심판(Judge)으로 사용할 수 있습니다. CLI는 단일 심판의 편향 (Single-judge bias)을 줄이기 위해 여러 심판 모델이 독립적으로 투표하는 패널 (Panels) 기능을 지원합니다.

비용 및 지연 시간 추적 (Cost and Latency Tracking). 모든 비교 작업은 호출당 비용, 총 비용, 첫 번째 토큰 생성 시간 (Time to first token), 그리고 모델별 총 지연 시간 (Total latency)을 추적합니다. --max-cost 플래그를 통해 엄격한 상한선을 적용할 수 있습니다. 만약 비교 작업이 예산을 초과할 것으로 예상되면, CLI는 다음 호출을 수행하기 전에 중단하고 수행된 작업 내용을 보고합니다.

그 이면의 엔지니어링 (The Engineering Behind It)

이 부분은 보통 생략되곤 합니다. 하지만 저는 이 단계가 CLI가 신뢰를 얻느냐 못하느냐를 결정하는 지점이기 때문에 매우 중요하다고 생각합니다.

917개의 자동화된 테스트 (917 Automated Tests). 모든 커밋(Commit) 시에는 제공업체 통합 (Provider integration), 통계 계산 정확도, CLI 동작, 에러 처리 및 엣지 케이스 (Edge cases)를 다루는 917개의 자동화된 테스트가 실행됩니다. v0.1.0 이후 CI 실패는 0건입니다.

9가지 OS/Python 조합 (9 OS/Python Combinations). CI 매트릭스 (CI matrix)는 Python 3.11, 3.12, 3.13 환경의 Linux, macOS, Windows에서 실행됩니다. 매 푸시(Push)마다 9가지 조합을 검증합니다. 만약 Linux에서는 작동하지만 Windows에서 깨지는 문제가 발생한다면, 사용자가 발견하기 전에 제가 먼저 알 수 있습니다.

문헌에 근거한 통계적 검증 (Statistical Validation Against Literature). 통계적 방법론에 있어서는 단순히 "테스트를 통과했다"는 것만으로는 부족합니다. 저는 다음과 같이 참조 구현체 (Reference implementations)와 출력을 교차 검증했습니다: BCa 보정(BCa correction)이 적용된 scipy의 bootstrap 메서드와 비교한 부트스트랩 신뢰 구간 (Bootstrap CIs), 소표본에 대한 binomtest 및 대표본에 대한 Edwards 보정이 적용된 chi2.sf와 비교한 맥네마 검정 (McNemar's test), 그리고 발표된 Cohen's d 공식을 통한 효과 크기 (Effect sizes) 검증입니다. 제 구현 방식이 참조 모델과 일치하지 않을 때, 저는 그 불일치의 원인을 추적하여 수정했습니다.

9개 언어로 작성된 README (README in 9 Languages). 다양한 지역의 개발자들이 선호하는 언어로 프로젝트에 대해 읽을 수 있도록 README는 9개 언어로 제공됩니다.

내가 이것을 만든 이유 (Why I Built This)

내 프로젝트 중 하나를 위해 새로운 LLM (Large Language Model)을 평가할 때마다, 저는 똑같은 문제에 직면합니다. 이 특정 작업에 Claude가 GPT보다 나은지, 아니면 Gemini가 다른 유스케이스 (use case)에 충분히 빠른지, 혹은 DeepSeek가 비용 절감의 가치가 있는지 알고 싶다는 것입니다.

저는 브라우저 탭을 세 개 열었습니다. 프롬프트 (prompts)를 붙여넣었습니다. 출력값 (outputs)을 눈을 가늘게 뜨고 살펴보았습니다. 그리고 결정을 내렸습니다. 그러다 나중에 그 결정을 다시 검토할 때면, 제가 왜 그것을 선택했는지 기억나지 않는다는 사실을 깨닫곤 했습니다.

이 CLI (Command Line Interface)는 저 자신의 평가 작업을 위한 스크립트로 시작되었습니다. 그러다 제가 보고 있는 차이점이 실제인지 아니면 노이즈 (noise)인지 알고 싶어서 통계적 방법론 (statistical methods)을 추가했습니다. 그다음에는 API 크레딧 (API credits)을 계속 소모하고 있었기에 비용 추적 (cost tracking) 기능을 추가했습니다. 그리고 회귀 (regressions) 문제가 계속 발생하여 테스트 스위트 (test suite)를 추가했습니다.

어느 시점에 이 프로젝트를 바라보며, 다른 사람들에게도 유용할 만한 무언가를 만들었다는 것을 깨달았고, 이에 Apache 2.0 라이선스로 오픈 소스화했습니다.

시작하기 (Getting Started)

전체 워크플로 (workflow)는 약 30초 정도 소요됩니다.

설치:

pip install cli-modelarium

Linux, macOS, Windows에서 작동합니다. Python 3.11 이상이 필요합니다.

프로바이더 키 설정 (실제로 사용할 프로바이더의 키만 필요합니다):

cli-modelarium configure

첫 번째 비교 실행:

cli-modelarium "Explain quantum entanglement." \
  --models claude-haiku-4-5,gpt-4o-mini \
  --max-cost 0.10

통계적 엄밀함 (statistical rigor) 적용:

cli-modelarium "Explain quantum entanglement." \
  --models claude-haiku-4-5,gpt-4o-mini,gemini-2.0-flash \
  --runs 10 \
...

로컬 모델과 비교:

cli-modelarium "Explain quantum entanglement." \
  --models claude-haiku-4-5,local:llama-3.1-8b \
  --max-cost 0.10

향후 계획 (What's Next)

출시 버전 (v0.1.3)은 제가 이 도구를 만들었을 당시의 유스케이스 (use cases)들에 대해 기능적으로 완성되었습니다. 추가적인 언어 지원도 고려 중입니다. 아키텍처 (architecture)가 이를 지원하도록 설계되었으니, 계속 지켜봐 주세요.

도구를 사용하시다가 부족한 점을 발견하면 이슈 (issue)를 생성해 주세요.

사용해 보기

pip install cli-modelarium

제가 필요해서 직접 만들었습니다. 저에게 필요하다면 다른 사람들에게도 필요할 것이라 생각하여 오픈 소스로 공개했습니다.

만약 이 도구가 유용하다고 느끼신다면, 레포지토리(repo)에 스타(star)를 눌러주세요. 다른 개발자들에게 이 프로젝트가 노출되는 데 큰 도움이 됩니다.