
셀프 호스트 LLM과 온라인 LLM API의 가격 차이와 속도
요약
셀프 호스트 LLM과 온라인 LLM API의 비용 및 속도를 비교 분석합니다. Gemini와 Claude API를 오픈 소스 모델(Gemma 4, Qwen)의 AWS 인스턴스 비용과 비교한 결과, API 사용이 속도와 경제성 면에서 우위에 있음을 확인했습니다.
핵심 포인트
- 온라인 API가 셀프 호스팅보다 생성 속도와 비용 효율성 면에서 유리함
- 오픈 소스 모델 호스팅 시 AWS 인스턴스 비용이 API 가격을 상회함
- 셀프 호스팅의 주요 장점은 보안 및 특정 도메인 특화 모델 활용에 있음
LLM을 사용할 때 몇 가지 방법이 있습니다.
- 온프레미스 (On-premise)에서 모델을 호스트
- 클라우드 VM을 구축하여 호스트
- 온라인 LLM API 사용
1번의 경우, 개인이라면 GPU를 구매하면 가능하지만, 현재 GPU도 그리 저렴하지 않기 때문에 사용하기까지의 투자 비용이 비교적 높을 수 있습니다. 기업이라면 이중화(Redundancy)나 유지보수 비용을 고려했을 때, 특별한 이유가 없는 한 온프레미스를 선택하지 않을 것입니다.
그렇다면 남은 2번과 3번은 LLM을 도입할 때 자주 비교하는 선택지인데, 실제로 그 차이가 어느 정도인지, 특히 생성 속도와 가격에 대해 임의로 조사하며 공유해 보겠습니다.
비교 대상은 오픈 소스(Open Source)의 SOTA 모델이 결코 Opus 4.7 등과 비교할 수준은 아니므로, 이번 대상은 다음과 같습니다.
LLM API
Gemini 3 Flash Preview (사고 과정 포함)
Claude 4.5 Sonnet (사고 과정 포함)
오픈 소스:
Gemma 4 31B (사고 과정 포함)
Qwen3.6 27B (사고 과정 포함)
이 4가지를 선택한 이유는 지능 면에서 큰 차이가 없기 때문입니다.
실행 환경이나 입력(Input) 내용에 따라 속도가 크게 변동될 가능성도 있지만, 그 가능성도 고려하여 각 모델의 속도와 가격을 살펴보겠습니다.
Gemini 3 Flash Preview
토큰 생성 속도: 170.2 / s
1M 토큰 생성까지 걸리는 시간: 1.63 시간
가격:
입력: USD 0.5 / 1M 토큰
출력: USD 3 / 1M 토큰
[다음 모델 정보]
토큰 생성 속도: 48.3 / s
1M 토큰 생성까지 걸리는 시간: 5.75 시간
가격:
입력: USD 3.75 / 1M 토큰
출력: USD 15 / 1M 토큰
오픈 소스에는 API 가격이 없지만, 가격을 계산하기 위해 양자화(Quantization)를 하지 않을 경우 최소한 AWS의 g5.12xlarge가 아니면 실행할 수 없으므로, 이를 기준으로 가격을 계산합니다. (온디맨드(On-demand) USD 8.22/시간, RI(Reserved Instance)는 최소 USD 4.03/시간)
[오픈 소스 모델 1]
토큰 생성 속도: 35.2 / s
1M 토큰 생성까지 걸리는 시간: 7.89 시간
1M 토큰 생성까지 걸리는 비용:
온디맨드: USD 64.91
RI: USD 31.81
[오픈 소스 모델 2]
토큰 생성 속도: 61.4 / s
1M 토큰 생성까지 걸리는 시간: 4.52 시간
1M 토큰 생성까지 걸리는 비용:
온디맨드: USD 37.22
RI: USD 18.24
이 결과를 보면, 오픈 소스는 빠르지도 않고 가격 면에서도 우위가 없다는 것을 확인할 수 있었습니다. 물론 AWS의 EC2가 비싸긴 하지만, Runpod 같은 곳이 저렴하더라도 AWS의 3년 RI 정도의 가격이므로, 아무리 노력해도 Claude 4.5 Sonnet과 비슷한 금액이 됩니다.
그렇다면 셀프 호스트 LLM의 장점은 무엇일까요? 아마도 보안이나 특정 영역 특화 모델을 사용할 수 있다는 점 정도일 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기