
딸(5세)을 위한 AI 과외 선생님 만들기 ② 비용 확인 편
요약
자녀를 위한 AI 학습 지원 앱 개발 과정에서 Gemini API 사용 비용을 실측하고 분석합니다. 단순 토큰 계산과 실제 청구 금액 사이의 차이가 발생하는 주요 원인으로 사고 토큰(Reasoning tokens)의 영향을 확인합니다.
핵심 포인트
- Gemini API 실측 비용이 단순 토큰 계산보다 높게 발생함
- 사고 토큰(Reasoning tokens)이 출력 요금에 포함됨을 주의해야 함
- 이미지 처리 및 복잡한 추론 과정이 비용 상승의 원인이 될 수 있음
- 지속 가능한 개인용 AI 도구 개발을 위한 비용 관리의 중요성
지난 기사에서는 딸을 위한 학습 지원 앱을 만들기 시작한 단계까지를 작성했습니다.
이번에는 실제로 사용하기 시작하면서 신경 쓰였던 Gemini API의 비용 확인입니다.
개인 개발, 게다가 가정 내에서 사용하는 도구이므로 가능한 한 돈을 쓰고 싶지 않습니다. Vercel, Supabase, GitHub Actions는 무료 범위 내에서 진행하고 있습니다.
다만, AI 평가 부분만은 API 이용료가 발생합니다.
그리고 히라가나 평가를 몇 번 실행한 뒤 Google Cloud의 청구 내역을 확인했습니다.
Google Cloud의 청구 데이터를 보면, 히라가나 평가 2회에 약 15엔이 소요되었습니다.
즉, 1회당 약 7.5엔입니다.
| 내용 | 값 |
|---|---|
| 대상 | 히라가나·가타카나 평가 |
| ... | |
| 뭐, 그 정도 하겠지요. |
다만, 매일 사용하는 것을 전제로 보면 인상이 조금 달라집니다.
1회 7.5엔으로 가정하고, 30일 동안 사용했을 경우를 대략적으로 계산해 보겠습니다.
| 1일당 이용 횟수 | 월간 비용 |
|---|---|
| 1회 | 약 225엔 |
| ... | |
| 현재 작동하고 있는 것은 주로 히라가나·가타카나 평가입니다. |
하지만 이 앱에서는 영어 회화와 피아노도 평가하고 싶습니다. 3과목을 매일 사용하게 되면, 한 달에 수백 엔에서 천 엔대 정도는 평범하게 보일 것입니다.
물론, 월 수백 엔이라면 비싸지 않다고 하면 비싸지 않습니다.
하지만 가정 내 도구로서 지속적으로 사용하려면, 매번의 비용감을 제대로 파악해 두고 싶다고 생각했습니다.
이 시점에서 히라가나 평가에 사용하고 있던 모델은 gemini-3.1-pro-preview입니다.
공식 요금을 보면, 2026년 6월 29일 시점에서 gemini-3.1-pro-preview는 프롬프트(Prompt)가 20만 토큰(tokens) 이하인 경우 다음과 같은 단가입니다.
| 구분 | 요금 |
|---|---|
| 입력 | $2.00 / 100만 tokens |
| 출력 | $12.00 / 100만 tokens |
출력 요금에는 사고 토큰(Reasoning tokens)도 포함됩니다.
이 부분을 처음에 간과했습니다.
우선, 일반적인 입력과 출력만으로 계산해 보겠습니다.
1회의 히라가나 평가에서는 대략 다음과 같은 토큰을 사용한다고 가정합니다.
| 내용 | 추정 토큰 수 |
|---|---|
| 평가 프롬프트 | 약 1,900 tokens |
| ... | |
| 이 경우, 입력은 약 2,460 tokens, 출력은 약 300 tokens입니다. |
입력 2,460 tokens × $2.00 / 1,000,000 = $0.00492
출력 300 tokens × $12.00 / 1,000,000 = $0.00360
합계 = $0.00852
1달러를 155엔으로 계산하면 약 1.3엔입니다.
하지만 실측치는 약 7.5엔이었습니다.
단순 계산과 실측치가 꽤 차이가 납니다.
이 차이를 보고 처음에는 이미지 토큰의 견적이 다른 것인가 생각했습니다.
물론 그것도 어느 정도 가능성이 있습니다. 스마트폰으로 찍은 사진이므로, 이미지 크기나 내부적인 처리에 따라 토큰 수가 변할 가능성은 있습니다.
하지만 가장 커 보이는 원인은 **사고 토큰(Reasoning tokens)**이었습니다.
gemini-3.1-pro-preview의 출력 요금은 공식 요금 페이지에서도 "사고 토큰을 포함한다"라고 명시되어 있습니다.
즉, 화면에 반환되는 JSON이 300 tokens 정도라 하더라도, 모델이 내부적으로 생각하기 위해 사용한 토큰이 있다면 그것도 출력 측으로서 과금됩니다.
히라가나 평가는 단순히 글자를 읽는 것만이 아닙니다.
- 본보기 글자와 손글씨를 구별한다
- 글자의 형태를 비교한다
- 멈춤(とめ)·꺾임(はね)·흘림(はらい)을 본다
- 5~6세의 쓰기 방식으로서 자연스러운 범위인지 판단한다
- 아이들을 위한 피드백으로 변환한다
이렇게 생각하면 내부에서 나름대로 추론을 하고 있어도 이상하지 않습니다.
가령, 사고 토큰을 3,000 tokens로 가정하여 계산해 보겠습니다.
출력은 일반적인 JSON 300 tokens에 사고 토큰 3,000 tokens를 더해 약 3,300 tokens로 합니다.
입력 2,460 tokens × $2.00 / 1,000,000 = $0.00492
출력 3,300 tokens × $12.00 / 1,000,000 = $0.03960
합계 = $0.04452
1달러를 155엔으로 계산하면 약 6.9엔입니다.
실측치인 약 7.5엔에 상당히 가까워졌습니다.
| 케이스 | 1회당 |
|---|---|
| 입출력만으로 단순 계산 | 약 1.3엔 |
| ... | |
| 물론, 사고 토큰 (Thinking Token) 수를 실제로 측정할 수 있는 것은 아닙니다. |
다만, 실측치와의 차이를 고려하면, 이번 비용 증가에는 사고 토큰의 영향이 상당히 클 것으로 보고 있습니다.
비용을 낮추는 방법은 몇 가지 있습니다.
| 대책 | 기대할 수 있는 점 | 우려되는 점 |
|---|---|---|
| 모델을 변경한다 | 단가를 낮출 수 있다 | 평가 정밀도가 떨어질 가능성이 있다 |
| ... | ||
| 이번 용도에서는 단순히 저렴해지기만 하면 되는 것이 아닙니다. |
딸에게 돌려주는 평가이므로, 정밀도가 너무 떨어지면 의미가 없습니다. 특히, 히라가나·가타카나는 '읽을 수 있는가'뿐만 아니라 '어느 부분을 고치면 좋을까'를 보고 싶습니다.
그래서 만약 한다면 이 순서로 진행할까 생각 중입니다.
- 이미지 크기를 조정하여 평가가 변하지 않는 범위를 찾는다
- 프롬프트 (Prompt)를 짧게 해도 평가가 안정적인지 확인한다
thinkingBudget을 설정하여 비용과 정밀도의 차이를 확인한다- Flash 계열 모델로 변경하여 동일한 이미지로 비교한다
이전에 조사한 바로는, 히라가나·가타카나 이미지 인식에서는 Flash 계열도 상당히 강해 보였습니다.
따라서 단순히 Pro를 계속 사용하는 것이 아니라, 실제 데이터로 비교해 볼 필요가 있어 보입니다.
이번에 알게 된 것은, AI API의 비용은 화면에 반환되는 글자 수만으로는 예측할 수 없다는 것입니다.
특히 Thinking 계열 모델에서는 내부의 사고 토큰 (Thinking Token)이 출력 요금에 포함됩니다.
이번 히라가나 평가에서는 단순 계산 시 약 1.3엔이었지만, 실측으로는 약 7.5엔이었습니다. 사고 토큰을 포함해서 생각하면 이 차이는 충분히 설명이 가능해 보입니다.
가정 내 도구라도 매일 사용하는 것이 되면 작은 단가 차이가 영향을 미칩니다.
다음에는 이미지 크기, 프롬프트, thinkingBudget, 모델 변경을 실제로 시도하여 어디까지 비용을 낮출 수 있는지 살펴보겠습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기