Gemma4에서 요일이 어긋나는 현상에 대해 조금 더 깊이 파헤쳐 보았다

요약

로컬 LLM인 Gemma4를 대상으로 2026년 날짜별 요일 답변 정확도를 테스트한 결과, 약 52%의 정답률을 보였습니다. 요일이 어긋나는 패턴과 요일이 아닌 답변을 출력하는 현상 등 모델의 논리적 한계를 분석했습니다.

핵심 포인트

Gemma4의 2026년 요일 답변 정답률은 약 51.9%로 나타남
요일이 1일 전후로 어긋나는 경우가 전체 오류의 상당수를 차지함
요일 대신 '칠요일'이나 '오전 중' 같은 비정상적인 답변이 출력됨
특정 월(6월, 12월)에서 정답률이 낮아지는 경향이 관찰됨
로컬 LLM 활용 시 일관성을 위해 temperature 0.0 설정이 권장됨

로컬 LLM Gemma4에게 2026/1/1-12/31 각 날짜의 요일을 물었더니, 올바르게 요일을 대답한 것은 절반 정도였다. 2일 이상 어긋나는 경우도 1할 정도 있었으며, 요일이 아닌 답변을 한 날짜가 5개 있었다.

이전 기사에서 Gemma4에게 요일을 물으면 어긋난 요일 답변이 돌아온다는 이야기를 썼지만, 어긋나지 않는 경우도 있었기에 어느 정도의 확률로 요일이 어긋나는지 궁금해졌다.

Gemma4 (모델 E4B)
Ollama (Windows용 ver. 0.30.10)
설정은 컨텍스트 길이(Context Length)를 별건으로 최장으로 설정한 것 외에는 거의 초기 설정 그대로
Python 3.14.6
ollama 0.6.2 (Python 패키지)

다음과 같은 Python 코드를 작성하여 실행했다.

infer.py (전문)

import ollama
import os
import time
...

"temperature": 0.0

은(는) 이것이 없으면 답변에 변동(Fluctuation)이 생기기 때문에 설정했다.

올바르게 대답한 날짜의 총수: 187

2요일 이상 어긋난 날짜의 총수: 36

요일 이외의 것을 출력:

2026/07/11: サットデー (사토데-)

2026/07/20: 午前中 (오전 중)

2026/08/17: 二日 (이틀)

2026/09/21: 七曜日 (칠요일)

2026/12/21: 七曜日 (칠요일)

총수: 5

2026/07/11은 토요일이므로 「사타데-」를 말하려 한 것이겠지만, サットデー라는 답변은 그리 흔하지 않을 것이다 (웃음).

-3: 11 (3.1%)

-2: 8 (2.2%)

-1: 44 (12.2%)

0: 187 (51.9%)

1: 93 (25.8%)

2: 12 (3.3%)

3: 5 (1.4%)

실행 속도는 첫날 분량은 구동(Startup)이 느리지만, 그 이후로는 순조롭게 흘러가는 느낌이다 (환경에 따라 다름).

Ollama 출력 리포트 전문

2026/01/01(목) 답변: 목요일
2026/01/02(금) 답변: 금요일
2026/01/03(토) 답변: 토요일
...

정답한 날짜

정답한 날짜를 출력:
2026/01/01
2026/01/02
...

기타 집계 리포트

2요일 이상 어긋난 날짜를 출력:
2026/01/06: 4
2026/01/21: 5
...

위에는 적지 않았지만, 질문에 何曜日ですか (무슨 요일입니까)라고 쓰면 七曜日です。 (칠요일입니다)라고 돌아왔기에, 何曜日? (무슨 요일?)라는 질문으로 바꾸었더니 七曜日 (칠요일)라고 돌아오는 경우가 있어, 질문과 답변에는 꽤 세세한 부분까지 관련이 있었다.

이전 기사에서는 1일 정도 요일이 어긋난다고 썼지만, 1년 치의 포괄적인 검증을 통해 실제로는 훨씬 더 복잡한 어긋남이 있다는 것을 알게 되었다. 나아가 요일을 묻고 있는데 요일이 아닌 답이 돌아오는, 이전보다 더욱 의외인 사실도 판명되었다.

의미가 있는지는 불분명하지만, 6월과 12월의 정답률이 극단적으로 낮고, 2월(과 3월)이 극단적으로 높은 경향이 보였다. 우연히 처음에 테스트한 달이 6월이었기에 알아챘지만, 경우에 따라서는 알아채지 못했을 가능성도 있다고 할 수 있다.

어긋나는 방식에 대해서는, 다음 날의 요일을 대답하는 케이스가 어긋나는 케이스 전체의 절반 정도를 차지했다. 전날의 요일을 대답하는 케이스가 그 절반 정도였다. ±3일 어긋난 케이스도 있었다. 이것들에 대해서도 의미가 있는지는 불분명하다.

클라우드가 아니라 굳이 로컬 LLM을 사용하는 사람은, 예를 들어 정보 유출이 문제가 되는 업무용이라든가, 혹은 자동화로 인해 과금액이 상승하는 것을 억제하고 싶다는 등의 동기가 아닐까 생각하는데, 그러한 용도에는 기본값인 temperature: 1은 동작에 랜덤 요소가 섞이기 때문에 오히려 방해가 되지 않을까 생각했다.

날짜 내림차순. 표현 수정 등은 제외.

2026/6/21: 공개

다른 연도에 대해서도 검토할지도 모른다.

AI 자동 생성 콘텐츠

원문 바로가기