
Gemma4에게 요일을 물었더니 하루가 어긋난 건(4)
요약
로컬 LLM인 Gemma4를 활용하여 과거 연도의 날짜별 요일 정답률을 테스트한 실험 결과입니다. 2025년 기준 약 96%의 높은 정답률을 보였으나, 학습 데이터의 시점과 추론 방식에 따른 한계가 관찰되었습니다.
핵심 포인트
- Gemma4는 2025년 데이터에 대해 약 96%의 요일 정답률을 기록함
- 학습 데이터 시점과 추론 엔진의 특성이 정답률에 영향을 미칠 수 있음
- 연도별, 월별로 정답률 편차가 존재하며 특정 시점에 데이터가 편향될 가능성 제기
- 요일 외의 잘못된 텍스트(예: 사요일)를 출력하는 환각 현상 발생
로컬 LLM Gemma4에게 2026년 각 날짜의 요일을 물었더니 절반 정도밖에 맞히지 못했지만, 2025년에 대해 동일하게 조사했더니 약 96%의 정답률이었다.
제2회 기사에서 Gemma4에게 2026년의 요일을 물었을 때 절반 정도밖에 맞히지 못했다는 점과, 월별로 정답률에 편차가 있었다는 점을 보고했지만, 다른 연도에서도 유사한 경향이 나타나는지 의문이 생겼다.
미래의 날짜에 대해 검토를 진행했던 제3회와 달리, 이번에는 과거 방향으로 검토를 진행한다.
지난번과 동일.
- Gemma4 (모델 E4B)
- Ollama (Windows용 ver. 0.30.10)
- Python 3.14.6
- ollama 0.6.2 (Python 패키지)
지난번 기사의 Python 코드를 year = 2026에서 2025부터 2018까지, 그리고 2010, 2000, 1960으로 바꾸어 실행했다.
정확히 맞힌 날짜의 총수: 349
2요일 이상 어긋난 날짜를 출력:
2025/04/01: 3
2025/10/19: 4
총수: 2
요일 이외의 것을 출력:
2025/01/25: 사요일
총수: 1
월별 정답률:
1월: 90.3%
2월: 96.4%
3월: 96.8%
4월: 96.7%
5월: 87.1%
6월: 90.0%
7월: 96.8%
8월: 96.8%
9월: 100.0%
10월: 96.8%
11월: 100.0%
12월: 100.0%
어긋남의 분포를 집계:
-3: 1(0.3%)
-2: 0(0.0%)
-1: 6(1.6%)
0: 349(95.9%)
1: 7(1.9%)
2: 0(0.0%)
3: 1(0.3%)
2026년의 결과와는 대조적으로 정답률 96%라는 좋은 성적을 거두었다. 요일을 정확히 대답하지 못하는 원인으로서, Gemma4 + Ollama는 추론 엔진(Inference Engine)이므로 계산을 하고 있는 것이 아니라는 이야기를 검색(때로는 상단에 표시되는 AI의 답변이었을지도 모른다)을 통해 보았는데, 추론의 원천 데이터가 2025년까지의 데이터이기 때문일 수도 있다.
월별 정답률로 보면 연도 후반부가 전반부보다 성적이 좋다. 지난 기사의 2026년 집계에서도 연도 전반부와 후반부에 차이가 있었으나, 전반부의 성적이 더 좋았다. 역시 학습 데이터가 그 부근에 편향되어 있는 것일까.
어긋남의 분포는 오답 수가 적어 통계라고 하기 어렵지만, ±1일에 총 13일, ±3일에 1일씩 총 2일, ±2일은 0이었다. 이번에는 앞쪽으로 어긋나는 경우와 뒤쪽으로 어긋나는 경우에 큰 편차는 나타나지 않았다.
단 하루뿐이었지만, 요일 이외의 답변을 한 날짜가 있었다. 그 날짜는 2025/01/25로 토요일인데, 사요일이라고 한 것은 '새터데이(Saturday)'와 섞여버린 것일까. 이미지 생성 AI에서 배경에 글자가 있으면 여러 글자가 합성되어 존재하지 않는 글자가 되는 것과 비슷한 현상일지도 모른다.
정확히 맞힌 날짜의 총수: 336
2요일 이상 어긋난 날짜를 출력:
2024/04/03: 5
2024/04/23: 4
총수: 2
요일 이외의 것을 출력:
2024/05/07: 二요일
2024/05/28: 二일
2024/05/29: 三토요일
2024/10/07: 一]
2024/10/22: 二요일
2024/10/29: 二요일
총수: 6
월별 정답률:
1월: 83.9%
2월: 93.1%
3월: 90.3%
4월: 93.3%
5월: 87.1%
6월: 93.3%
7월: 100.0%
8월: 96.8%
9월: 93.3%
10월: 87.1%
11월: 90.0%
12월: 93.5%
어긋남의 분포를 집계:
-3: 1(0.3%)
-2: 1(0.3%)
-1: 7(1.9%)
0: 336(93.3%)
1: 15(4.2%)
2: 0(0.0%)
3: 0(0.0%)
이것도 일요일이 아니라 일요일이라고 답변한 경우를 정답으로 처리했다.
정확히 맞힌 날짜의 총수: 290
2요일 이상 어긋난 날짜의 총수: 17
요일 이외의 것을 출력:
2023/03/28: [\text{목}]
2023/05/05: フ요일
2023/05/12: 手요일
2023/06/01: どようび
2023/06/15: ```json
{
...
}
2023/08/01: 주삼
총수: 6
월별 정답률:
1월: 90.3%
2월: 92.9%
3월: 83.9%
4월: 90.0%
5월: 38.7%
6월: 40.0%
7월: 87.1%
8월: 74.2%
9월: 73.3%
10월: 96.8%
11월: 96.7%
12월: 90.3%
오차 분포 집계:
-3: 13(3.6%)
-2: 2(0.6%)
-1: 13(3.6%)
0: 290(80.8%)
1: 39(10.9%)
2: 2(0.6%)
3: 0(0.0%)
정확히 답변한 날짜의 총수: 194
2요일 이상 어긋난 날짜의 총수: 56
요일 이외의 것을 출력:
2022/04/21: 라는
2022/05/25: 초승달 화요일
2022/07/21: ★★★
2022/08/12: 지요일
2022/12/27: 2일
총수: 5
월별 정답률:
1월: 48.4%
2월: 50.0%
3월: 45.2%
4월: 43.3%
5월: 54.8%
6월: 46.7%
7월: 51.6%
8월: 32.3%
9월: 76.7%
10월: 74.2%
11월: 46.7%
12월: 67.7%
오차 분포 집계:
-3: 21(5.8%)
-2: 19(5.3%)
-1: 68(18.9%)
0: 194(53.9%)
1: 42(11.7%)
2: 7(1.9%)
3: 9(2.5%)
과거로 갈수록 데이터의 가중치가 가벼워지는 것일지도 모르지만, 정답률은 약 54%까지 저하되었다.
정확히 답변한 날짜의 총수: 118
2요일 이상 어긋난 날짜의 총수: 93
요일 이외의 것을 출력:
2021/03/01: 일
요일
2021/04/01: 일
목요일
2021/04/21: 휴일의 날
2021/05/01: 로
2021/06/01: Wednesday
2021/12/01: ○
2021/12/10: #금요일
총수: 7
월별 정답률:
1월: 45.2%
2월: 35.7%
3월: 32.3%
4월: 30.0%
5월: 29.0%
6월: 33.3%
7월: 32.3%
8월: 38.7%
9월: 26.7%
10월: 22.6%
11월: 33.3%
12월: 29.0%
오차 분포 집계:
-3: 27(7.5%)
-2: 25(7.0%)
-1: 108(30.2%)
0: 118(33.0%)
1: 39(10.9%)
2: 17(4.7%)
3: 24(6.7%)
사양에 따라 `#금요일`
이라는 답변은 형식 위반으로 오답 처리하고 있지만, `일요일`
은 요일이 맞으면 정답으로 처리하고 있다. ~~버그가 아니라 사양이라는 이름의 버그다.~~
정답률이 30%대로 저하되어 왔다.
월별 정답률은 1월을 제외하고 30% 전후로 거의 일정하다.
정확히 답변한 날짜의 총수: 119
2요일 이상 어긋난 날짜의 총수: 119
요일 이외의 것을 출력:
2020/01/31: Saturday
2020/03/19: 와
2020/03/20: 진
2020/04/01: [https://www.google.com/search?q=2020/04/01&hl=ja]토요일
2020/10/04: 새터데이
2020/10/19: 일요일인가 오
총수: 6
월별 정답률:
1월: 51.6%
2월: 24.1%
3월: 32.3%
4월: 40.0%
5월: 38.7%
6월: 0.0%
7월: 41.9%
8월: 32.3%
9월: 50.0%
10월: 29.0%
11월: 23.3%
12월: 25.8%
오차 분포 집계:
-3: 25(6.9%)
-2: 38(10.6%)
-1: 56(15.6%)
0: 119(33.1%)
1: 66(18.3%)
2: 30(8.3%)
3: 26(7.2%)
정답률은 2021년과 비교해 보합세.
월별 정답률은 6월이 0%로 편차가 눈에 띈다.
오차 분포는 정규 분포(Normal Distribution) 스타일이라고 할 수 있을까.
정확히 답변한 날짜의 총수: 139
2요일 이상 어긋난 날짜의 총수: 97
요일 이외의 것을 출력:
2019/04/01: 직일
2019/04/11: 목요일
2019/05/01: 봉납일
2019/06/11: 화요일
2019/07/11: 목요일
2019/08/12: 목요일
2019/09/07: 금요일
2019/09/12: 목요일
2019/10/05: 토요일
2019/10/15: 장일요일
총수: 10
월별 정답률:
1월: 16.1%
2월: 17.9%
3월: 35.5%
4월: 26.7%
5월: 35.5%
6월: 43.3%
7월: 29.0%
8월: 38.7%
9월: 40.0%
10월: 45.2%
11월: 63.3%
12월: 64.5%
오차 분포 집계:
-3: 18(5.1%)
-2: 20(5.6%)
-1: 59(16.6%)
0: 139(39.2%)
1: 60(16.9%)
2: 32(9.0%)
3: 27(7.6%)
정답률은 약 40%로 하락세가 멈춘 것처럼 보인다.
요일 이외의 출력은 대부분 한국어였다.
목요일: 木曜日
화요일: 火曜日
금요일: 金曜日
토요일: 土曜日
장일요일: 일요일은 일요일이라는 뜻인데, Google에 억지로 번역시키면 '장일요일'이라는 존재하지 않는 용어 같다.
8/12는 월요일, 9/7은 금요일
10/15는 화요일
로 틀렸지만, 나머지는 맞다.
2019년 4월~10월에 한국어 답변이 집중되어 있는 것은 무슨 이유가 있는 것일까.
오차 분포는 2020년과 마찬가지로 정규 분포 형태라고 할 수 있을까.
정확히 답한 날짜의 총수: 62
2요일 이상 어긋난 날짜의 총수: 148
요일 이외의 것을 출력:
2018/04/01: がきて
2018/05/01: [火曜日
2018/07/20: 指曜日
2018/12/01: フリデー
총수: 4
월별 정답률:
1월: 9.7%
2월: 28.6%
3월: 16.1%
4월: 23.3%
5월: 12.9%
6월: 6.7%
7월: 19.4%
8월: 22.6%
9월: 10.0%
10월: 9.7%
11월: 26.7%
12월: 19.4%
오차 분포 집계:
-3: 33(9.1%)
-2: 24(6.6%)
-1: 34(9.4%)
0: 62(17.2%)
1: 117(32.4%)
2: 63(17.5%)
3: 28(7.8%)
정답률은 20% 미만으로 떨어졌다.
정확히 답한 날짜의 총수: 62
2요일 이상 어긋난 날짜의 총수: 179
요일 이외의 것을 출력:
2010/02/01: フ요일
총수: 1
'フ'는 한글이 아니라 가타카나
월별 정답률:
1월: 9.7%
2월: 14.3%
3월: 9.7%
4월: 16.7%
5월: 35.5%
6월: 3.3%
7월: 19.4%
8월: 35.5%
9월: 23.3%
10월: 9.7%
11월: 6.7%
12월: 25.8%
오차 분포 집계:
-3: 35(9.6%)
-2: 53(14.6%)
-1: 49(13.5%)
0: 64(17.6%)
1: 72(19.8%)
2: 58(15.9%)
3: 33(9.1%)
현재로부터 너무 멀어지면 요일 이외의 것을 출력하는 건수가 줄어드는 것은 미래 편에서도 있었던 현상.
정확히 답한 날짜의 총수: 56
2요일 이상 어긋난 날짜의 총수: 202
요일 이외의 것을 출력:
총수: 0
월별 정답률:
1월: 12.9%
2월: 6.9%
3월: 38.7%
4월: 3.3%
5월: 3.2%
6월: 16.7%
7월: 0.0%
8월: 6.5%
9월: 16.7%
10월: 25.8%
11월: 30.0%
12월: 22.6%
오차 분포 집계:
-3: 43(11.7%)
-2: 91(24.9%)
-1: 28(7.7%)
0: 56(15.3%)
1: 80(21.9%)
2: 43(11.7%)
3: 25(6.8%)
정답률은 약 15%로 1/7에 가까워졌다. 다만, 오차 분포는 균일하지 않다.
요일 이외의 것을 출력하는 건수가 0이 되었다.
정확히 답한 날짜의 총수: 55
2요일 이상 어긋난 날짜의 총수: 182
요일 이외의 것을 출력:
총수: 0
월별 정답률:
1월: 3.2%
2월: 14.3%
3월: 6.5%
4월: 23.3%
5월: 9.7%
6월: 6.7%
7월: 22.6%
8월: 22.6%
9월: 30.0%
10월: 0.0%
11월: 10.0%
12월: 32.3%
오차 분포 집계:
-3: 43(11.8%)
-2: 61(16.7%)
-1: 57(15.6%)
0: 55(15.1%)
1: 71(19.5%)
2: 45(12.3%)
3: 33(9.0%)
인터넷 보급 전 세대까지 거슬러 올라가 보았지만, 2000년과 큰 차이가 없었다. 2000년 무렵부터는 학습 데이터의 범위를 벗어난 것일지도 모른다.
정확히 답한 날짜의 총수: 55
2일 이상 어긋난 날짜의 총수: 182
요일 이외의 것을 출력:
총수: 0
월별 정답률:
1월: 12.9%
2월: 0.0%
3월: 0.0%
4월: 16.7%
5월: 25.8%
6월: 20.0%
7월: 16.1%
8월: 6.5%
9월: 10.0%
10월: 25.8%
11월: 0.0%
12월: 6.5%
어긋남의 분포 집계:
-3: 48(13.1%)
-2: 56(15.3%)
-1: 77(21.0%)
0: 43(11.7%)
1: 39(10.7%)
2: 49(13.4%)
3: 54(14.8%)
한꺼번에 epoch (1970/1/1)보다 더 이전으로 거슬러 올라가 보았으나, 정답률이 약 12%로 1/7 미만이었음에도 눈에 띄는 변화는 없었다.
어긋남의 분포는 무작위(Random)에 가까울 정도로 균일해졌다고 생각한다.
대체로 순조롭게 진행된다.
2021년은 GPU 부하가 높아져서 걸리는 부분이 다소 많았던 인상.
2018년도 약간 걸리는 부분이 있었다.
1990년은 걸리는 부분이 많았다.
1960년은 거의 걸리는 부분이 없었다.
이상의 결과를 다소 주관을 섞어 정리하자면:
- 정답률은 2025년에서 약 96%로, 2026년과 비교해 격단히 높은 성적을 나타냈다.
날짜 내림차순. 표현의 수정 등은 제외.
- 2026/7/1: 우선 게시.
- 2026/6/22: 작성을 시작했으나, 미래 부분이 커져서 나중으로 미루기로 함.
다음에는 프롬프트 (Prompt)를 바꾸어 문제를 회피할 수 있는지 시험할 예정이다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기