
로컬 LLM은 '라살 중학교'의 난제를 풀 수 있을까? 최신 모델 비교를 통해 드러난 놀라운 지능 차이
요약
로컬 LLM인 Qwen 3.6-35b, Gemma 4-31b, Gemma 3-12b를 활용해 중학교 및 대학 입시 수학 문제를 해결하며 모델 크기에 따른 추론 능력을 비교했습니다. 상위 모델은 기하학적 직관과 논리적 추론을 보여준 반면, 소규모 모델은 문맥 파악의 한계를 드러냈습니다.
핵심 포인트
- Qwen 3.6-35b와 Gemma 4-31b는 고도의 기하학적 보조선 추론 능력을 입증함
- 모델 사이즈가 커질수록 공간 구조 파악 및 문맥 통합 능력이 비약적으로 상승함
- Gemma 3-12b와 같은 소규모 모델은 국소적 논리에 갇혀 전체 문맥을 놓치는 한계가 있음
- 상위 모델은 판별식 등 수학적 원리를 활용한 정밀한 논리 전개가 가능함
로컬 LLM은 '라살 중학교'의 난제를 풀 수 있을까? 최신 모델 비교를 통해 드러난 놀라운 지능 차이
- 도입: AI에게 '입시 산수'를 풀게 하는 의미
"최신 AI라면 중학교 입시 정도의 문제는 식은 죽 먹기로 풀어낼 것이다"――. 그러한 낙관적인 기대는 난관 사립 중학교의 산수라는 '지식의 미궁' 앞에서 허무하게 무너질지도 모릅니다. 중학교 입시 산수는 단순한 계산 속도가 아니라, 보조선을 어디에 그을 것인가와 같은 '번뜩임'이나 도형 뒤에 숨겨진 구조를 꿰뚫어 보는 고도의 직관력이 요구되기 때문입니다.
본고에서는 AI 기술의 최전선인 '로컬 LLM (특정 서버에 의존하지 않고, 수중에 있는 환경에서 동작하는 대규모 언어 모델 (Large Language Model))'을 사용하여 그 사고의 심연을 검증합니다. 검증 대상은 다음의 3개 모델입니다.
- Qwen 3.6-35b
- Gemma 4-31b
- Gemma 3-12b
규슈의 명문, 라살 중학교(La Salle Junior High School)의 도형 문제와 도호쿠 대학의 입시 문제를 무대로, 모델 사이즈가 가져오는 '넘기 힘든 지성의 경계선'을 부각해 나가겠습니다.
- 놀라운 보조선: 기하학 문제에서 보여준 '수학적 센스'
라살 중학교의 도형 문제에서 상위 모델인 Qwen 3.6-35b와 Gemma 4-31b는 그야말로 '수학적 카타르시스'라고도 부를 수 있는 선명한 해법을 제시했습니다.
문제는 밑변 6cm, 좌변 1cm, 밑각이 모두 60°, 꼭지각 중 하나가 150°인 사각형에서 미지의 변을 구하는 것이었습니다. 이에 대해 두 모델은 도형을 바깥쪽으로 확장하여 거대한 '정삼각형'을 구축한다는 놀라운 보조선을 제안했습니다. 밑변의 양 끝이 60°라는 점을 발판 삼아 꼭짓점을 향해 변을 늘림으로써, 한 변이 6cm인 정삼각형이 원래의 도형을 부드럽게 감싸듯 나타나는 과정을 그들은 정확하게 예견했습니다.
"이 큰 삼각형은 정삼각형이 됩니다. 따라서 큰 삼각형의 세 변의 길이는 모두 6cm입니다." (Gemma 4-31b의 사고 프로세스 중)
더욱 놀라운 점은 150°의 외각이 30°라는 점을 이용해, 그곳에서 '30°-60°-90° 직각삼각형'을 찾아냈다는 점입니다. 빗변 5cm에 대해 30°의 대변이 그 절반(2.5cm)이 된다는 성질을 선명하게 적용했습니다. 최종적으로 6 - 2.5 = 3.5cm라는 정답을 도출해 냈습니다. 이 일련의 추론은 AI가 기호의 나열이 아니라 공간의 구조를 인간처럼 파악하기 시작했다는 증거라고 할 수 있습니다.
- '도형이 아니다'라는 오해: 모델 사이즈가 만드는 결정적인 벽
빛나는 지성의 그림자 속에서, 소규모 모델인 Gemma 3-12b는 결정적인 한계를 드러냈습니다.
이 모델은 제시된 각도(60°, 150°, 60°)를 합산하여 "270도가 되므로 삼각형의 내각의 합 180도를 초과한다. 따라서 이 도형은 성립하지 않는다"라고 단정 지었습니다. 이는 단순한 오답이 아닙니다. 여러 정보를 통합하여 '사각형'이나 '도형의 일부'라는 문맥을 구축하지 못하고, 국소적인 논리 모순에 갇혀 사고를 정지시키는 '정보의 단편적인 해석'에 의한 성급한 판단입니다.
중규모 모델(31b 이상)이 가진 '문맥을 통합하는 어텐션 (Attention)의 깊이'와 소규모 모델 사이에 놓인, 공간 파악에 있어서의 지적인 리미트가 잔혹할 정도로 가시화된 순간이었습니다.
- 수식의 미궁: 도호쿠 대학의 입시 문제에 도전하는 논리의 힘
이어서 도전한 것은 도호쿠 대학의 "2차 방정식 2x^2 + 4xy + 3y^2 + 4x + 5y - 4 = 0 에서의 x의 최댓값"을 구하는 문제입니다.
여기서는 상위 모델의 정밀한 논리 전개가 빛을 발했습니다. Gemma 4-31b와 Qwen 3.6-35b는 이 식을 y에 대한 2차 방정식으로 재정의하고, "y가 실수로서 존재하기 위한 조건"으로서 판별식 D ≥ 0을 활용했습니다. x가 움직일 수 있는 범위를 논리적인 울타리에 가두는 수법을 선택했습니다.
- 3y^2 + (4x + 5)y + (2x^2 + 4x - 4) = 0 으로 정리.
- 판별식 D = (4x + 5)^2 - 12(2x^2 + 4x - 4) ≥ 0 을 정밀하게 전개.
- 8x^2 + 8x - 73 ≤ 0 이라는 2차 부등식을 도출.
이 계산 과정에서 복잡한 다항식의 전개도 전혀 막힘없이 진행하였으며, 최종적으로 근의 공식을 사용하여 최댓값 $\frac{-2 + 5\sqrt{6}}{4}$ 에 도달했습니다. 대학 입시 수준의 추상적인 수식 처리에서 상위 모델은 이제 '의심할 여지 없는 논리의 주역'이 되어 있습니다.
- 불안정한 계산과 '정수의 함정': AI가 빠지는 계산의 버릇
하지만 여기서도 Gemma 3-12b는 스스로 판 무덤에 빠지고 말았습니다. 계산 과정에서 25 - 12(-4)를 계산해야 하는 국면에서, 돌연 -24(x^2 + 2x - 4/3)라는 강제적인 변형을 시도했고, 결과적으로 상수항을 「57」로 잘못 판단하는 치명적인 계산 실수를 범했습니다.
더욱 흥미로운 점은 그 이후에 나타난 「지적인 체면을 차리려는 환각 (Hallucination)의 함정」입니다. 계산 실수로 인해 x ≈ 2.215라는 어정쩡한 수치를 도출해낸 모델은, 무엇에 홀린 듯 「입시의 답은 정수여야 한다」라는 근거 없는 메타 추론 (Meta-reasoning)으로 도망쳤습니다.
「문제의 답은 정수일 가능성이 있으므로, 가장 가까운 정수를 검토합니다. …… x ≈ 2.215이므로, 가장 가까운 정수는 2 또는 3입니다.」(Gemma 3-12b의 답변 중)
그 후, 모델은 x=2와 x=3을 대입하여 확인 과정을 거친 뒤, 최종적으로 「x의 최댓값은 2입니다」라고 당당하게 오답을 제시했습니다. 계산 능력이 부족한 모델일수록 논리가 파탄 났을 때 「그럴듯한 추론」으로 억지로 결론을 유도해 버리는 것――. 이러한 취약성은 우리가 AI의 답변을 무비판적으로 수용하는 것이 얼마나 위험한지를 웅변적으로 보여줍니다.
- 결론: 로컬 LLM은 「생각하는 도구」로서 어디까지 왔는가
이번 검증을 통해 얻은 결론은 명확합니다. 31b 클래스 이상의 모델이라면 난도가 높은 학교의 수학 문제일지라도 인간과 동등하거나, 혹은 그 이상의 풀이 과정을 제시할 수 있는 단계에 도달해 있습니다. 특히 도형 문제에서의 기하학적인 「영감 (Insight)」 시뮬레이션 능력은 기존 계산기의 틀을 넘어, 진정한 「생각하는 도구」로서의 가능성을 느끼게 합니다.
반면, 소규모 모델에서 관찰된 「국소적인 논리 모순에 대한 집착」이나 「정수로의 도피」와 같은 거동은, AI가 여전히 통계적 편향 (Statistical Bias)과 논리 사이에서 흔들리고 있음을 보여줍니다.
앞으로 로컬 LLM이 교육이나 개인 개발 현장에서 「사고의 파트너」가 될 미래는 확실할 것입니다. AI가 「영감」을 완벽히 재현하고 완벽한 논리를 구축할 수 있게 되었을 때, 인간의 학습은 어떻게 변해야 할까요. 우리는 AI를 단순한 「정답 출력기」로 다루는 것이 아니라, 자신의 사고 습관을 비추어 보고 논리를 연마하기 위한 「지성의 거울」로 활용하는 지혜를 갖추어야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기