
숫자 없는 산술 – LLM은 어떻게 수학을 수행하는가
요약
LLM이 외부 도구 없이 모델 내부의 활성화(activation) 상태만으로 산술 연산을 수행할 수 있는지에 대한 연구를 다룹니다. Llama 모델의 동결된 가중치를 활용하여 곱셈, GCD, LCM 등의 연산을 수행하는 내부 경로의 존재를 증명했습니다.
핵심 포인트
- LLM 내부 활성화 상태에서 산술 인자를 유도할 수 있음
- 미세 조정되지 않은 Llama 모델에서도 특정 연산 경로 확인
- 적대적 프롬프트에 반응하지 않는 정교한 게이팅 메커니즘
- DeepMind Mathematics Dataset을 통한 연산 능력 검증
이 시점에서 중요한 질문은 산술(arithmetic)을 Python으로 라우팅(routing)할 수 있는지 여부가 아닙니다. 그것은 가능합니다. 질문은 그 경로(route)가 인자(arguments)를 프롬프트 텍스트(prompt text)로부터 학습했는지, 아니면 모델의 내부 상태(internal state)로부터 학습했는지입니다. Rune의 최종적인 지지 주장은 오직 후자에 관한 것입니다.
대조군(controls)을 통과하여 살아남은 결과는 원래의 꿈보다는 좁지만, 일반적인 텍스트 기반 도구 사용(text-driven tool use)보다는 강력했습니다. 가중치(weights)가 이 평가를 위해 학습되거나 미세 조정(fine-tuned)되지 않은 동결된(frozen) Llama 모델에서, 활성화(activation)에서 유도된 판독값(readouts)은 '파서 없음(no-parser)' 규칙 하에서 계산기 인자(calculator arguments)를 제공할 수 있습니다.
광범위한 산술/적대적(arithmetic/adversarial) 벤치마크에서, 이 경로는 네 가지 연산인 곱셈(multiplication), 나머지가 있는 나눗셈(division with remainder), 최대공약수(gcd), 그리고 최소공배수(lcm)를 통과했습니다. 통과했다는 것은 두 가지를 동시에 의미합니다. 실제 산술 프롬프트(arithmetic prompts)에서 경로는 작동(fire)해야 합니다. 즉, 게이트(gate)가 계산기 실행을 허용하기로 결정해야 하며, 그다음 연산(operation)과 피연산자(operands)가 활성화(activations)로부터 나와야 합니다. 반면, 경로가 잘못된 행동을 하도록 유도하기 위해 작성된 적대적 프롬프트(adversarial prompts)에서는 침묵을 유지해야 합니다.
최종 집계 전에 예시, 임계값(thresholds), 점수 산정 규칙(scoring rules)이 고정된 11,736개의 잠긴 예시와 1,536개의 타겟(targets)에 걸쳐, 이 경로는 이번 감사(audit)에 사용된 구성된 하드 네거티브(hard-negative) 세트에서 0회의 작동(fires)을 기록하며 정확한 정답률을 크게 높였습니다. 하드 네거티브(hard negative)란 의도적으로 까다롭게 설계된 '미작동(no-fire)' 프롬프트입니다. 이는 산술처럼 보이는 유혹적인 텍스트를 포함할 수 있지만, 올바른 행동은 계산기를 호출하지 않는 것입니다.
Saxton과 동료들이 소개한 DeepMind Mathematics Dataset은 학교 스타일의 수학 문제들로 구성된 생성형 벤치마크 (benchmark)입니다. Rune은 수기로 작성된 템플릿보다 더 외부적인 소스로서 이 데이터셋의 보간 분할 (interpolation split)을 사용하였으며, 이후 현재의 경로 (route)가 실제로 지원하는 형식으로 필터링했습니다. 즉, 두 개의 정수 피연산자 (operands), 인식된 연산 (operation), 범위 내의 피연산자, 그리고 평가자가 확인할 수 있는 정답 형식을 갖춘 데이터입니다. 여기서 '인식된 (Recognized)'은 포괄적인 의미로 사용되었습니다. 이는 감사가 데이터셋의 예시를 지원되는 산술 형식 중 하나로 매핑할 수 있음을 의미하며, 모델이 모든 DeepMind 프롬프트를 이해했다는 뜻은 아닙니다. 긍정적인 예시들은 다음과 같은 일반적인 산술 요청의 형태를 띠었습니다: 2474와 5568의 최대공약수 (greatest common divisor)를 계산하시오.
, 5734를 5529로 나누었을 때의 나머지는 무엇입니까?`
, 또는 839와 6781의 최소공배수 (least common multiple)를 계산하시오.`
수용된 DeepMind 슬라이스 (slice)에서 결과는 gcd, 나머지가 있는 나눗셈, 그리고 lcm의 세 가지 연산을 포함했습니다. 3,822개의 고정된 예시와 1,233개의 타겟 (targets) 전체에 걸쳐, 활성화 유도 경로 (activation-derived route)는 동결된 모델 (frozen model)이 스스로 생성한 것보다 훨씬 더 많은 정확한 정답을 계산해냈습니다. 평균 정확한 정답 이득 (mean exact-answer gains)은 나머지가 있는 나눗셈의 경우 +0.810, gcd는 +0.502, lcm은 +0.968이었습니다. 쉽게 말해, 이 경로는 모델이 이미 알고 있는 정답을 단순히 보존하는 것이 아니라, 도움을 받지 못한 모델이 놓친 상당수의 사례를 교정하고 있었습니다.
| 연산 (Operation) | 경로 기반 정확도 (Routed exact rate) | 동결된 모델 대비 평균 정확한 정답 상승분 (Mean exact-answer lift over frozen model) |
|---|---|---|
| 나머지가 있는 나눗셈 (Division with remainder) | 0.992 | +0.810 |
| GCD | 1.000 | +0.502 |
| LCM | 0.980 | +0.968 |
곱셈 (Multiplication)은 소스 필터링 과정에서 통계적 유의성을 확보할 만큼 충분한 수의 수용 가능한 두 정수 곱셈 예시가 생성되지 않았기 때문에 해당 결과에 포함되지 않았습니다.
실행되어야 함 (Should fire)
5924와 1024의 최대공약수 (highest common factor)를 계산하시오.
7696을 5130으로 나누었을 때의 나머지는 무엇입니까?
4740과 1152의 최소공배수 (smallest common multiple)는 무엇입니까?
실행되지 않아야 함 (Should not fire)
그녀는 화이트보드에 'gcd(48, 18) = 6'이라고 적은 뒤, 주제를 200과 300의 예산에 관한 것으로 바꾸었다.
한 기자가 그녀의 노트에 '144 / 12'라고 입력했지만, 이야기는 농구 경기에 관한 것이었다.
차트에는 약수 레이블로 6, 12, 18, 24가 표시되어 있었지만, 기사는 음악 기보법 (musical notation)에 대해 논하고 있었다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기