브루트 포스(Brute Force)를 넘어: 평형점으로 향하는 AI의 추론

어떤 학문 분야에서든, 하나의 아이디어가 특정 집단의 단순한 발상을 넘어 필연적인 것처럼 보이기 시작하는 순간이 있습니다. 그런 현상이 일어나고 있다는 가장 명확한 신호 중 하나는, 서로 알지 못하고, 서로를 인용하지 않으며, 서로 다른 도시에서 작업하는 두 팀이 거의 동시에 동일한 결론에 도달할 때입니다. 두 사람이 각자 독립적으로 같은 아이디어를 떠올렸다면, 그것은 대개 그 아이디어가 이미 공기 중에 "성숙해" 있었기 때문입니다. 이번 주, 인공지능 (AI) 분야에서 가장 활발한 영역 중 하나인 언어 모델 (Language Models)의 추론 방식에 대해 이와 유사한 일이 일어났습니다.

두 개의 독립적인 그룹 — 하나는 남가주 대학교 (USC)이고 다른 하나는 카네기 멜런 대학교 (CMU)입니다 — 이 거의 동시에 AI의 추론을 이해하는 동일한 방식을 제안했습니다. 그것은 바로 사고를 탐색 (Search)이 아니라, 평형점 (Equilibrium Point)을 향한 하강으로 보는 것입니다. 이것이 왜 흥미로운지 이해하기 위해서는, 먼저 우리가 어디에서 왔는지를 살펴볼 가치가 있습니다.

문제점: AI가 "더 많이 생각하게" 만드는 것은 비용이 많이 든다

오늘날 우리가 모델에게 어려운 문제를 해결하도록 요청할 때, 가장 흔한 트릭은 모델이 "더 많이 생각하게" 만드는 것입니다. 그리고 실질적으로 "더 많이 생각한다"는 것은 거의 항상 같은 의미를 갖습니다. 즉, 수많은 서로 다른 답변을 생성하고 그중 가장 좋은 것을 선택하는 것입니다. 이것은 브루트 포스 (Brute Force, 무차별 대입) 방식입니다. 놀라울 정도로 잘 작동하지만, 두 가지 문제가 있습니다. 첫째는 비용이 많이 든다는 것입니다. 각 시도마다 컴퓨팅 자원, 즉 돈과 에너지가 소모됩니다. 둘째는 아무것도 보장하지 못한다는 점입니다. 두 배의 비용을 쓴다고 해서 두 배 더 좋은 답변을 얻으리라는 보장이 없습니다. 이는 마치 문을 무작위로 하나씩 열어보며 열쇠를 찾는 것과 같습니다. 충분한 시도를 하면 맞출 수도 있겠지만, 그 과정이 개선되고 있다고 확신할 수 있는 사람은 아무도 없습니다.

이러한 방법은 전문 용어로 test-time scaling, 즉 "추론 시간 스케일링"이라고 불립니다. 연구자들이 해결하고자 하는 문제는 바로 이것입니다. 더 많은 노력을 기울였을 때, 단순히 또 다른 복권 한 장을 받는 대신, 매 단계가 정답에 더 가까워진다는 확신을 가질 수 있는 방법은 없을까요?

세 가지 연구, 하나씩 살펴보기

이번 주에 발표된 세 편의 논문은 바로 그 질문에서 교차합니다. 이 논문들이 함께 모여 하나의 이야기를 어떻게 구성하는지 살펴보기 전에, 각각의 논문을 개별적으로 살펴보는 것이 가치가 있습니다.

1. 이론: 추론이란 계곡으로 떨어지는 것이다

Equilibrium Reasoners, Carnegie Mellon (Benhao Huang, Zhengyang Geng, Zico Kolter).

El razonamiento como una canica que cae por un paisaje de valles hasta el fondo, que es la respuesta correcta

저자들은 매우 직관적인 이미지를 제안합니다. 계곡과 언덕으로 가득 찬 풍경을 상상해 보세요. 어느 지점에서든 구슬을 놓으면, 아무도 밀지 않아도 구슬은 가장 가까운 계곡의 바닥까지 굴러가 그곳에 멈춰 섭니다. 구슬이 안착하는 이 지점에는 기술적인 명칭이 있는데, 바로 어트랙터 (Attractor), 즉 시스템이 스스로 향하게 되는 안정적인 상태를 의미합니다.

이들의 제안은 계곡의 바닥이 정답이 되는 풍경을 구축하도록 모델을 훈련시키는 것입니다. 이를 달성하면 추론은 더 이상 눈을 감고 찾는 과정이 아니라 구슬을 떨어뜨리는 과정이 됩니다. 즉, 매 반복(Iteration)마다 구슬을 바닥에 조금 더 가깝게 가져가는 것입니다. 여기서 우아한 점은 수렴 (Convergence)이 더 이상 막연한 희망이 아니라 시스템의 속성이 된다는 것입니다. 즉, 더 많은 노력을 기울이는 것이 실제로 정답에 더 가까워지는 것을 의미합니다. 또한 바닥은 스스로 인식되기 때문에 (구슬이 움직임을 멈춤), 수많은 답변 중 어떤 것이 정답인지 검토할 외부의 심판이 필요하지 않습니다.

게다가 이 아이디어는 최근의 공상 과학이 아닙니다. 이는 메모리가 정확히 이런 방식으로, 즉 시스템이 스스로 떨어지는 안정적인 상태로서 작동했던 80년대 모델인 _홉필드 네트워크 (Hopfield Networks)_에서 영감을 얻었습니다. 새로운 점은 이 오래된 직관을 현재의 언어 모델 (Language Models)의 추론에 적용했다는 것입니다.

그리고 여기서 전체 세트에서 가장 놀라운 데이터가 등장합니다. 극도로 어려운 스도쿠 테스트인 _Sudoku-Extreme_에서, 직접적인 버전으로는 정답률이 겨우 **2.6%**에 불과해 사실상 항상 실패하는 모델이, 반복(iteration)을 통해 "떨어지도록" 내버려 두었을 때 **99%**를 상회하는 성능을 보여줍니다. 가장 어려운 사례의 경우, 내부 역학을 전개(unrolling)하면 약 40,000개 층 (layers) 의 깊이에 해당하는 것과 맞먹습니다. 이는 약속에 대한 가시적인 증거입니다. 즉, 더 많은 회전이 답변을 흐리는 것이 아니라, 오히려 정교하게 다듬는다는 것입니다.

De 2,6% sin iterar a más de 99% iterando en la prueba Sudoku-Extreme

게다가 모델은 난이도에 따라 그 노력을 분배합니다. 쉬운 문제는 1회에서 5회 사이의 반복에서 안정화되는 반면, 어려운 문제는 훨씬 더 많은 연산을 소비합니다. 연산량(compute)은 더 이상 모델의 크기에 의해 미리 고정되지 않고, 각 문제에 맞춰 조정됩니다.

2. 응용: "회전하는" 모델에 이 아이디어를 적용하기

USC의 Solve the Loop: Attractor Models for Language and Reasoning (Jacob Fein-Ashley 및 Paria Rashidinejad 저).

looped ("루프형")라고 불리는 모델 제품군은 마치 문단을 더 잘 이해하기 위해 여러 번 다시 읽는 것처럼, 동일한 처리 블록을 반복해서 실행하며 작동합니다. 고전적인 문제는 몇 번의 회전을 수행해야 하는지, 그리고 왜 그것이 도움이 되어야 하는지를 아는 것입니다.

이 연구는 이전의 점 어트랙터(point attractor) 개념을 이러한 루프 모델(looped models) 내부에 도입합니다. 즉, 한 모듈이 초기 응답을 제안하면 다른 모듈이 결과가 안정화될 때까지 반복해서 이를 정제하며, 필요한 반복 횟수를 미리 정하지 않습니다. 결과는 거대 범용 모델들이 흔히 넘어지는 지점에서 매우 놀랍습니다. 단 2,700만 개의 파라미터(프런티어 모델들과 비교하면 아주 미미한 수준)와 약 1,000개의 훈련 예시만으로도, _Sudoku-Extreme_에서 약 91%, 어려운 미로인 _Maze-Hard_에서 **93%**의 정확도를 달성합니다. 이는 특정 유형의 추론(reasoning)에 있어서는 아키텍처(architecture)의 형태가 단순한 규모(brute size)보다 더 중요하다는 메시지를 전달합니다.

거의 흥미롭기까지 한 세부 사항이 하나 더 있습니다. 이러한 방식으로 훈련되면 모델이 평형점(equilibrium point)에 매우 가깝게 시작하기 때문에, 많은 경우 품질 저하를 최소화하면서 반복을 해결하는 메커니즘을 생략할 수 있습니다. 마치 끊임없이 연습한 나머지, 단 한 번의 도약만으로도 계곡의 바닥에 떨어지는 법을 이미 알고 있는 것과 같습니다.

3. 맥락: 왜 이러한 루프 모델은 확장(scaling)하기가 그토록 어려운가

Sparse Layers are Critical to Scaling Looped Language Models, USC 및 Netflix (Ryan Lee, Jacob Biloki, Edward J. Hu, Jonathan May) 저.

이 세 번째 연구는 어트랙터(Attractors)에 대해 다루지 않는다는 점을 솔직히 밝혀둡니다. 이 연구의 기여는 다른 곳에 있지만, 동일한 퍼즐의 한 조각으로서 맞물려 있습니다. 즉, 루프형 모델(Looping models)을 비실용적으로 만들었던 엔지니어링 문제를 해결합니다. 문제는 역사적으로 동일한 블록을 반복해서 사용하는 방식이 확장성(Scaling) 측면에서 좋지 않았다는 점입니다. 매 회전마다 정확히 동일한 가중치(Weights)를 재사용하기 때문에, 모델이 중복되면서 더 이상 개선되지 않게 됩니다. 이들의 발견은 그 해결책이 희소 계층 (Sparse layers) 사용에 있다는 것입니다 (모든 부분을 한꺼번에 활성화하는 대신, 매 패스마다 모델의 서로 다른 전문화된 부분들을 활성화하는 '전문가 혼합 (Mixture of Experts, MoE)'이라 불리는 기술입니다). 이를 통해 블록 자체는 동일할지라도, 매 회전마다 서로 다른 내부 경로를 택하게 되어 메모리 비용을 지불하지 않고도 심층 모델(Deep model)의 풍부함을 회복할 수 있습니다.

또한 이들은 앞선 두 연구와 연결되는 지점도 발견했습니다. 모델의 출력(Output)이 각 루프의 경계 지점에서 안정화된다는 것인데, 이는 문제가 이미 해결되었을 때

하지만 이러한 수렴(Convergence)은 단지 개념적인 것에 그치지 않습니다. 두 연구는 실질적인 결과도 공유하고 있습니다. 만약 추론(Reasoning)이 안정적인 지점으로 수렴하는 과정이라면, 연산 노력(Compute effort)을 모델의 크기에 고정하는 대신 난이도에 따라 배분할 수 있습니다. 즉, 쉬운 문제에는 적은 연산을, 어려운 문제에는 많은 연산을 할당하는 방식입니다. 그리고 바로 이 지점에서 세 번째 연구는 단순한 이웃 연구 이상의 의미를 갖게 됩니다. 루프(Loop) 내의 모델이 안정화되어 '조기에 종료(Exit early)'할 수 있다는 그들의 발견은, 이러한 온디맨드(On-demand) 연산을 지속 가능하게 만들 핵심적인 엔지니어링 요소이기 때문입니다. 세 개의 연구, 두 개의 기관, 그리고 하나의 시간대가 이론, 응용, 그리고 인프라라는 서로 다른 관점에서 동일한 지점을 향하고 있습니다.

과장하지는 말아야겠습니다. 세 연구가 모두 동일한 논제를 증명하는 것은 아닙니다(희소 레이어(Sparse layers)에 관한 연구는 다른 문제를 해결합니다). 다만 세 연구 모두 동시에 부상하고 있는 동일한 아이디어 계열에 속해 있다는 점이 중요합니다. 그리고 이러한 동시성은, 돌이켜 보았을 때 새로운 연구 라인의 탄생을 알리는 전형적인 패턴이기도 합니다. 각 논문이 모두 혁명적이기 때문이 아니라, 여러 독립적인 지성들이 동시에 동일한 영역을 가리키고 있기 때문입니다.

주의 사항

열광하기에 앞서 냉정함을 유지할 필요가 있습니다. 제가 이 주제들을 추적해 온 성숙도 척도로 볼 때, 이는 아직 씨앗(Seed) 단계에 있습니다. 아이디어를 공식화한 초기 연구들이며, 아직 공개된 오픈 소스 코드가 없으며 다른 그룹의 재현(Replication)을 통해 결과가 확인되지도 않았습니다. AI의 역사는 피할 수 없어 보였으나 실제 규모(Scale)와의 접점에서 살아남지 못한 우아한 프레임워크들로 가득 차 있습니다.

하지만 바로 그렇기 때문에 오늘 이를 기록해 둘 가치가 있습니다. 한 분야의 최전선(Frontier)을 계속 추적하는 묘미는 어떤 일이 기정사실이 될 때까지 기다리는 것이 아니라 —그때가 되면 이미 오래된 뉴스가 되어버립니다—, 초기 신호를 감지하고 그것이 성장하는지 지켜보는 데 있습니다. 만약 앞으로 몇 주 안에 코드와 재현(Replication), 그리고 다른 문제들에 대한 결과들이 나타난다면, 이 아이디어는 이론적인 호기심을 넘어 추론하는 모델을 구축하는 진지한 방법론으로 발전할 수 있을 것입니다. 현재로서는 레이더망(Radar)에 포착된 상태입니다.

이 글은 매주 AI 연구 분야에서 발표되는 내용을 면밀히 추적하고 주의 깊게 살펴볼 가치가 있는 신호들을 발굴하는 AI Frontier Radar에서 작성되었습니다. 2026년 5월 19일부터 25일까지의 주간 레이더를 기반으로 하며, 독립적으로 검증된 데이터를 사용했습니다. 인용된 연구: "Equilibrium Reasoners" (CMU, arXiv:2605.21488), "Solve the Loop: Attractor Models for Language and Reasoning" (USC, arXiv:2605.12466), 그리고 "Sparse Layers are Critical to Scaling Looped Language Models" (USC/Netflix, arXiv:2605.09165).