https://www.youtube.com/watch?v=mq3QkSfrkPk

1. 팟캐스트 내용을 쉬운 말로 풀어서 설명하기

팟캐스트의 전문적인 내용들을 이해하기 쉽게 정리해 드립니다. 주요 내용은 세 가지입니다.

첫 번째: 요즘 AI 컨퍼런스는 어떤 모습인가?

참석자 구성의 다양화: 예전에는 학자들이 교류하는 장소였다면, 이제는 투자자, 헤드헌터, 영업 사원들로 가득합니다. 아무나 붙잡고 대화해도 연구자가 아니라 프로젝트를 발굴하거나 인재를 찾으러 온 사람일 가능성이 높습니다.
진정한 재미는 사이드 이벤트에: 메인 세션은 때때로 지루할 수 있지만, 정말 흥미로운 새로운 아이디어는 종종 다양한 소규모 "워크숍(Workshop)"에 숨어 있습니다. 인원은 적지만 가장 앞서 나가고 아직 형태를 갖추지 않은 것들을 논의하며 분위기도 순수합니다.
거물들도 참여: 게스트인 Atlas처럼 교수이면서 동시에 XTX라는 금융 회사의 임원으로 재직 중인 사람들도 있습니다. 컨퍼런스 기간 동안 학생들을 데리고 논문을 발표하는 동시에, 회사 부스에서 이틀 동안 "영업"을 하며 인재를 채용하느라 눈코 뜰 새 없이 바쁩니다.

두 번째: 게스트의 핵심 연구 — AI가 "사람의 말"을 하게 만들기

이 대화의 핵심입니다. Atlas의 핵심 사상은 다음과 같습니다: 현재의 AI는 블랙박스(Black Box)와 같아서, 매우 강력하지만 자신이 어떻게 생각하는지 설명하지 못합니다. 그는 AI가 간단한 공식이나 규칙을 사용하여 자신의 결론을 표현하는 법을 배우길 원합니다.

왜 이렇게 해야 하는가?
- 속도를 위해서: 예를 들어 AI가 네트워크 혼잡을 제어할 때, 신경망(Neural Networks)을 사용하면 반응이 느립니다. 하지만 이를 간단한 의사결정 나무(Decision Tree, 플로우차트와 유사)로 "번역"하면 속도가 수백 배 빨라질 수 있습니다.
- 사람이 이해하기 위해서: 예를 들어 AI가 게임을 하며 판단을 내린다고 가정해 봅시다. 하지만 무엇을 근거로 판단했을까요? 빨간색 블록을 본 것일까요, 아니면 소리를 들은 것일까요? 만약 AI가 배운 규칙을 "빨간색 블록을 보면 왼쪽으로 회전한다"와 같은 기호 논리(Symbolic Logic)로 추출할 수 있다면, 우리는 이를 이해할 수 있습니다.
그는 무엇을 했는가?
1. 이론적 돌파구: 그는 학생들과 함께 수학적으로 한 가지 사실을 증명했습니다 — AI는 학습 과정에서 실제로 그 이면에 있는 가장 단순한 법칙을 스스로 찾아낼 능력이 있다는 것입니다. 예를 들어, 물리학자가 만유인력 공식이 $F = G \frac{m_1 m_2}{r^2}$ 임을 발견한 것처럼, 이 공식은 매우 간결하고 아름답습니다. Atlas는 이론적으로 AI도 "시행착오 학습(Gradient Descent, 경사 하강법)"을 통해 아무도 이해할 수 없는 복잡한 근사 함수가 아닌, 이와 유사한 간결한 공식을 찾을 수 있음을 증명했습니다.
2. 현실적인 한계: 다만, 현재 이 증명은 "이러한 가능성이 이론적으로 존재한다"는 단계에 머물러 있습니다. 마치 복권 당첨금이 존재한다는 것은 알지만, 매번 정확히 당첨될 것이라고 보장할 수 없는 것과 같습니다. 이 이론을 유용한 도구로 만드는 데는 아직 긴 시간이 필요합니다.

세 번째: AI가 금융 분야(특히 고빈도 매매)에서 어떻게 사용되는가?

Atlas가 현재 근무 중인 XTX는 고빈도 매매(High-Frequency Trading, HFT)를 수행하는 세계적인 기업입니다.

그들은 무엇을 하는가?
- 핵심 과제는 주가 예측입니다. 하지만 내일 오를지 내릴지를 예측하는 것이 아니라, 미래 몇 밀리초(ms) 또는 몇 나노초(ns) 단위의 가격 변화를 예측합니다. 이들은 방대한 실시간 거래 데이터(가격, 거래량 등)를 분석하여 그 안에서 미세한 신호를 찾아내야 합니다.
어려움은 무엇인가?
- 모든 것이 노이즈(Noise): 금융 시장은 극도로 혼란스러우며, 데이터의 99.99%는 무작위 변동입니다. 그들의 업무는 쓰레기 더미 속에서 금을 찾는 것과 같으며, 예측 정확도를 50%(찍기)에서 50.01%로 올리는 것입니다. 겨우 0.01% 차이라고 생각할 수 있지만, 거래량이 워낙 방대하기 때문에 이 미세한 우위가 엄청난 이익을 가져다줍니다.
왜 AI가 이 작업에 적합한가?
- 전통적인 방식의 한계: 과거에는 간단한 수학 모델(선형 회귀, Linear Regression)로 충분했지만, 현재 시장 경쟁은 매우 치열하여 더 복잡한 패턴을 포착하기 위해 더 진보된 AI 기술을 사용해야 합니다.
- 매우 높은 진입 장벽: 챗봇처럼 인터넷에 공개된 데이터로 학습할 수 있는 것과 달리, 고빈도 매매에 사용되는 데이터는 독점적이고 사적인 데이터이므로 외부에서 구할 수 없습니다. 이는 강력한 기술적 장벽을 형성합니다. Atlas는 금융 산업이 AI에 의해 완전히 정복될 마지막 요새 중 하나가 될 것이라고 말했는데, 그 이유는 데이터와 경험의 축적이 매우 깊기 때문입니다.

요약하자면

이 대화의 핵심 관점은 다음과 같습니다: AI의 미래는 단순히 모델을 점점 더 크게 만드는 것뿐만 아니라, 모델을 설명 가능하고(Explainable) 효율적으로 만드는 것에 있습니다. 게스트는 한편으로는 AI가 간결한 기호(공식 등)를 사용하여 사고하도록 만드는 방법을 이론적으로 탐구하고 있으며, 다른 한편으로는 실무에서 속도와 정밀도가 극도로 요구되는 금융 거래에 AI를 적용하고 있습니다. 또한 그는 이 분야가 AI 연구자들에게 기회가 가득한 블루오션이라고 생각합니다.

2. 팟캐스트에서 "기호 신경망 / Neuro-symbolic AI"에 대해 언급된 부분

팟캐스트에서 "기호 신경망 / Neuro-symbolic AI"에 대한 논의는 주로 **제(3)부(전체 분량의 약 22%~52% 지점)**에 집중되어 있습니다. 즉, Atlas가 자신의 주요 연구 흐름을 설명하는 부분으로, 핵심은 "저차원 압축(Low-dimensional Compression)"에서 "신경망(NN)을 기호로 압축하기"로 이어지는 라인입니다. 구체적인 지점을 표시해 드립니다:

📍 시작점: Alan의 질문 "기호 NN이란 정확히 무엇이며, 왜 중요한가?"

Atlas가 방금 자신의 이론 논문(신경망이 경사 하강법을 통해 기호 방정식을 학습할 수 있음을 증명함)에 대해 언급하자, Alan이 잠시 멈추고 한 단계 뒤로 돌아가 질문합니다:

"기호 신경망(Symbolic Neural Network)이란 실제로 무엇을 의미하며, 우리가 왜 그것에 관심을 가져야 하는가?"

Atlas의 답변은 기호적(Symbolic) 계열의 전체적인 프레임워크를 다룹니다. 논리, 규칙, 연관 관계는 본래 기호로 작성될 수 있는 것들입니다. 그가 생각하는 '궁극의 압축'은 신경망(NN)을 더 작은 신경망으로 증류(Distillation)하는 것(Pruning, Low-rank, MoE와 같은 10x–100x 수준의 압축)이 아니라, 신경망을 비(非) 신경망의 형태로 압축하여 교과서에 실릴 수 있는 '읽을 수 있는 지식'으로 만드는 것입니다. 이 섹션은 기호론 전체의 '총강(General Outline)'에 해당합니다.

📍 연관 규칙 / Apriori에 대한 향수 (Alan의 대화)

Alan은 자신이 머신러닝(ML)에 입문했을 때 Apriori 알고리즘과 연관 규칙 추출(Association Rule Mining)을 공부했다고 말하며, Target의 임신 예측과 관련된 유명한(전설적인) 일화를 예로 들었습니다. 이는 사실상 기호 AI(Symbolic AI)의 조상 격인 방향을 대조하기 위해 소환된 것입니다. 현재의 신경망(NN) 시대에는 비지도 학습(Unsupervised Learning), 클러스터링(Clustering), 차원 축소(Dimensionality Reduction) 등이 저평가받고 있지만, SAM(Segment Anything)처럼 "이미지를 의미론적으로 자동 분할"하는 방식은 본질적으로 과거 그 경로의 연장선에 있습니다. Atlas는 "연관 기억(Associative Memory)은 매일 사용되고 있다"라고 덧붙이며 이 계보를 인정했습니다.

📍 실용적 동기 두 가지 (Atlas가 밝히는 기호 학습의 "실용주의")

Alan이 "실제로(Practically) 무엇을 하고 싶은가"라고 묻자, Atlas는 두 가지 적용 사례를 제시했습니다.

효율성: 강화학습(RL)의 네트워크 혼잡 제어를 의사결정 나무(Decision Tree)로 변환하여, CPU에서 400–500배 가속을 달성했습니다. 이는 그 어떤 신경망(NN) 압축보다 강력합니다.
설명 가능성(Explainability): OpenAI Gym의 간단한 시각 환경에서 CNN 기반 강화학습(RL)을 기호 트리(Symbolic Tree)로 변환했습니다. 색상 블록을 객체로 자동 그라운딩(Grounding)한 뒤 논리 연산자로 조합하는 방식으로, "중간층 시각(Intermediate-level vision)"의 자동 분할과 유사합니다. Atlas는 스스로 복잡한 장면으로의 확장(Scaling)은 어렵다고 인정했습니다(Minecraft와 같은 단순한 환경에서만 테스트함).

이 두 가지는 **기호 신경망(Symbolic NN)의 "실증적 분기"**입니다. 즉, NN을 기호 트리나 의사결정 나무로 변환하여 실행 가능하면서도 설명 가능한 형태로 만드는 것입니다.

📍 이론적 부분 (이번 에피소드에서 가장 "난도가 높은" 구간)

뉴턴의 제2법칙 $1/r^2$ 예시: 만약 뉴턴이 오늘날 신경망(NN)을 사용하여 중력 데이터를 피팅(Fit)한다면, NN은 깨끗한 $1/r^2$ 형태를 내놓지 못하고 지저분한 근사치만을 제공할 가능성이 높습니다. 이는 NN의 귀납적 편향(Inductive Bias)에 "깨끗하고 간결한 방정식을 학습하는 항"이 없기 때문입니다. 이것이 바로 기호 학습(Symbolic Learning)이 필요한 이유(Motivation)를 보여주는 예시입니다.
그들이 연구한 이론: 다항식을 학습하는 합성 데이터(Synthetic Data)를 활용하며, 데이터 생성 과정에 대수적 구조(군(Group), 환(Ring))가 있다고 가정합니다. 경사 흐름(Gradient Flow)의 측도 공간(Measure Space) 분석을 통해, 경사 하강법(Gradient Descent)이 실제로 NN을 기저의 기호 구조(Underlying Symbolic Structure)로 정확하게 수렴시킬 수 있음을 증명했습니다. 즉, 연속적인 동역학(Continuous Dynamics)이 이산적인 목표(Discrete Target)에 도달할 수 있음을 보여준 것입니다.
주의사항(Caveat): Atlas는 현재의 연구가 존재성 증명(Existence Proof)일 뿐 구성적 증명(Constructive Proof)은 아니라고 솔직하게 밝혔습니다. 이는 로터리 티켓(Lottery Ticket) 가설과 유사합니다(특정 초기화 지점에 티켓이 존재한다는 것은 알지만, 어떻게 직접 꺼낼지는 모르는 상태). "과잉 매개변수화(Over-parameterized)된 훈련을 거치지 않고 직접 기호 방정식을 얻어내는" 성배(Holy Grail)에 도달하기까지는 아직 거리가 있습니다.

📍 이후 이어지는 두 가지 "광의의 뉴로-심볼릭(Neuro-symbolic)" 확장 (핵심은 아니지만 관련 있음)

Alan이 제안한 방법: LLM이 스스로 스팸 방지를 위한 if-else 규칙 의사결정 나무를 생성하게 하는 방식입니다. 매우 저렴하고 설명 가능합니다. Atlas는 이에 대해 본질적으로 모델 정렬(Model Alignment)에 신뢰를 거는 방식이라고 평가하면서도, LLM이 기호를 생성하고 이를 도메인별 기호 검사기(Symbolic Checker, 예: 컴플라이언스 검증 $\rightarrow$ DPO 피드백 루프)와 연결하는 것은 광의의 뉴로-심볼릭(Neuro-symbolic)에 해당하며, 본인의 연구팀에서도 다루어 본 적이 있다고 언급했습니다.
JEPA / 세계 모델(World Model) 부분: Rabbit이 질문했을 때, Atlas는 "JEPA + MPC 방식은 매우 훌륭하며, Koopman 연산자(Koopman Operator)와도 깊게 연관되어 있다"라고 언급했습니다. Koopman 이론의 본질은 비선형 동역학을 선형 기호 공간으로 매핑하는 것이며, 이 역시 기호적 계보의 친척이라 할 수 있습니다. 다만 Atlas는 이를 자세히 설명하지 않고 JEPA가 만능 해결책은 아니라고만 덧붙였습니다.

따라서 엄밀한 의미의 "기호 신경망(Symbolic Neural Network)" 메인 요리는 **(3)번 섹션의 [Alan의 정의 질문 $\rightarrow$ 두 가지 실용 사례 $\rightarrow$ 뉴턴 예시 $\rightarrow$ 이론적 증명 $\rightarrow$ 주의사항]**이며, 전체 분량의 약 1/3을 차지합니다. 이후의 LLM 규칙 생성 및 JEPA는 주변적인 확장이며, 만약 "NN이 어떻게 이산적인 기호 구조를 학습하는가"라는 맥락을 파고들고 싶다면 메인 요리 부분만으로 충분합니다.

3. XTX Markets 회사의 기원과 발전 역사

XTX Markets는 매우 흥미로운 회사입니다. 2015년 GSA Capital에서 분사된 "신생 기업"임에도 불구하고, 현재 외환(FX) 마켓 메이킹 분야 세계 3위, 영국 내 납세액 1위를 기록하고 있습니다. 또한 외부 투자 없이 오로지 자체 개발 알고리즘만으로 성장했습니다. 이 회사의 내력을 정리해 드리겠습니다.

🧑🎓 창립자: Alex Gerko, 러시아계 수학 박사

모스크바 국립대학교 수학 박사로, 본래 학계의 길을 걸으려 했으나 스스로 "세계적인 지식인"이 되기에는 부족하다고 느껴 산업계로 전향했습니다.
먼저 런던의 **德意志은행 (Deutsche Bank)**에서 퀀트 (Quant)로 근무했으며, 이후 GSA Capital (德意志은행에서 분사된 영국 퀀트 헤지펀드)로 이직했습니다. GSA에서 외환 거래 부서를 직접 구축했으며, 이후 다른 자산군으로 영역을 확장했습니다.
하지만 그는 거래 이익을 외부 투자자에게 배분하기보다 사업에 재투자 (reinvest) 하는 것을 선호했습니다. 이는 GSA의 이해관계와 일치하지 않았고, 결국 분사를 논의하게 되었습니다.

🏗️ 2015: XTX의 탄생

2015년 1월 30일 런던에서 설립되었습니다. 팀은 GSA에서 데려온 소수의 트레이더와 약간의 초기 자본으로 구성된 GSA의 스핀오프 (spin-off) 기업입니다.
이름인 XTX는 선형 회귀 (Linear Regression)의 기호 ($X^TX$, 행렬의 전치 행렬 곱)에서 따왔습니다. 수학적 색채가 가득하며, 창립자의 박사다운 미적 취향을 잘 반영하고 있습니다.
공동 CEO는 Zar Amrolia (전 德意志은행 외환 부문 책임자)이며, Gerko와 함께 팀을 이루었습니다.

📈 성장 경로: 외환 마켓 메이킹으로 은행의 파이를 가져오다

XTX가 하는 일은 **non-bank liquidity provider / 전자 마켓 메이커 (Electronic Market Maker)**입니다. 간단히 말해 은행 창구를 통하지 않고, 알고리즘을 사용하여 외환, 주식, 채권 등의 시장에 매수/매도 주문을 걸어 스프레드 (spread)를 취하는 동시에 시장에 유동성을 공급하는 역할을 합니다.

2016년: Euromoney 글로벌 외환 유동성 공급자 순위 9위를 기록, 시장 점유율 3.87% 달성 — 이는 역사상 처음으로 비은행 기관이 10위권 내에 진입한 사례입니다.
2018년: 글로벌 3위까지 치고 올라오며 비은행 기관 중 1위를 차지했고, 시티(Citi), JP모건(JPMorgan), UBS와 같은 유수의 전통 투자은행들을 제쳤습니다.
어떤 파이를 가져왔을까요? 전통적인 외환 장외 시장 (OTC)은 런던 금융가의 대형 투자은행 트레이딩 데스크가 주도해 왔으며, "누구에게 전화해야 하는지"를 아는 것이 매우 중요했습니다. XTX는 알고리즘과 머신러닝 (Machine Learning)을 사용하여 이 "관계 중심적 비즈니스"를 "예측 중심적 비즈니스"로 바꾸어 놓았습니다. 은행의 인력 투입 전술은 XTX의 낮은 지연 시간 (latency)과 모델을 이길 수 없었습니다.

🌐 사업 확장: FX에서 전 자산군으로

초기에는 외환 OTC만 다루었으나, 이후 지속적으로 확장했습니다.

외환 (FX) (기본 사업, 글로벌 Top 3)
주식 / 채권 / 상품 / 암호화폐 — 현재 공식 홈페이지에 따르면 5만 개 이상의 금융 도구를 커버하고 있으며, 일일 거래량은 약 1,120억 달러에 달합니다 (제3자 매체는 2,500억 달러로 더 높게 보고하기도 함).
Atlas Wang 교수의 라인 (UT Austin 교수 + XTX 연구 총괄)이 합류한 시점이 바로 이때입니다. 회사가 "외환 마켓 메이킹"에서 "멀티 에셋 시계열 기초 모델 (Multi-asset Time-series Foundation Model)"로 업그레이드하고자 했기에, 거대 모델 (Large Model) 전문가가 필요했습니다.

💰 주목할 만한 데이터 포인트

극도로 정예화된 인력: 약 250명의 직원이 일일 2,500억 달러의 거래량을 처리합니다. 전통적인 트레이더를 고용하지 않고, 전 직원이 알고리즘, 연구, 개발 인력으로 구성되어 있습니다.
Gerko가 지분 75% 보유: 외부 투자자가 없으며 이익은 파트너들에게 배분되므로 스노우볼 효과가 매우 빠릅니다.
강력한 AI 인프라: 연구 클러스터로 11,000장의 GPU와 309 PB의 스토리지를 보유하고 있습니다. 2025년에는 핀란드에 10억 달러를 투자하여 자체 데이터 센터를 구축한다고 발표했습니다 (임대가 아닌, 5개 센터 중 첫 번째 센터를 직접 건설). 연산 능력 (compute)이 곧 그들의 생산 수단이기 때문입니다.
2025년 영업 이익 23억 달러, Gerko 개인은 6.6억 파운드의 소득세를 납부하며 영국 내 납세액 1위를 기록했습니다.
자선 활동: 2020년부터 2.5억 파운드 기부를 약속했으며, 수학 교육(저소득층 배경 학생들의 수학/PhD 학업 지원, 돌파구적 연구 가속화)에 집중하고 있습니다. 이는 그의 개인적 배경과도 맞닿아 있습니다.

🇷🇺➡️🇬🇧 몇 가지 뒷이야기

Gerko는 러시아계이지만 이미 러시아 시민권을 포기했으며, 우크라이나에 수천만 파운드를 기부했습니다. 러-우 전쟁 이후 러시아계 금융권 내에서 매우 눈에 띄는 입장입니다.
본사는 런던에 있으며, 사무실에는 아폴로 11호 복제 모델이 걸려 있습니다. Gerko 개인의 취향은 "하드코어한 공학적 로맨티시즘"에 가깝습니다.
Citadel Securities, Jump Trading과 같은 미국의 비은행 마켓 메이커들과 어깨를 나란히 하지만, XTX의 특징은 유럽에 기반을 둔 점이 더 강하며, 순수하게 속도 경쟁을 하기보다는 머신러닝 예측에 더 무게를 둔다는 점입니다. 이는 Atlas Wang이 팟캐스트에서 "우리는 누가 더 짧은 광섬유를 쓰는지 겨루는 게임을 하는 것이 아니라, 누가 더 정확하게 예측하는지를 겨룬다"라고 말한 이유이기도 합니다.

4. 팟캐스트 전체 내용 요약

이번 《Information Bottleneck》 팟캐스트 EP19 (게스트: Atlas Wang, UT Austin 교수 / XTX 연구 총괄)의 스크립트를 바탕으로, 주제의 흐름과 토큰 비중(대략적인 시간 비율)에 따라 구분하였으며 전체 제목을 첨부합니다.

전체 제목

「EP19｜Atlas Wang 대담: NeurIPS 현장 관찰, 기호 AI(Symbolic AI)와 신경망(Neural Networks)의 증명 가능한 방정식, 그리고 금융 고빈도 매매의 AI화」

제(1)부: 오프닝 인사 및 게스트 소개 (약 0% – 4%)

1 게스트 소개 및 가벼운 농담: Rabbit과 Alan이 이번 회차의 게스트인 Atlas Wang을 소개합니다. Atlas는 UT Austin 교수이자 XTX 연구 총괄(Research Director)이며, 뉴욕에 거주하고 있는 두 사람의 친구이기도 합니다. Atlas는 자신이 왜 "특별한 게스트(special guest)"인지에 대해 농담 섞인 답변을 내놓습니다. UT 교수 / XTX 연구 총괄 / 친구 / 뉴욕 거주라는 조건에 대해, 네 사람은 "대부분(mostly) 친구 사이"라며 웃음을 터뜨립니다.
2 뉴욕의 추위와 오프라인 만남: Alan은 두 사람과 같은 도시(뉴욕)에 있어 기쁘다는 말을 덧붙이며, 매우 추운 날씨 속에 함께 "벌벌 떨고" 있다고 언급합니다. 또한 지난 NeurIPS에서 짧게 대화를 나눴던 것을 언급하며, 이번 팟캐스트를 통해 당시 컨퍼런스에 대한 견해를 함께 나누고자 한다고 말합니다.

제(2)부: NeurIPS San Diego 참가 경험 및 컨퍼런스 생태계 관찰 (약 4% – 22%)

1 Atlas의 이중적 신분을 통한 참가 관점: Atlas는 "학계 + 산업계"라는 두 가지 역할을 동시에 수행하며 참가했습니다. 학생들을 데리고 포스터 발표를 하러 간 동시에, XTX가 플래티넘 스폰서(Platinum Sponsor)였기에 이틀 동안 전시 부스에서 사람들을 만났습니다. 순수 학술 활동보다 더 피로감을 느꼈지만, 샌디에이고의 따뜻한 날씨와 "생성형 AI (Generative AI) × 금융"의 열기가 매우 인상적이었다고 전합니다.
2 Alan의 세 가지 소감: ① 많은 LLM 샘플링 (sampling) 연구를 볼 수 있어 기뻤다 (본인의 회사인 Thoughtworks에서 샘플링 랩을 운영 중이며 인재 영입을 희망함); ② 공식 앱인 Hoova의 품질이 매우 낮아 NeurIPS 2024보다 기능이 훨씬 못 미쳤으며, 이로 인해 오히려 오프라인에서 길을 묻거나 전자 스크린을 확인해야 하는 등 경험이 퇴보했다는 점을 강하게 비판함; ③ 샌디에이고는 매우 아름다웠고 캘리포니아 사람들은 의외로 여유로웠으며, 워크숍 (workshop)의 질이 좋았다. 투고 논문의 질이 희석되지 않는 한, 사람이 많은 것은 전반적으로 좋은 현상이다.
3 연구자가 아닌 사람들의 비중이 높아진 현상: Alan은 NeurIPS가 ICLR보다 비연구자들을 더 많이 끌어들인다고 지적합니다. "아무나 붙잡아도 논문(paper)이 있을 확률이 더 낮다"며, 때로는 연구자 (researcher)와 식사하고 싶어도 VC(Venture Capital)들에게 둘러싸이는 상황을 언급합니다. 이에 Atlas는 사실 자신은 이를 싫어하지 않는다고 답합니다. XTX 자체에도 VC 팀이 있으며, 뉴욕에서 샌디에이고로 가는 비행기 옆 좌석에 앉은 VC가 Atlas의 논문 제목 여러 개를 읊을 정도였습니다. 학생들도 다 기억하지 못할 정도의 지식에 Atlas는 황송함을 표했습니다.
4 VC가 논문을 읽는 동기: VC들은 매일 archive나 Google Scholar를 확인하며 "좋은 돈과 나쁜 돈"을 판별하려 노력합니다. 그 난이도는 논문 리뷰어(reviewer)가 논문을 선정하는 것만큼이나 높습니다. 따라서 Atlas는 "더 넓은 범위의 사람들이 우리의 논문을 읽고 있다"는 사실에 대해 딱히 냉소적(sarcastic)이지 않습니다.
5 컨퍼런스의 성격 혼재와 워크숍의 가치: 세 사람은 "컨퍼런스의 본질이 무엇인가"에 대해 토론합니다. 전통적으로는 동료 간의 교류(peer exchange)였으나, 현재는 채용, VC의 인재 탐색, 기업 브랜딩 등이 뒤섞여 있습니다. Atlas는 개인적으로 NeurIPS를 "저비용으로 친구들을 만나는 일회성 여행"으로 여깁니다. 학술적인 신작은 기본적으로 컨퍼런스 개최 6개월 전에 이미 알려지기 때문입니다. 그는 워크숍을 더 선호하는데, 메인 컨퍼런스(main conference)는 이해관계가 너무 많이 얽혀 있어(저자/리뷰어 간의 압박) 워크숍이 더 순수하며, 아직 미완성인(half-baked) 최첨단 아이디어들을 과감하게 내놓을 수 있기 때문입니다.
6 워크숍의 "빈익빈 부익부" 현상: Alan은 작년에 Yosua Bengio가 조직한 "Pluralism & Creativity" 워크숍(영화 <컨택트>의 저자 테드 창 참여)을 예로 듭니다. 당시 방은 700~800명이 들어차 소방서가 출동해야 할 정도였지만, 본인이 참석했던 "stochastic sampling" 워크숍(P@k 디코딩 관련, min-p 관련)은 많아야 50명 정도였습니다. 같은 워크숍임에도 트래픽 차이가 극명했습니다.
7 작은 방이 반드시 낮은 보상을 의미하지는 않음: Atlas는 올해 자신도 "금융을 위한 생성형 AI (Generative AI for Finance)" 워크숍을 공동 조직(co-organize)했으며, 마찬가지로 인원이 가득 찼다고 덧붙입니다. 하지만 그는 "15명의 참가자가 당신의 연구를 완벽히 이해할 수 있는" 작은 방의 워크숍을 더 소중히 여깁니다. 핵심은 신호 대 잡음비(signal-to-noise ratio)이기 때문입니다. 그는 또한 올해 이 방향의 워크숍을 조직하고 있다는 점을 언급했습니다.

제(3)부: Atlas의 연구 메인 라인: 저차원 압축에서 기호 AI(Symbolic AI)까지 (약 22% – 52%)

1 PhD 배경과 "저차원"에 대한 집착: Atlas의 박사 과정은 통계/신호 처리/최적화(Optimization)를 다루었습니다. 첫 번째 연구 방향은 압축 센싱(Compressive Sensing)이었고, 이후 저계수(Low-rank), 매니폴드(Manifold)를 연구했습니다. 그러다 모두가 딥 뉴럴 네트워크(Deep Neural Network, DNN)로 달려가는 것을 보고 뒤따라갈 수밖에 없었지만, 오히려 과잉 매개변수화된(Over-parameterized) NN 내에서 저차원적 이해를 실천할 기회가 더 많다는 놀라운 사실을 발견했습니다. 가지치기(Pruning), 로터리 티켓(Lottery Ticket), 저계수(Low-rank), MoE(Mixture of Experts) 등이 그 예시입니다.

2 최근 1년간 가장 좋아했던 논문 (이론 중심): 제목은 대략 "NN이 경사 하강법(Gradient Descent)을 통해 어떻게 기호 방정식(Symbolic Equation)을 학습할 수 있는지 증명함"에 관한 것입니다. 기존의 딥러닝 이론은 대부분 경사 역학(Gradient Dynamics)이 NN을 희소성(Sparsity), 저계수(Low-rank), 저엔트로피(Low-entropy)와 같은 구조화된 해로 이끈다는 것을 증명하지만, 연속적인 역학(Continuous Dynamics)에서 "이산적 기호 구조 학습(Discrete Symbolic Structure Learning)"으로 넘어가는 간극(Gap)은 여전히 메워지지 않은 상태입니다.

3 "기호화(Symbolization)"에 관심을 갖는 이유: Alan이 청중을 대신해 질문했습니다. 기호 NN(Symbolic NN)이란 정확히 무엇이며, 왜 관심을 가져야 하는가? Atlas는 논리, 규칙, 연관 관계는 본래 기호로 작성될 수 있다고 답했습니다. 그가 생각하는 "궁극의 압축"은 NN을 더 작은 NN으로 증류(Distillation)하는 것(저계수/희소성/가지치기를 해도 기껏해야 10x–100x 압축일 뿐임)이 아니라, NN을 NN이 아닌 형태—즉, 교과서에 적을 수 있는 인류의 약학 지식—로 압축하는 것이며, 그것이야말로 최적의 압축이라고 말했습니다. 인간이 읽을 수 있는 기호 언어(Symbolic Language)가 최종 형태입니다.

4 연관 규칙 학습(Association Rule Mining)에 대한 향수: Alan은 자신이 머신러닝(ML)에 입문했을 때 사용했던 Apriori와 연관 규칙 학습을 언급하며, Target의 임신 예측과 관련된 그 유명한(전설적인) 이야기를 꺼냈습니다. 그는 "차원 축소/비지도 학습/클러스터링(Clustering)"이 NN 시대에 불공평하게 저평가되었다고 느꼈습니다. SAM(Segment Anything)을 예로 들면, 이상적인 이미지 클러스터링은 SAM처럼 의미론적(Semantic)으로 이미지를 분할해야 합니다. 인간 아기는 초기 단계에서 기본적으로 비지도 학습(Unsupervised) 상태입니다(사과 $
eq$ 유리컵). Alan은 자신의 한 살짜리 아이가 매일 이 점을 증명하고 있다고 덧붙였습니다.

5 Atlas의 "실용 $\rightarrow$ 이론"적 답변: 먼저 실용적인 동기부터 설명했습니다.

효율성: 강화학습(RL)의 네트워크 혼잡을 의사결정 나무(Decision Tree)로 변환하여 CPU에서 직접 400–500배 가속했습니다. 이는 그 어떤 NN 압축 알고리즘보다 강력합니다.
해석 가능성(Explainability): OpenAI Gym의 간단한 시각 환경에서 CNN 기반 RL을 기호 트리(Symbolic Tree)로 변환했습니다. 색상 블록을 객체로 자동 그라운딩(Grounding)한 뒤 논리적으로 조합하는 방식으로, 이는 "중간층 시각(Intermediate Vision)"의 자동 분할과 유사합니다. Atlas는 이것이 복잡한 시각적 장면으로 확장(Scaling)하기에는 어렵다는 점을 인정했습니다(Minecraft와 같은 간단한 환경에서만 테스트함). 하지만 NN이 실제로 학습하는 것이 "인지 모듈(Perception Module) + 조합 가능한 논리(Composable Logic)"라는 점을 증명했습니다.

6 동료 연구자들: Flatiron, Cambridge의 Milk 그룹 또한 기호 회귀(Symbolic Regression)를 연구하고 있으며, 모두 같은 방향을 바라보고 있습니다.

7 이론적 동기의 예시 — 뉴턴의 제2법칙: Atlas는 고등학교 시절의 의문을 비유로 들었습니다. "왜 중력은 $1/r^{2.015}$가 아니라 $1/r^2$인가?" 물리 박사라면 적분을 통해 이를 유도할 수 있지만, 만약 뉴턴이 오늘날 NN을 사용하여 피팅(Fitting)한다면, NN은 깨끗하고 간결한 $1/r^2$을 내놓기보다는 지저분한 근사치(Messy Approximation)를 내놓을 가능성이 높습니다. NN의 귀납적 편향(Inductive Bias)에는 "깨끗하고 간결한 방정식을 학습한다"는 항목이 없으며, "깨끗함" 그 자체는 매우 강력한 인간의 사전 지식(Prior)이기 때문입니다.

8 그들이 수행한 이론적 연구: 합성 데이터(Synthetic Data)로부터 다항식을 학습하는 것부터 시작했습니다. 데이터 생성 과정에 대수적 구조(군(Group), 환(Ring))가 있다고 가정하고, 경사 흐름(Gradient Flow)의 측도 공간(Measure Space) 분석 등의 도구를 사용하여, 경사 하강법이 실제로 NN을 기저에 깔린(Underlying) 기호 구조로 정확하게 수렴시킬 수 있음을 증명했습니다. 연속적인 역학이 이산적인 목표에 도달할 수 있다는 사실에 Atlas 스스로도 매우 고무되었습니다.

9 이론적 한계(Caveats): Alan의 추가 질문에 Atlas는 솔직하게 털어놓았습니다. 현재는 **존재성 증명(Existence Proof)**이지, 구성적 증명(Constructive Proof)은 아닙니다(로터리 티켓에 비유하자면: 초기화된 지점 어딘가에 그 티켓이 존재한다는 것은 알지만, 어떻게 직접 꺼낼지는 모르는 것과 같습니다). "과잉 매개변수화된 훈련을 거치지 않고 기호 방정식을 직접 얻는 것"이라는 성배(Holy Grail)에 도달하기까지는 아직 거리가 있습니다.

제(4)부: 추론, 데이터, 아키텍처 수렴에 관한 확장 토론 (약 52% – 65%)

1 Reasoning / CoT (Chain-of-Thought)가 필수적인 경로인가: Rabbit의 질문 — Chain-of-thought / reasoning model과 같은 유형이 장기적으로 필수적(essential)인 것인가, 아니면 단지 현재의 국소 최적해(local optimum)인가? Atlas는 유연하게 답변했다 — "데이터가 충분히 좋다는" 전제하에 RL-style reasoning이 반드시 필요한지는 불확실하다. 모든 알고리즘은 고차원 데이터 공간에서 탐색(search)을 수행하며, 아키텍처/최적화는 탐색의 시작점을 조금 더 유리하게 만들어주는 좋은 귀납적 편향(inductive bias)을 제공할 뿐이다. 만약 목표 분포(target distribution) 샘플링이 충분히 잘 이루어진다면, 순수 무작위 탐색(random search)으로도 도달할 수 있을지 모른다. 그는 XTX에서 대규모 모델(LLM) 학습을 수행한 후, 신념이 "알고리즘 정교화"에서 "문제 설정 + 데이터 분포" 쪽으로 이동했다. 후자가 가져오는 성능 향상이 훨씬 강력하기 때문이다.

2 Alan이 제안한 "LLM이 스스로 anti-spam 결정 트리(decision tree)를 생성하게 하는" 편법: 프롬프트(prompt)를 통해 모델이 키워드나 if-else 방식의 규칙을 산출하게 하여, 매우 저렴한 비용으로 설명 가능한 분류기(classifier)를 얻는 방식이며 효과도 나쁘지 않다. 이에 대해 Atlas의 견해를 묻자, Atlas는 다음과 같이 답했다: "이것은 본질적으로 모델 정렬(model alignment)의 품질에 신념을 거는 것이다. LLM이 스스로 기호(symbol)를 생성하게 하는 것은 광의의 신경-기호 AI (neuro-symbolic AI)라고도 볼 수 있다 (언어 자체가 기호이며, 도메인 기호 검사기(symbolic checker)와 연결될 수 있기 때문)." 그들의 팀 또한 LLM이 계획(plan)을 제안하면 → 컴플라이언스 검사기(compliance checker)로 보내고 → DPO 피드백 루프를 돌리는 방향의 연구를 진행한 바 있다.

3 JEPA / 세계 모델 (world model) 에피소드: Rabbit은 JEPA (Yann LeCun의 라인)와 "시간에 따라 진화하는 내부 상태"가 일종의 기호 모델(symbolic model)의 친척이라고 볼 수 있는지 물었다. Atlas는 JEPA의 MPC + JEPA 표현 결합 방식이 매우 훌륭하며, 자신이 관심을 두고 있는 NN 동역학(NN dynamics) 방향인 Koopman operator와도 깊게 연관되어 있다고 말했다. 하지만 JEPA가 딥러닝(deep learning)의 모든 문제에 대한 범용적인 해법이라고 생각하지는 않는다. 모든 알고리즘은 무언가를 가정(assume)해야 하며, "모든 모델은 틀렸고, 어떤 모델은 유용하다"라는 관점에서 JEPA는 '유용한(useful)' 범주에 속한다고 보았다.

4 아키텍처가 수렴할 것인가: Rabbit이 다시 질문했다 — "데이터가 충분히 좋다면 모든 알고리즘이 동일한 종류의 해로 수렴하는가?" Atlas는 Yes이기도 하고 No이기도 하다고 답했다: NN이 보편적 근사기(universal approximator)라는 사실은 90년대에 이미 알려졌지만, 그 후 30년 동안 ResNet, Transformer, Fast RNN (최근 test of time award를 수상) 등이 계속 등장했다. 이론적으로 학습 가능하다는 것이 실험적으로 훈련 가능하다는 것을 의미하지는 않는다. 최적화 안정성, 하이퍼파라미터(hyperparameter), DDP/FSDP에 대한 아키텍처의 친화도와 같은 "복권 같은 설계 선택(lottery-style design choices)"이 지난 DL 발전 과정에서 차지하는 비중은 매우 컸다. 따라서 그는 연구를 할 때 (특히 산업 측면에서) 알고리즘의 옳고 그름을 종교적으로 따지지 않고, 오직 "현재 생태계에 적합한가"만을 본다.

제(5)부: 합성 데이터, 금융(고빈도 매매) 시나리오 적용 (약 65% – 82%)

1 Alex Dimakis의 "문제가 적더라도 정답이 많은 것이 더 낫다"는 밈(Meme): Rabbit은 Berkeley의 Alex Dimakis가 관찰한 내용을 언급했습니다. 즉, 1만 개의 문제에 각각 1개의 정답이 있는 경우보다, 500개의 문제에 각각 2개의 정답이 있는 경우가 학습 결과가 더 좋았다는 것입니다. 질문 정보(question-info)와 정답 정보(answer-info)의 상호작용이 매우 기묘하다는 점입니다. Atlas는 이 구체적인 사례를 처음 듣지만 납득할 수 있다(buy)고 말했습니다. 이는 Dimakis의 또 다른 논문인 "단 1개의 문제만을 사용하여 모델이 다양한 방식으로 반복해서 풀게 하고 스스로 개선하게 하는 RL (강화학습)" 연구를 연상시키며, 매우 영감을 준다고 덧붙였습니다.

2 고등학교 문제 풀이 비유: Atlas는 자신의 고등학교 수학 선생님의 말씀을 빌려 비유했습니다. 선생님은 무작정 다양한 문제를 풀지 말고, 한 권의 선집을 골라 동일한 문제를 반복해서 풀되 표준 정답보다 더 나은 풀이법을 찾아내라고 강조하셨습니다. "한 문제를 반복해서 씹는 것"이 "한 입 먹고 바로 메뉴를 바꾸는 것"보다 더 높은 정보 가치를 짜낼 수 있으므로, 특정 영역(regime)에서는 "깊이 > 넓이"가 성립한다는 것입니다.

3 합성 데이터는 소수 분야의 사치품: Atlas는 범위를 규정했습니다. 언어/시각/음성(그는 음성은 다루지 않음) 분야에만 합성 데이터가 존재하는데, 이는 해당 도메인에서 판별식 모델(Discriminative Model)이 먼저 성공했기 때문입니다. (ImageNet은 원래 생성을 위해 만들어진 것이 아니며, LiDAR도 원래 캡셔닝(caption)을 위해 만들어졌습니다. 즉, 생성으로 넘어가기 전 고품질의 판별 데이터를 충분히 쌓아야만 생성 모델을 논할 수 있습니다.) 반면, **고빈도 매매(High-Frequency Trading)는 그가 현재 처한 "매우 불행한 도메인"**입니다. 생성 모델이 아직 실제 주식 시장을 생성해내지 못하고 있기 때문입니다. 만약 누군가 이를 해낸다면 자신과 이야기하자고 말했습니다.

4 고빈도 매매의 문제 정의: 가장 전형적인 초급 퀀트(Quant) 문제는 다중 시계열 예측(Multi-time series forecasting)입니다. 거래소의 틱(tick) 단위 가격/거래량/체결/메타데이터를 입력값으로 하여, 여러 주식을 결합해 미래의 짧은 구간(horizon) 동안의 가격이나 방향을 예측하는 것입니다. $y = f(x)$라는 고전적인 정의를 따릅니다.

5 어려운 점: 데이터는 부족하지 않습니다(거래소에서 매초 틱 데이터가 쏟아집니다). 부족한 것은 **고품질의 신호(Signal)**입니다. 이는 기계적/전송 오류가 아니라 시장 자체의 노이즈가 지배적이라는 의미입니다. 즉, "노이즈 속의 노이즈를 예측"해야 하기에 개인 투자자가 시장을 이기는 것(beat the market)은 매우 어렵습니다(S&P는 강력한 리스크 중립적 기준선입니다). 퀀트는 정확도를 "0보다 약간 높은 수준"으로 만드는 데 사활을 걸지만, 고빈도 매매의 일일/연간 거래량은 천문학적입니다. 대수의 법칙(Law of Large Numbers)이 이 미세한 마진(margin)을 엄청난 수익으로 증폭시키기 때문입니다. 이것이 그들이 하는 일입니다.

6 다수 주체 간의 게임 이론: Rabbit은 "정보가 완벽하더라도 결정론적(deterministic)이지 않기 때문인가?"라고 물었습니다. Atlas는 확인해주었습니다. 시장은 다수 주체 간의 게임이므로 해석적 해(analytical solution)는 불가능합니다. 고빈도 매매는 예측 구간(horizon)이 짧기 때문에 이론적으로는 "상대방이 당신에 맞서 전략을 짜기(plot against you) 전에 상황이 종료"되지만, 최근 몇 년간은 반드시 그렇지만도 않다고 덧붙이며 자세한 내용은 생략했습니다.

7 금융권에 생성형 AI가 진입하는 실제 트렌드: Alan은 금융권이 과거에는 보수적인 모델(선형 회귀/Lasso/트리 모델)을 사용했지만, 현재는 확실히 ML (머신러닝)의 최전선으로 향하고 있다고 보충했습니다. XTX와 같은 기업들은 이미 생성형 AI의 수혜를 입고 있으므로 이 트렌드는 실재합니다. 금융의 세부 분야마다 용도가 다릅니다. 어떤 곳은 LLM (대규모 언어 모델)을 사용하여 워크플로우를 자동화하고, 어떤 곳은 파운데이션 모델(Foundation Model)을 사용하여 소셜 미디어를 크롤링해 감성 분석(sentiment analysis, 대체 데이터)을 수행합니다. XTX 같은 곳은 직접 **시계열 파운데이션 모델(Time-series Foundation Model)**을 구축하고 있습니다. 이는 기호 언어 기반의 FM이 아니라, 수치적 연속 흐름을 다루는 시계열 FM입니다.

8 "금융인을 설득하는 방법은 논문이 아니라 연간 수익률뿐이다": Atlas는 이 점이 기술 분야와 다르다고 꿰뚫어 보았습니다. 금융의 역동성은 기술의 흐름보다 뒤처지지만, 이미 성공 사례(수익률 증명)가 나오고 있기 때문에 투자는 계속될 것이며 일부는 반드시 성공할 것이라고 말했습니다.

제(6)부: 채용 프로필, AI 연구 제언 및 마무리 (약 82% – 100%)

Atlas Wang 대담: 기호 AI(Symbolic AI)와 신경망(Neural Networks), 그리고 금융 고빈도 매매의 AI화

요약

핵심 포인트