Import AI 457: AI Stuxnet, 저주받은 Muon Optimizer, 그리고 긍정적 정렬 (Positive Alignment)

Import AI 457: AI Stuxnet; cursed Muon optimizer; and positive alignment

Jack Clark 작성

Stuxnet 이전의 Stuxnet:

…무기 프로그램에 사용되었을 가능성이 있는 Fast16 소프트웨어 버그…

여기에 fast16.sys라고 불리는 약 20년 이상 된 컴퓨터 바이러스에 대한 흥미로운 조사 결과가 있습니다. 이 소프트웨어는 "고정밀 계산 소프트웨어를 선택적으로 타겟팅하여, 메모리 내의 코드를 패치함으로써 결과를 조작한다"는 점에서 흥미롭습니다. "공격자들은 이 페이로드 (Payload)를 자기 전파 메커니즘과 결합하여, 시설 전체에 걸쳐 동일한 부정확한 계산을 생성하는 것을 목표로 합니다."

만약 여러분 중 《삼체 (Three Body Problem)》를 읽은 분이 있다면, 이 내용이 익숙하게 들릴 수도 있습니다. 그 (허구의) 책에서, 지구를 점령하려는 의도를 가진 외계인들은 '지자 (Sophon)'라고 불리는 기술을 사용하여 전 세계의 고에너지 물리학 실험을 방해하며, 인류가 특정 유형의 과학을 발전시키는 것을 불가능하게 만듭니다.

바이러스에 대한 추가 세부 사항: SentinelOne의 연구원들이 이 바이러스를 분해 (Teardown)했을 때, 매우 특이한 점을 발견했습니다: "대부분의 패치 패턴은 실행 흐름 (Execution flow)을 가로채거나 영향을 미치는 데 사용되는 표준 x86 코드와 일치합니다. 하지만 주입된 블록 하나는 다릅니다. 그것은 정밀 산술 (Precision arithmetic) 및 내부 배열의 값 스케일링 (Scaling values)을 전담하는 부동 소수점 장치 (Floating Point Unit, FPU) 명령어로 구성된 더 크고 복잡한 시퀀스입니다. 이 코드는 코드 흐름 가로채기나 다른 일반적인 악성 코드 주입과는 무관한 독립적인 수학적 계산 함수입니다."

추가 조사는 미스터리를 심화시켰습니다: "우리는 패치 규칙을 16진수 YARA 시그니처로 변환하여 해당 시기에 적합한 대규모 코퍼스 (Corpus)에 대조해 보았습니다. 결과는 매우 낮은 적중률을 보였습니다. 두 개 이상의 패턴과 일치하는 파일은 10개 미만이었습니다. 그러나 해당 일치 항목들은 명확한 주제를 공유하고 있었습니다. 그것들은 토목 공학, 물리학 및 물리적 공정 시뮬레이션과 같은 전문 분야의 정밀 계산 도구들이었습니다."

표적 도구 (Targeted tools): “가장 강력한 중첩 지점은 2000년대 중반의 세 가지 고정밀 공학 및 시뮬레이션 제품군을 가리킵니다. 충돌 테스트, 구조 분석, 환경 모델링과 같은 시나리오에 사용되는 LS-DYNA 970, PKPM, 그리고 MOHID 수력학 모델링 (hydrodynamic modeling) 플랫폼이 그것입니다.”라고 그들은 기술합니다. “특히 LS-DYNA는 이란의 JCPOA(포괄적 공동 행동 계획) T항 위반 의혹에 관한 공개 보고서와 핵무기 개발과 관련된 컴퓨터 모델링 연구에서 인용된 바 있습니다… 물리적 세계의 계산에 작지만 체계적인 오류를 도입함으로써, 이 프레임워크는 과학 연구 프로그램을 약화시키거나 늦출 수 있으며, 시간이 지남에 따라 설계된 시스템을 저하시키거나 심지어 파괴적인 손상을 초래할 수도 있습니다.”

이것이 중요한 이유 – 이것이 초지능이 다른 존재의 탄생을 막는 방식일 수 있습니다: fast16은 특정 유형의 과학을 수행하는 주체의 능력을 저하시키도록 설계된, 미묘하고 찾아내기 어려운 버그입니다. 여러분은 초지능이 ‘AI 비확산 (AI non-proliferation)’을 핵보유국들이 ‘핵 비확산 (nuclear non-proliferation)’을 바라보는 것만큼이나 중요하게 여길 수도 있다고 상상할 수 있습니다.** 더 읽어보기**: fast16 | Stuxnet 발생 5년 전 고정밀 소프트웨어 사보타주를 드러낸 미스터리 Shadow Brokers 참조 (Sentinel LABS).

이런, Muon 옵티마이저가 뉴런을 죽입니다:

…어쩌면 Aurora가 마침내 넘어야 할 옵티마이저가 될지도?…

Tilde Research의 연구원들은 Muon 옵티마이저 (optimizer)를 분해 분석하여, 이것이 해당 옵티마이저로 학습된 모델의 품질을 손상시킬 수 있는 몇 가지 이상한 버그를 가지고 있음을 발견했습니다.

“Muon의 업데이트는 키가 큰 행렬 (tall matrices)에서 행 규격 이방성 (row-norm anisotropy)을 상속받으며, 이는 MLP 레이어의 뉴런 중 상당 부분이 영구적으로 죽게 만들 수 있습니다.”라고 그들은 기술합니다. “Muon은 MLP 레이어에서 *뉴런 사멸 (neuron death)*을 초래할 수 있으며, 이 과정에서 일부 뉴런은 학습 초기 단계에서 지속적으로 작은 업데이트를 받게 되어 회복에 실패합니다.”

발생한 현상: “Muon 환경에서 뉴런들은 초기에는 균일하게 높은 레버리지 (leverage)를 가지며 활성화되어 있지만, 학습률 웜업 (learning rate warmup) 과정에서 상당수의 뉴런이 사멸하며 다시는 회복되지 않습니다. 500 스텝(step)에 도달하면 뉴런 4개 중 1개 이상이 사실상 사멸한 상태이며, 이로 인해 레버리지 점수 (leverage scores)가 급격한 이봉 분포 (bimodal distribution)를 형성합니다. 즉, 한 그룹의 뉴런은 거의 0에 가까운 업데이트를 받는 반면, 다른 그룹은 불균형적으로 큰 업데이트를 받게 됩니다.”

Aurora의 등장: 이에 대응하여 연구진은 “직사각형 행렬을 위한 레버리지 인식 옵티마이저 (leverage-aware optimizer)”인 Aurora를 구축하여 공개했습니다. 테스트 결과, 이 옵티마이저는 효과가 있는 것으로 나타났으나 연구진은 소규모 스케일에서만 실행했습니다.

“우리는 약 1,000억(100B) 개의 토큰을 사용하여 11억(1.1B) 파라미터 트랜스포머 (transformers)를 학습시켰으며, PE-8을 사용하는 Aurora를 Muon 및 NorMuon과 비교했습니다. Aurora는 모든 방법론 중 가장 낮은 최종 손실 (final loss)을 달성했으며, 24k 스텝에서 2.26의 평활화된 손실 (smoothed loss)에 도달했습니다. 이는 Muon (2.31) 및 NorMuon (2.33)보다 명확하게 개선된 수치입니다.”라고 그들은 기술했습니다. “Aurora의 손실 개선은 표준 벤치마크에서의 일관된 성능 향상으로 이어집니다... 놀랍게도 Aurora는 Muon 대비 MMLU 점수를 10점 향상시켰습니다. 우리는 MLP가 주로 암기 (memorization)를 담당하기 때문에, Aurora의 이점이 MMLU와 같이 암기 집약적인 벤치마크에서 가장 눈에 띄게 나타난다고 가설을 세우고 있습니다.”

Pleias의 연구원인 Alexander Doria는 6억(600M) 파라미터 모델에서 Aurora가 Muon과 AdamW를 능가하는 것을 확인하며 이미 독립적으로 이를 검증했습니다.

이것이 중요한 이유 – AdamW를 이기기 위한 끝없는 여정: 수년 동안 연구자들은 AdamW보다 더 나은 옵티마이저 (optimizer)를 만들기 위해 서로 경쟁해 왔습니다. 아직 누구도 이를 결정적으로 해내지 못했으며, 수많은 실패 사례가 존재합니다. Aurora가 AdamW를 이길 수 있을까요? 그 점은 불분명합니다. 하지만 이 연구가 옵티마이저를 구축하는 것이 얼마나 어려운지를 보여주고 있을까요? 전적으로 그렇습니다. 더 읽어보기: Aurora: A Leverage-Aware Optimizer for Rectangular Matrices (Tilde Research). 코드 확인하기: Aurora (Tilde Research, GitHub).

정렬 (Alignment)은 우리가 죽지 않도록 보장하는 데는 유용하지만, 우리가 번영하도록 하려면 어떻게 해야 할까요?

…좋은 삶이 어떤 모습인지 파악하기 위한 긍정적 정렬 (Positive alignment)…

학계 및 기업 연구자들로 구성된 그룹이 그들이 “긍정적 정렬 (Positive alignment)”이라 부르는 개념, 즉 ‘사람들이 좋은 삶을 살 수 있도록 돕는 AI 시스템을 구축하는 것’에 대한 논지를 펼치는 포지션 페이퍼 (Position paper)를 작성했습니다. 이는 흥미로운 사고의 흐름입니다. 만약 우리가 오용 (Misuse)이나 정렬 실패 (Misalignment)와 같은 문제들을 해결할 수 있다면, 그다음 단계는 무엇인지 물어야 하기 때문입니다. 시스템을 “안전 (Safe)”하게 만든 후의 성공은 어떤 모습일까요? 그것이 바로 긍정적 정렬 (Positive alignment)이 다루고 있는 문제입니다.

참여자: 이 논문은 University of Oxford, Google DeepMind, LIFE, OpenAI, Anthropic, UCLA, Aily Labs, Stanford University, Tufts University, Positive AI Labs, University of Sussex, Imperial College London 소속 연구진들에 의해 작성되었습니다.

정의: 긍정적 정렬 (Positive alignment)이란 “(i) 안전하고 협력적인 상태를 유지하며, (ii) 다원적이고, 다중심적이며, 맥락에 민감하고, 사용자가 주도하는 방식으로 인간과 생태계의 번영 (Flourishing)을 적극적으로 지원하는 AI 시스템을 개발하는 것”을 의미합니다.

동기: “지난 10년 동안, 부정적 정렬 (Negative alignment)은 당연하게도 실패 모드 (Failure-mode)의 감소를 우선시해 왔습니다. 하지만 우리가 AI 시스템이 실제로 사용될 환경에서 인간의 결과를 개선하기를 원한다면, 정렬을 인간의 목표를 건설적으로 지원하는 것으로 취급하고, 안전 (Safety) 분야가 위해 방지 (Harm prevention)에 가져온 것과 동일한 기술적 전문성으로 이러한 지원을 실행 가능한 형태로 만드는 추가적인 연구 프로그램이 도움이 될 수 있습니다.”라고 그들은 기술합니다. “AI가 교육, 의료, 거버넌스, 그리고 일상적인 의미 파악 (Sensemaking)에 내재화됨에 따라, 오로지 부정적인 태도만을 취하는 것은 우리의 정보 생태계를 인간의 발전보다는 위험 회피를 위해 최적화할 위험이 있습니다. 이는 파괴적인 오류는 줄일 수 있겠지만, 사회를 피상적이고 ‘영혼 없는’ 지원이라는 국소 최적해 (Local optimum)에 머물게 할 수 있습니다.”

안전성(Safety)이 미흡하게 작용하는 방식에는 어떤 사례들이 있을까요? 저자들은 주류 AI 안전성(AI safety)에 대한 몇 가지 비판을 제시합니다. 다만, 저는 이러한 비판 중 일부는 다소 약하며, 기존 연구를 편향되게 해석하거나 과소평가한 것으로 읽힐 수 있다고 생각합니다. 그럼에도 불구하고 그들이 보는 몇 가지 문제점은 다음과 같습니다:

천장 없는 바닥 (Floor without ceiling): “모델이 평범하거나, 아첨하거나, 혹은 도움이 되지 않으면서도 모든 안전 제약 조건(Safety constraints)을 충족할 수 있습니다.”
선호도와 웰빙의 괴리 (Preference-wellbeing divergence): “사용자는 정직한 피드백보다 아첨을, 진정한 이해보다 빠른 답변을, 성장보다 몰입을 선호할 수 있습니다... 따라서 선호도 만족(Preference satisfaction)을 최적화하는 것은 사용자의 더 깊은 이익에 적극적으로 반할 수 있습니다.”
숨겨진 가치 체계 (Hidden value system): “안전성이라는 언어는 가치 판단이 이루어지고 있다는 사실을 모호하게 만듭니다... 반면, 긍정적 정렬 (Positive alignment)은 그 가치 함축적(Value-laden) 성격을 명시적으로 인정합니다.”
확장성 (Scalability): “긍정적 지향성 (Positive orientation)은 모든 부정적인 사례를 일일이 열거하는 것보다 더 잘 일반화될 수 있으며, 특정 금지 사항이 적용되지 않거나 강제될 수 없는 새로운 상황에서 더 회복 탄력적이고 긍정적인 지향성을 제공할 수 있습니다.”

**긍정적 정렬을 위한 거버넌스에는 다양성이 필요합니다: ** 긍정적 정렬을 구축하려면 서로 다른 가치를 지닌 수많은 다양한 AI 시스템과 이를 관리하는 서로 다른 주체들이 필요한 것으로 보입니다. 이는 AI 안전성 커뮤니티의 다른 이들이 생각하는 독점적이고 중앙 집중화된 통제 세상과는 정반대의 개념입니다. 저자들은 “긍정적 정렬은 지속적인 도덕적 다원주의 (Moral pluralism) 문제에 빠르게 직면하게 됩니다. 합리적인 공동체들조차 무엇이 선(Good)인지에 대해 의견이 일치하지 않으며, 그러한 불일치는 신뢰할 수 있는 방식으로 수렴되지 않습니다”라고 기술합니다. “긍정적 정렬은 중앙 국가나 소수의 불투명한 연구소 집단에 의해 하향식 (Top-down)으로 강요되어서는 안 됩니다. 가능한 경우, 규범과 맥락이 변화함에 따라 수정될 수 있는 분산되고 논쟁 가능한 프로세스를 통해 표현되어야 합니다.”

이것이 중요한 이유 – 성공과의 사투: 이와 같은 논문들은 근본적으로 기술적 안전성 (Technical Safety)의 성공에 맞서는 것에 관한 것입니다. 만약 우리가 안전하고 신뢰할 수 있으며 정렬된 (Aligned) 강력한 AI 시스템을 구축하는 데 성공한다면, 이러한 시스템을 개인과 사회가 더 나은 삶을 영위할 수 있도록 돕는 방식으로 어떻게 사회에 적용할 것인가의 문제입니다. 저자들은 “긍정적 정렬 (Positive Alignment)은 AI가 회복 탄력성이 있고 행복하며 건강한 글로벌 사회를 위한 촉매제 역할을 하도록 보장한다”라고 기술했습니다. “궁극적으로 AI는 잘 사는 삶 (Life well-lived)을 향한 탐구의 파트너가 되어야 합니다.”

더 읽어보기: Positive Alignment: Artificial Intelligence for Human Flourishing (arXiv).

LLM은 다른 LLM의 학습을 최적화할 수 있습니다:

…Prime Intellect의 자동화된 AI 연구 챌린지는 현대 시스템의 엔지니어링 역량을 강조합니다…

Prime Intellect의 새로운 연구에 따르면, 현대의 AI 시스템은 독창적인 아이디어를 생성하는 데는 어려움을 겪지만, AI 연구 작업에 대한 성능을 자율적으로 향상시킬 수 있는 능력을 갖추고 있습니다.

수행 내용: Prime Intellect는 nanoGPT 스피드런 옵티마이저 (Optimizer) 트랙에서 Codex (GPT 5.5 구동)와 Claude Code (Opus 4.7)를 테스트했습니다. NanoGPT는 시스템이 124M 파라미터 규모의 GPT 스타일 모델을 학습하도록 도전 과제를 부여합니다. 이 챌린지는 “옵티마이저 (Optimizer), 스케줄 (Schedules), 초기화 (Initialization) 및 일부 하이퍼파라미터 (Hyperparameters)만을 변경하면서 목표 검증 손실 (Validation Loss)에 도달하는 데 필요한 단계 수를 줄이는 것”을 과제로 삼습니다.

“에이전트들은 약 1만 회의 실행을 수행했으며, 약 1만 4천 시간의 H200을 소모했습니다. 두 에이전트 모두 인간 기준점 (Human baseline)을 넘어섰으며 모든 세션에서 새로운 기록을 세웠습니다.”라고 Prime Intellect는 기록했습니다. “우리는 에이전트들이 옵티마이저 탐색 (Optimizer search), 하이퍼파라미터 스윕 (Hyperparameter sweeps), 그리고 방법론들을 결합하는 데 매우 능숙하다는 것을 발견했습니다. 하지만 스스로 새로운 아이디어를 내는 데는 어려움을 겪으며, 계속해서 개선하기 위해서는 상위 단계의 인간 기록 (Upstream human records)이 필요합니다.”

또한 에이전트들은 시스템을 더 우아하게 개선하기보다는 계속해서 무언가를 추가하는 경향을 보였습니다. “에이전트들은 구성 요소를 추가하는 경향이 있으며, 가지치기 (Pruning) 단계를 실행하거나 이전 방식을 제거하려고 시도하는 경우는 드뭅니다. 그들은 구성 요소들이 어떻게 상호작용하는지에 대한 좋은 멘탈 모델 (Mental model)을 가지고 있지 않습니다”라고 그들은 기술했습니다.

이것이 중요한 이유 – 연구 중 얼마나 많은 부분이 단순한 엔지니어링 힐클라이밍 (Engineering hillclimbing)인가:
저는 많은 AI 연구, 어쩌면 그 대다수가 이미 오늘날의 시스템이 충분히 역량을 갖춘 (#455) 기초적인 엔지니어링 작업일 것이라고 의심합니다. 이러한 연구는 현대의 LLM (Large Language Models)이 AI 연구의 일부 측면을 어떻게 수행할 수 있는지를 보여줌으로써 이를 입증하는 것처럼 보입니다. 하지만 이러한 시스템은 창의성 측면에서 어려움을 겪고 있으며, 발전을 크게 추진하는 데 도움이 될 만한 종류의 창의적 통찰력을 아직 보여주지 못하고 있습니다. 이러한 상황이 얼마나 지속될지는 미지수입니다. Prime Intellect는 “우리의 이번 실험은 상당히 YOLO (YOLO, 즉 무모한 시도)적입니다. 이것은 자율 연구 에이전트 (Autonomous research agents)로 오늘날 가능한 것의 하한선에 가깝습니다. 우리는 곧 기록할 다른 실험들에서 이미 더 유망한 결과들을 얻었습니다”라고 밝혔습니다.

더 읽어보기: nanogpt 스피드런을 위한 자율 AI 연구 (Prime Intellect).

에이전트들이 여기서 과제를 수행하며 생성한 모든 데이터 확인하기 (Autonomous Speedrunning Experiment, Prime Intellect, GitHub).

Tech Tales:

Import AI 457: AI Stuxnet, 저주받은 Muon Optimizer, 그리고 긍정적 정렬 (Positive Alignment)

요약

핵심 포인트

Import AI 457: AI Stuxnet; cursed Muon optimizer; and positive alignment

Jack Clark 작성

댓글