Import AI 455: AI 연구의 자동화

AI 시스템이 스스로를 구축하기 시작하려 합니다. 그것은 무엇을 의미할까요?

제가 공개적으로 이용 가능한 모든 정보를 살펴보았을 때, 인간이 개입하지 않는 AI R&D(연구개발) — 즉, 자신의 후계자를 자율적으로 구축할 수 있을 만큼 강력한 AI 시스템 — 가 2028년 말까지 발생할 가능성이 높다(60% 이상)는 견해에 마지못해 도달했기에 이 글을 씁니다.
이것은 매우 중대한 일입니다.
저는 이것을 어떻게 받아들여야 할지 모르겠습니다.
이것이 마지못해 내놓은 견해인 이유는 그 함의가 너무나 커서 제가 압도당하는 기분이 들기 때문이며, 사회가 자동화된 AI R&D 달성이 시사하는 변화를 맞이할 준비가 되었는지 확신할 수 없기 때문입니다.
저는 이제 우리가 AI 연구가 엔드 투 엔드(end-to-end)로 자동화되는 시대에 살고 있다고 믿습니다. 만약 그런 일이 일어난다면, 우리는 예측이 거의 불가능한 미래로 루비콘 강을 건너게 될 것입니다. 이에 대해서는 나중에 더 자세히 다루겠습니다.

이 에세이의 목적은 왜 완전 자동화된 AI R&D를 향한 도약이 일어나고 있다고 생각하는지를 열거하는 것입니다. 저는 이것의 결과 중 일부를 논의하겠지만, 주로 이 에세이의 대부분을 이러한 믿음에 대한 증거를 논의하는 데 할애할 것이며, 2026년의 대부분을 그 함의를 파헤치는 데 보낼 예정입니다.

시기적인 측면에서, 저는 이것이 2026년에 일어날 것이라고 예상하지는 않습니다. 하지만 우리는 1~2년 내에 "모델이 스스로의 후속 모델을 엔드투엔드(end-to-end)로 학습시키는" 사례를 볼 수 있을 것이라고 생각합니다. 적어도 비프론티어(non-frontier) 모델 단계에서는 개념 증명(proof-of-concept)이 확실히 가능할 것입니다. 다만 프론티어 모델(frontier models)은 더 어려울 수 있습니다(비용이 훨씬 더 많이 들고, 매우 열심히 일하는 수많은 인간의 결과물이기 때문입니다).

이러한 제 추론은 주로 arXiv, bioRxiv, NBER의 논문들과 같은 공개 정보, 그리고 프론티어 기업들이 세상에 배포하고 있는 제품들을 관찰하는 데서 비롯되었습니다. 이 데이터를 통해 저는 오늘날의 AI 시스템 제작, 즉 AI 개발의 엔지니어링 구성 요소들을 자동화하기 위한 모든 조각이 갖춰졌다는 결론에 도달했습니다. 그리고 스케일링 트렌드(scaling trends)가 계속된다면, 우리는 모델이 충분히 창의적이 되어 새로운 연구 경로에 대한 창의적인 아이디어를 내는 데 있어 인간 연구자를 대체할 수 있을 정도로 발전할 것에 대비해야 합니다. 이를 통해 모델은 이미 알려진 것을 정교화할 뿐만 아니라, 스스로 프론티어를 밀어붙이게 될 것입니다.

사전 주의사항
**이 글의 상당 부분에서 저는 수많은 개별 벤치마크(benchmarks)에서 발생한 일들을 통해 AI 발전의 모자이크 뷰(mosaic view)를 구성하려고 노력할 것입니다. 벤치마크를 연구하는 사람이라면 누구나 알다시피, 모든 벤치마크에는 저마다의 특이한 결함이 있습니다. 저에게 중요한 것은 이 모든 데이터 포인트들을 함께 살펴봄으로써 나타나는 총체적인 추세이며, 여러분은 제가 각 개별 데이터 포인트의 단점들을 인지하고 있다고 가정해야 합니다.

이제, 몇 가지 증거들을 함께 살펴보겠습니다.

코딩 특이점(The coding singularity) – 시간에 따른 능력 변화:
**AI 시스템은 소프트웨어를 통해 구현되며, 소프트웨어는 코드로 만들어집니다.

AI 시스템은 코드 생산에 혁명을 일으켰습니다. 이는 두 가지 관련된 트렌드 덕분에 가능했습니다. 첫째, AI 시스템이 복잡한 실제 세계의 코드를 작성하는 능력이 향상되었고, 둘째, AI 시스템이 인간의 감독 없이도 많은 선형적 코딩 작업들(예: 코드를 작성한 후 이를 테스트하는 작업)을 체인(chaining) 형태로 연결하는 능력이 훨씬 더 좋아졌습니다.

이러한 추세를 보여주는 두 가지 사례는 SWE-Bench와 METR의 타임 호라이즌(time horizons) 그래프입니다.

실제 소프트웨어 엔지니어링 문제 해결:
SWE-Bench는 AI 시스템이 실제 GitHub 이슈를 얼마나 잘 해결할 수 있는지 평가하는 널리 사용되는 코딩 테스트입니다. 2023년 말 SWE-Bench가 출시되었을 당시 최고의 점수는 약 2%의 전체 성공률을 기록한 Claude 2였습니다. Claude Mythos Preview는 93.9%를 기록하며 사실상 벤치마크를 포화(saturating)시켰습니다. (모든 벤치마크에는 고유한 노이즈가 어느 정도 존재하므로, 방법론의 한계라기보다 벤치마크 자체의 한계에 부딪힐 정도로 높은 점수를 기록하게 되는 지점이 보통 존재합니다. 예를 들어, ImageNet 검증 세트 레이블의 약 6%는 잘못되었거나 모호합니다).

SWE-Bench는 코딩 역량이라는 일반적인 문제와 AI가 소프트웨어 엔지니어링에 미치는 영향력을 측정하는 신뢰할 수 있는 대리 지표(proxy)입니다. 제가 프런티어 랩(frontier labs)과 실리콘밸리 곳곳에서 만나는 대다수의 사람들은 이제 AI 시스템을 통해 완전히 코딩을 합니다. 점점 더 많은 이들이 AI 시스템을 사용하여 테스트를 작성하고 코드를 검토하기도 합니다. 즉, AI 시스템은 AI 연구 개발(R&D)의 주요 구성 요소를 자동화하여, 그 분야에서 일하는 모든 인간의 속도를 높여줄 만큼 충분히 발전했습니다.

**사람이 수행하는 데 오랜 시간이 걸리는 작업을 완료하는 AI 시스템의 능력 측정:
**METR은 숙련된 인간이 작업을 수행하는 데 걸리는 시간을 기준으로, AI가 완료할 수 있는 작업의 복잡성을 나타내는 그래프를 작성합니다. 여기서 핵심 척도는 AI 시스템이 일련의 작업 세트(basket of tasks)에 대해 50%의 신뢰도를 유지할 수 있는 대략적인 시간 지평(time horizon)을 알려주는 것입니다.

이 분야의 발전은 매우 놀랍습니다. 2022년에는 GPT 3.5가 사람이 수행할 때 약 30초 정도 걸리는 작업을 할 수 있었습니다. 2023년에는 GPT-4와 함께 이 수치가 4분으로 증가했습니다. 2024년에는 40분(o1)으로 늘어났습니다. 2025년에는 약 6시간(GPT 5.2 (High))에 도달했습니다. 2026년에는 이미 약 12시간(Opus 4.6)까지 상승했습니다. METR에서 근무하는 오랜 AI 예측가인 Ajeya Cotra는 2026년 말까지 AI 시스템이 약 100시간이 소요되는 작업을 수행할 것이라고 기대하는 것이 무리한 일이 아니라고 생각합니다 (#448).

AI 시스템이 독립적으로 작업할 수 있는 시간의 이러한 상당한 증가는 에이전트형 코딩 도구(agentic coding tools)의 폭발적인 증가와 깔끔하게 상관관계를 보입니다. 이는 상당 기간 동안 독립적으로 행동하며 사람을 대신해 업무를 수행하는 AI 시스템의 제품화(productization)를 의미합니다.

또한 이는 AI R&D로 다시 연결됩니다. 많은 AI 연구자들의 업무를 자세히 살펴보면, 데이터 정제, 데이터 읽기, 실험 실행 등 그들의 많은 작업이 사람이 수행하는 데 몇 시간 정도 걸리는 일들로 요약됩니다. 이러한 모든 종류의 작업이 이제 현대적 시스템의 시간 지평(time horizon) 범위 안에 들어와 있습니다.

**AI 시스템이 더 숙련되고 우리로부터 독립적으로 작업하는 능력이 향상될수록, AI 연구개발 (R&D)의 상당 부분을 자동화하는 데 더 큰 도움을 줄 수 있습니다.
**위임 (Delegation)의 핵심 요소는 a) 해당 인물의 기술에 대한 신뢰, 그리고 b) 당신의 의도와 일치하는 방식으로 당신으로부터 독립적으로 작업할 수 있는 능력에 대한 신뢰입니다.
코딩 분야에서의 AI 역량을 살펴보면, AI 시스템은 훨씬 더 숙련되어 가고 있으며, 재보정 (re-calibration)이 필요하기 전까지 사람으로부터 독립적으로 작업할 수 있는 기간도 점점 더 길어지고 있는 것으로 보입니다.
이는 우리 주변에서 목격되는 현상과도 일치합니다. 엔지니어와 연구자들은 이제 자신의 업무 중 점점 더 큰 덩어리를 AI 시스템에 위임하고 있으며, 역량이 향상됨에 따라 위임되는 업무의 복잡성과 중요성 또한 함께 높아지고 있습니다.

**AI는 AI R&D에 필수적인 핵심 과학 기술 분야에서 능숙해지고 있습니다.
현대 과학을 생각해 보십시오. 현대 과학의 상당 부분은 어떤 경험적 정보 (empirical information)를 생성하고자 하는 방향을 지정하고, 그 정보를 생성하기 위해 실험을 수행한 다음, 실험 결과를 건전성 검사 (sanity-checking)하는 과정으로 이루어집니다. 시간이 흐름에 따라 발전한 코딩 기술과 대규모 언어 모델 (LLM)의 일반적인 세계 모델링 (world modeling) 능력이 결합되어, 이미 인간 과학자들의 속도를 높여주고 광범위한 R&D의 측면을 부분적으로 자동화하는 도구들이 탄생했습니다.

여기서 우리는 AI 연구 자체에 내재된 몇 가지 핵심 과학 기술 분야에서의 AI 발전 속도를 살펴볼 수 있습니다: 연구 결과의 재현 (Replicating research results), 기술적 문제를 해결하기 위해 머신러닝 (machine learning) 기법 및 기타 접근 방식들을 사슬처럼 엮는 것 (chaining together), 그리고 AI 시스템 자체를 최적화하는 것입니다.

**전체 과학 논문의 구현 및 실험 수행:
AI 연구의 핵심 업무 중 하나는 과학 논문을 읽고 그 결과를 재현하는 것입니다. 이 분야에서는 광범위한 벤치마크 (benchmarks)에서 극적인 진전이 있었습니다.

좋은 예시 중 하나는 CORE-Bench, 즉 계산 재현성 에이전트 벤치마크 (Computational Reproducibility Agent Benchmark)입니다. 이 벤치마크는 AI 시스템에 "저장소 (repository)가 주어졌을 때 연구 논문의 결과를 재현하라"는 과제를 부여합니다. 에이전트는 라이브러리 (libraries), 패키지 (packages), 의존성 (dependencies)을 설치하고 코드를 실행해야 합니다. 코드가 성공적으로 실행되면, 에이전트는 모든 출력값 (outputs)을 검색하여 작업 질문에 답해야 합니다." CORE-Bench는 2024년 9월에 도입되었으며, 당시 가장 높은 점수를 기록한 시스템은 CORE-Agent라는 스캐폴드 (scaffold) 내의 GPT-4o 모델로, 벤치마크의 가장 어려운 작업 세트에서 약 21.5%의 점수를 기록했습니다.
2025년 12월, CORE-Bench의 저자 중 한 명은 Opus 4.5 모델이 95.5%를 달성함에 따라 해당 벤치마크가 "해결되었다"고 선언했습니다.

**Kaggle 경진대회를 해결하기 위한 전체 머신러닝 시스템 구축:
**MLE-Bench는 OpenAI가 구축한 벤치마크로, AI 시스템이 "자연어 처리 (natural language processing), 컴퓨터 비전 (computer vision), 신호 처리 (signal processing)를 포함한 다양한 도메인에 걸친 75개의 다양한 Kaggle 경진대회"에서 얼마나 잘 (오프라인으로) 경쟁할 수 있는지를 조사합니다. 2024년 10월 출시 당시, 최고 점수 시스템 (에이전트 스캐폴드 내의 o1 모델)은 16.9%를 기록했습니다. 2026년 2월 기준으로, 최고 점수 시스템 (검색 기능이 포함된 에이전트 하네스 (harness) 내의 Gemini3)은 64.4%를 기록하고 있습니다.

**커널 설계 (Kernel design):
**AI 개발에서 더 어려운 작업 중 하나는 커널 최적화 (kernel optimization)입니다. 이는 행렬 곱셈 (matrix multiplication)과 같은 특정 연산을 기반 하드웨어에 매핑하는 코드를 작성하고 개선하는 과정입니다. 커널 최적화는 AI 개발의 핵심인데, 이는 훈련 (training)과 추론 (inference) 모두의 효율성을 정의하기 때문입니다. 즉, AI 시스템을 개발하기 위해 컴퓨팅 자원 (compute)을 얼마나 효과적으로 활용할 수 있는지, 그리고 모델을 훈련한 후 그 컴퓨팅 자원을 얼마나 효율적으로 추론으로 전환할 수 있는지를 결정합니다.

최근 몇 년 동안 커널 설계 (kernel design)를 위한 AI는 단순한 호기심의 대상에서 경쟁적인 연구 분야로 발전했으며, 여러 벤치마크 (benchmarks)가 등장했습니다. 이 중 특별히 대중적인 벤치마크는 없기 때문에, 시간에 따른 진전 상황을 쉽게 모델링할 수는 없습니다. 반면, 진행 상황을 체감하기 위해 현재 수행되고 있는 일부 연구들을 살펴볼 수는 있습니다.

연구 유형의 일부는 다음과 같습니다: 더 나은 GPU 커널을 구축하기 위해 DeepSeek의 모델을 사용하는 것 (#400), PyTorch 모듈을 CUDA 코드로 변환하는 과정을 자동화하는 것 (#401), Meta가 자사 인프라 내에서 사용할 최적화된 Triton 커널 생성을 자동화하기 위해 LLM을 사용하는 것 (#439), Huawei의 Ascend 칩과 같은 비표준 하드웨어를 위한 커널 작성을 돕기 위해 LLM을 사용하는 것 ("AscendCraft" #444), GPU 커널 설계를 위해 오픈 웨이트 (open weight) 모델을 미세 조정 (fine-tuning)하는 것 ("Cuda Agent", #448).

여기서 한 가지 주의할 점은, 커널 설계는 검증하기 쉬운 보상 (rewards)을 갖는 것과 같이 AI 기반의 R&D (연구개발)에 유난히 적합하게 만드는 몇 가지 특성을 가지고 있다는 것입니다.

Import AI 455: AI 연구의 자동화

요약

핵심 포인트

댓글