Import AI 459: AI 감독의 어려움, 단백질 구조 예측 모델의 스케일링 법칙(Scaling Laws), 그리고 AI 시스템의 멸종

미국의 AI 경제는 연간 2,000%씩 성장하고 있습니다:
**…AI 경제를 직접적으로 측정할수록, 그 양상은 더욱 기이하고 전례 없는 모습으로 나타납니다…

버지니아 대학교(University of Virginia)"*와 Anthropic, 그리고 캐나다 은행(Bank of Canada)의 경제학자들은 미국 내에서 부상하고 있는 "AI 경제"의 엄청난 성장세와, 왜 이러한 성장이 총 GDP(국내총생산) 통계에서는 포착하기 어려운지를 다룬 논문을 작성했습니다.

"미국의 AI 경제는 전례 없는 속도로 성장해 왔지만, 이 놀라운 성장은 기존의 GDP 통계에서는 대체로 보이지 않습니다"라고 그들은 기술했습니다. "AI 부문을 하나의 일관된 경제 실체로 취급할 경우, 2025년 명목 AI GDP는 약 2,500억 달러로 추산되며, 질적 조정 실질(quality-adjusted real) 측면에서는 연간 약 2,600%씩 성장하고 있습니다."

포착하기 어려운 이유: 여기에는 몇 가지 요인이 있습니다. 하나는 데이터 센터 건설 붐이 규모가 크긴 하지만, 여전히 GDP를 유의미하게 끌어올리기에는 충분하지 않다는 점입니다. 이와 대조적으로, AI의 경제적 영향이 가장 크게 발생하는 곳은 AI 추론(Inference) — 즉, AI 시스템의 사용 — 단계입니다. 하지만 여기에는 GDP 측정과 관련된 혼란스러운 요인들이 존재합니다. 그들은 "특정 수준의 AI 역량에 대한 단위당 가격이 질적 조정 산출물이 상승하는 속도만큼 빠르게 하락하기 때문에, 명목 AI 매출은 완만하게만 성장합니다"라고 설명했습니다.

만약 우리가 이것을 측정할 수 없다면, 회복하기 어려운 방식으로 당혹스러운 상황에 직면할 수도 있습니다: “AI는 측정에 대한 우려를 불러일으켰던 일련의 급변하는 기술들 중 가장 최신 사례입니다. 반도체와 인터넷도 당시에 유사한 논쟁을 불러일으켰습니다”라고 그들은 기술합니다. 하지만 핵심적인 차이점은 기술로서의 AI가 다른 기술들보다 노동에 훨씬 더 큰 영향을 미칠 수 있다는 점입니다. “이전의 사례들에서 급격히 발전하는 기술은 총체적인 수준에서 인간 노동의 _보완재 (complement)_였습니다”라고 그들은 기술합니다. “AI는 급격히 발전하는 부문이 인간 노동의 _대체재 (substitute)_가 될 수 있는, 대규모 기술적 측정 오류가 발생할 수 있는 첫 번째 유력한 후보입니다.”

AI 경제를 측정하는 세 가지 방법:

명목 컴퓨팅 지출 (Nominal compute spending): 미국의 컴퓨팅 지출은 2023년 370억 달러에서 2024년 900억 달러로 증가했으며, 2025년에는 2,190억 달러로 증가했습니다.
원시 컴퓨팅 용량 (Raw compute capacity): 최신 칩의 효율성 덕분에 실제 용량은 지출보다 훨씬 더 빠르게 성장합니다: “미국의 AI 컴퓨팅 용량은 연간 200% 이상 성장했습니다.”
질적 조정 AI 산출물 (Quality-adjusted AI output): 고정된 벤치마크 성능에서의 추론 가격(inference prices)을 통한 알고리즘의 발전과 모델 학습 비용이 얼마나 저렴해지고 있는지에 대한 가정을 고려한다면, 상황은 훨씬 더 극적으로 변합니다: “이러한 효율성 이득은 질적 조정 AI 산출물이 2024년에 약 2,290%, 2025년에 2,271% 성장했음을 의미합니다.”

AI 경제는 일반적인 측정치가 시사하는 것보다 훨씬 더 거대합니다: “전통적인 통계는 명목상 완만하게 성장하는 부문을 보여주지만, 우리의 측정치는 근본적인 역량이 매년 두 배 이상 증가하는 부문을 보여줍니다. 전통적인 데이터를 바탕으로 10년 치 세입 전망을 실행하는 재무부는 노동세 기반 충격(labor-tax-base shock)의 가능성을 실질적으로 과소평가할 것이며, 이에 따라 조세 제도 개혁, 국부 펀드 또는 그러한 충격이 요구할 수 있는 기타 이익 공유 체계와 같은 대응책을 설계할 준비가 되지 않을 것입니다. 보이지 않는 횡재는 공유될 수 없습니다.”

세 가지 권고 사항: 저자들은 이러한 측정 과제를 해결하고 AI 경제의 진정한 형태를 파악하기 위해 우리가 취할 수 있는 세 가지 아이디어를 제시합니다.

AI 위성 계정 (AI satellite accounts): 통계 기관은 전체 GDP 계산에 정보를 제공할 수 있는 측정 지표(예: 명목 컴퓨팅 지출)를 개발하는 “AI 위성 계정”을 구축해야 합니다.
더 나은 데이터 생성: 통계 기관, 기업 및 학계 간의 파트너십을 통해 훈련(training)과 추론(inference) 컴퓨팅 간의 할당량과 같은 더 나은 1차 데이터를 생성해야 합니다.
전망에 반영: 정책 입안자들은 AI 생산 역량(productive-capacity) 측정치를 중기 경제 전망에 포함해야 합니다.

이것이 중요한 이유 – 입 다물고 '죠스' 테마곡을 연주하세요: 위대한 영화 '죠스(Jaws)'에는 상어가 물속에 있고, 상어가 다가오고 있음을 나타내는 매우 긴장감 넘치는 음악이 흐르는 장면이 있습니다. 관객인 당신은 자리에서 거의 튀어 오를 듯한 기분으로 "물속에 상어가 있는데 거기서 대체 뭘 하고 있는 거야?"라고 소리치고 싶어질 것입니다. 현재 AI 분야에서 일하며 대부분의 경제 데이터를 바라보는 느낌이 바로 이와 같습니다. 대다수의 경제 데이터는 오늘날의 경제에 특별히 이례적인 일이 없다고 말합니다 (사실, 미국은 낮은 실업률, 괜찮은 성장세 등 상황이 꽤 좋아 보입니다). 하지만 저를 포함하여 AI 분야에서 일하는 모든 이들의 직관은, 기술의 역량 및 활용 방식과 경제가 정상적으로 유지되는 상태를 조화시키는 것이 불가능하다고 느낍니다. 이 고통스러운 비유에서 상어는 "AI 경제의 진정한 모습"이며, 영화 속 나머지 사람들은 일반적인 합의를 이루는 경제학자들과 정책 커뮤니티입니다. 여기 있는 Anton은 수면 아래에 상어가 존재할 가능성을 설명하는 논문을 쓰는 관객일지도 모릅니다. 모두 조심하세요!

더 읽어보기: GDP 통계에서 AI는 어디에 있는가? (PIIE).
*면책 조항: 저자 중 한 명인 Anton Korinek은 Anthropic 소속이지만, 이 연구는 주로 그가 합류하기 전과 회사의 업무 외적으로 수행되었습니다.

**AI 감독(AI oversight)을 통해 AI를 안전하게 만드는 것이 생각보다 어려운 이유는 다음과 같습니다:
**_...자동화된 정렬(Automated alignment) 연구는 만능 해결책이 아닙...
_AI 안전(AI safety) 분야의 많은 연구자들은 인간보다 똑똑한 기계를 안전하게 구축하는 가장 좋은 방법이 AI 시스템이 훈련 과정의 일부를 감독하게 하는 것이라고 생각합니다. UK AI 보안 연구소(UK AI Security Institute)의 연구원들은 이것이 매력적인 아이디어임에도 불구하고 왜 사람들이 의심하는 것보다 더 어려운지를 설명하는 논문을 작성했습니다.

왜 자동화된 정렬 (Automated Alignment) 연구는 어려운가? “자동화된 정렬 연구에서의 오류는 인간 기준점 (Human Baseline)보다 식별하기 더 어려울 가능성이 높다”라고 그들은 기술합니다. 여기에는 다음과 같은 몇 가지 이유가 있습니다:

최적화 압력 (Optimization pressure): AI 연구는 인간의 승인을 받도록 최적화되어 있습니다.
이질적인 실수 (Alien mistakes): 에이전트가 실수를 저지를 때, 그것은 인간에게 직관적이지 않습니다.
더 높은 상관관계의 연구 (More correlated research): 인간이 생성한 연구보다 훨씬 더 많은 것들이 공유됩니다.
연구 규모 (Research volume): 자동화된 시스템에 의해 내려지는 안전성 결정의 종류는 인간이 생성한 연구보다 훨씬 더 많은 증거 세트와 훨씬 더 많은 상호작용을 사용할 수 있습니다.
인간이 평가할 수 없는 논거 (Non-human-evaluable arguments): 정렬 (Alignment) 솔루션은 인간이 따라갈 수 없는 논거에 의존할 수 있습니다.

우리는 무엇을 할 수 있는가? 그들은 현 상황을 개선할 수 있는 몇 가지 개입 방안을 제안합니다:

측정 (Measurement):
– 완료된 연구 프로젝트 재현: 성공적인 프로젝트의 임의의 중단 시점에서 로그를 추출하여, 에이전트가 해당 연구 프로젝트를 얼마나 잘 이어 나갈 수 있는지 확인합니다.
– 상관된 사건 데이터셋에 대한 에이전트 예측 성능 테스트: 에이전트가 상관된 하위 작업 (Subtasks)들을 얼마나 정확하게 결합할 수 있는지 확인합니다.
– 최적의 인간-에이전트 팀 구조에 대한 실증적 연구: 비전문가 인간 팀이 에이전트의 도움을 받아 완료된 프로젝트를 얼마나 잘 해결할 수 있는지 확인합니다.
일반화 (Generalization):
– 시뮬레이션된 일반화 실험: 지식 차단 시점 (Knowledge cutoff) 너머의 완료된 연구 문제에 대한 에이전트의 성능을 사용하여 다양한 훈련 프록시 (Training proxies)를 테스트합니다.
– 일반화에 대한 기계론적 이해 (Mechanistic understanding): 기계론적 해석 가능성 (Mechanistic interpretability)과 같은 화이트박스 (Whitebox) 방법을 사용합니다.
확장 가능한 감독 (Scalable oversight):
– 연구 논문 코퍼스 (Research paper corpus)의 압축: 훨씬 더 방대한 기초 연구 코퍼스를 바탕으로 소수의 연구 결과물을 생성하도록 시도합니다.
– 새로운 확장 가능한 감독 프로토콜 개발 및 테스트: 상관관계가 있는 불확실성 (Correlated uncertainty)을 다루는 확장 가능한 감독 기술을 연구합니다.
– 모호한 작업 (Fuzzy tasks)에서 비전문가의 성능을 끌어올리기 위한 다양한 인간 스캐폴드 (Human scaffolds) 테스트
– 자동화된 정렬 (Automated alignment) 프로그램에 대한 레드팀 (Red team) 활동: “레드팀은 에이전트가 연구 논문 코퍼스 내의 오류를 숨기도록 유도하고, 블루팀은 에이전트의 도움을 받아 이러한 오류를 찾아내려고 시도합니다.”

이것이 중요한 이유 – 누가 미래를 통제하는가? 우리가 인간보다 똑똑한 시스템을 감독할 수 있는지 여부는 근본적으로 누가 미래를 통제하느냐에 대한 문제입니다. 만약 우리가 작동하는 기술을 구축하지 못한다면, 이러한 시스템의 정렬 불량 (Misalignment) 때문이든, 혹은 시스템이 우리보다 앞서 생각하게 됨에 따라 점진적으로 권한을 상실하게 되든, 인간은 뒷전으로 밀려나게 될 것입니다. 만약 우리가 인간보다 똑똑한 감독 기술을 구축할 수 있다면, 존재의 미래 성격에 대해 선택할 수 있는 더 나은 기회를 갖게 될 것입니다.
더 읽어보기: Automated alignment is harder than you think (arXiv).

1억 개의 허용적 라이선스 이미지:
…학계와 스타트업을 위한 훌륭한 리소스…
Stanford University, Radical Numerics, University of Michigan, 그리고 Salesforce Research의 연구진들이 캡션이 포함된 1억 개의 이미지 데이터셋인 Giant Permissive Image Corpus (GPIC)를 공개했습니다. GPIC의 핵심은 “모든 GPIC 이미지는 연구 및 상업적 용도 모두에 대해 허용적 라이선스 (Permissively licensed)를 적용받는다”는 점이라고 그들은 밝히고 있습니다. “GPIC는 안전 필터링 (Safety-filtered) 및 중복 제거 (Deduplicated)가 완료되었으며, HuggingFace에 중앙 집중식으로 호스팅됩니다.”

데이터셋에 대한 상세 정보: GPIC는 1억 개의 훈련 이미지(Training images), 20만 개의 검증(Validation) 데이터, 그리고 100만 개의 테스트(Test) 예시로 구성됩니다. 각 이미지에는 Qwen3-VL-4B를 사용하여 캡션(Caption)이 달렸습니다. 저자들은 “GPIC는 8,000개의 샤드(Shards)로 나누어져 Hugging Face에 중앙 집중식으로 호스팅되며, 대규모 훈련을 위한 안정적이고 접근 가능한 인프라를 제공합니다”라고 설명합니다. “우리는 Flickr와 Wikimedia에서 이미지를 수집하되, 소스 풀을 CC BY, CC0, 퍼블릭 도메인(Public Domain), 그리고 알려진 제한 사항 없음(No-Known-Restrictions) 카테고리로 제한했습니다. 이러한 라이선스 기준은 GPIC가 파생된 결과물의 공개나 다운스트림(Downstream) 사용을 제한하지 않으면서 학계와 산업계 연구자 모두에 의해 사용될 수 있도록 보장합니다.”

이것이 중요한 이유 – 연구를 위한 연료: GPIC와 같은 데이터셋은 학계와 스타트업 모두에게 매우 유용하며, 기본적으로 무료이고 깨끗한 채소와 같습니다. 누군가 당신에게 무료이고 깨끗한 채소를 준다면, 아마도 그것을 받고 감사하다고 말해야 할 것입니다.
연구 논문 읽기: GPIC: A Giant Permissive Image Corpus for Visual Generation (arXiv).
웹사이트에서 더 알아보기: GPIC: A Giant Permissive Image Corpus for Visual Generation (공식 프로젝트 웹사이트).
데이터셋 다운로드: GPIC (Hugging Face).

**단백질 예측 모델을 통한 암 연구 개선:
**_…Biohub은 AI 개발자들 사이의 플러스섬(Positive-sum) 경쟁의 한 사례입니다…
_Priscilla Chan과 Mark Zuckerberg가 설립한 연구 기관인 Biohub는 DeepMind의 AlphaFold에 대항하는 라이벌 모델을 출시하며, 전 세계 생물학자들의 역량을 확장하기 위한 더 나은 AI 시스템을 개발하려는 두 기술 그룹 간의 플러스섬 경쟁을 심화시키고 있습니다.
이 모델인 ESMFold2는 “단백질 생물학의 월드 모델(World model): 생명의 나무 전반에 걸쳐 단백질을 매핑하고, 구조를 예측하며, 실험실 환경에서 작동하는 새로운 단백질 결합체(Protein binders)를 설계할 수 있는 예측, 설계 및 발견을 위한 과학적 엔진”입니다.

구성 요소: 이번 릴리스는 세 부분으로 구성됩니다:

ESMC: “생명의 모든 영역에서 추출한 약 28억 개의 서열(sequences)로 학습된, 단백질을 표현하는 언어 모델(language model)”입니다.
ESMFold2: “ESMC의 서열 표현(sequence representations)을 생체 분자 복합체(biomolecular complexes)의 원자 수준으로 해상도가 높은 3D 구조로 변환하기 위해 구축된 설계 엔진(design engine)”입니다. 벤치마크에 따르면, ESMFold2는 AlphaFold 3보다 뛰어난 성능을 보이지만, 일부 영역에서는 두 모델의 성능이 대등합니다.
ESM Atlas: “68억 개의 단백질 서열과 11억 개의 예측된 구조를 통해 ESMC의 표현을 탐색할 수 있게 해줍니다 — 이는 현재까지 단백질 생물학에 AI를 적용한 사례 중 가장 큰 규모입니다.”

Import AI 459: AI 감독의 어려움, 단백질 구조 예측 모델의 스케일링 법칙(Scaling Laws), 그리고 AI 시스템의 멸종

요약

핵심 포인트

댓글