Import AI 461: “정렬(Alignment)이 궤도에 오르지 못했다”; FrontierCode; 그리고 합성 연구 인턴

**AI 연구자들이 “정렬(Alignment)이 궤도에 오르지 못했다”며 새로운 안전 스타트업을 설립합니다:
**_…Sequent는 자원이 부족한 연구 베팅 포트폴리오를 보유하게 될 것입니다…
_영국 AI 보안 연구소(UK AI Security Institute)의 정렬(Alignment) 팀 연구원들과 정렬 이론 스타트업인 Timaeus가 힘을 합쳐 새로운 비영리 연구 기관인 Sequent를 설립했습니다. Sequent는 초지능(Superintelligent) AI 시스템의 안전성에 대해 더 높은 신뢰를 줄 수 있는 정렬(Alignment) 기술을 개발하고자 합니다.
“인공 초지능(ASI)이 향후 몇 년 안에 개발될 수도 있습니다. 정렬(Alignment)이 동일한 시간표에 맞춰 준비될 수 있을지는 불분명합니다. 최소한, AI 연구소들의 경험적 프로그램들이 ASI를 훈련시키기 전에 모든 것이 잘될 것이라는 사전적(a priori) 확신을 제공할 가능성은 낮습니다,”라고 그들은 기술합니다. “이상적인 세상이라면, 우리는 초지능을 구축하는 접근 방식과 그것이 안전하다는 이론적 증명을 함께 개발한 다음 구축할 것입니다. 하지만 이 세상에서 우리는 아마도 이 이상에 훨씬 못 미치는 수준에서 타협해야 할 것입니다.”

Sequent에 대한 세부 사항: 이 조직은 몇 년 안에 40~~80명의 전업 직원을 확보하는 것을 목표로 합니다. “우리의 목표는 초기에 1억~~1억 5천만 달러를 모금하는 것이지만, 우리가 많은 병렬적 연구 조사를 성공적으로 탐색하고 있음을 입증할 수 있다면 최소한 한 자릿수(order of magnitude) 더 많은 금액을 모금할 준비를 하고 있습니다,”라고 그들은 밝힙니다.

연구 계획 – 차별화된 정렬(Alignment) 베팅 포트폴리오: 계획은 주요 AI 연구소(AI labs)들과는 다른 정렬 접근 방식을 취하는 것입니다. Sequent의 목표는 "우리가 통제할 수 있는 상황(예: 훈련 중 또는 선택된 환경에서의 평가 중)에서 관찰되는 정렬이, 우리가 쉽게 통제할 수 없는 상황(예: 세상에서 실행되는 대규모, 장기적 과업(long-horizon tasks))에서의 정렬로 일반화(generalize)된다고 확신할 수 있는 원칙적인 근거를 찾는 것"입니다. 이는 Sequent가 "본질적으로 반응적(reactive)이며, 기능적이기는 하지만 그것들이 언제 혹은 왜 실패할지에 대한 원칙적인 통찰을 제공하지 못하는 방법론을 초래한다"라고 설명하는 대부분의 프런티어(frontier) AI 연구소들의 접근 방식과 대조됩니다.

연구 방향: "우리는 정렬 이론(alignment theory) 및 관련 경험적 연구(empirics)의 많은 분야에 대해 기대하고 있으며, 자체적인 포트폴리오를 구축하는 동시에 추가적인 이론적 베팅을 위해 자매 조직들과 협력할 계획입니다"라고 Sequent는 밝힙니다. 강조된 몇 가지 특정 분야로는 확장 가능한 감독(scalable oversight), 학습 이론(learning theory), 휴리스틱 논거(heuristic arguments), 게임 이론(game theory), 그리고 페르소나(personas) 등이 있습니다.

Sequent는 많은 다양한 연구 방향을 추구함으로써 다음과 같은 유망한 상호작용이 나타날 수 있다고 생각합니다: 도달 가능한 균형(Reachable equilibria) – "확장 가능한 감독 방법론이 어떤 유형의 균형으로 수렴할 것인지 우리에게 알려줍니다"; 노브(knobs)를 알고 설정하기 – 학습 이론과 페르소나로부터 얻은 통찰을 결합하여 훈련 중에 어떤 변수를 변경할 수 있는지 파악한 다음, 확장 가능한 감독을 사용하여 이러한 요소들을 얼마나 변경해야 하는지 알아냅니다.

이것이 중요한 이유 – 재귀적 자기 개선 (Recursive Self-improvement)이 일어나기 전에 더 나은 정렬 (Alignment)이 필요합니다. 그렇지 않으면 매우 무서운 주사위를 던지는 격입니다: 오늘날의 AI 시스템은 어느 정도 정렬되어 있지만, 실제 환경에서 놀라운 실패로 나타나는 다소 기이하고 날카로운 단면들을 가지고 있습니다. 광범위하게 말하자면, AI 산업이 이러한 실패를 모니터링하고 관찰하며 해결하는 방법을 터득했기 때문에 현재로서는 ~괜찮은 수준입니다. 하지만 AI 시스템이 더 똑똑해짐에 따라, 인간은 핵심 연구 사업의 점점 더 많은 부분을 이러한 시스템에 넘겨주게 될 것이며, 또한 AI 시스템은 스스로의 점점 더 큰 부분을 자율적으로 구축하는 재귀적 자기 개선 (Recursive Self-improvement, RSI) 과정을 거치기 시작할 수도 있습니다. 우리는 RSI와 같은 현상에 대해 확신을 갖기 위해 반드시 더 나은 정렬 (Alignment) 기술이 필요합니다. Sequent와 같은 조직은 프런티어 연구소 (Frontier labs)가 위험한 일을 하고 있다고 판단될 때 경고를 보낼 수 있는 데 필요한 독립성을 유지하면서도, 이를 수행할 수 있는 더 나은 기회를 제공합니다. Sequent가 말했듯, "우리는 소리를 질러야 할지도 모릅니다".
더 읽어보기: Sequent: Scale and Automation for Higher Confidence in Alignment (Sequent).

**ChinaHeritaQA를 통한 중국 유네스코 유적지 지식 테스트:
**_...데이터를 통한 문화적 관련성...
_LMU Munich, FAU Erlangen-Nuremberg, Munich Center for Machine Learning, University of Tubingen, Sun Yat-sen University, University of Copenhagen, 그리고 University of Maryland, College Park의 연구진들이 "중국의 유네스코 세계 유산에 대한 시각-언어 모델 (Vision-Language Models, VLMs)의 문화적 추론 능력을 평가하기 위한 멀티모달 벤치마크 데이터셋"인 ChinaHeritaQA를 구축했습니다.

개요: ChinaHeritaQA는 51개의 유네스코 유산 유적지를 담은 2,279개의 이미지와, 중국어 및 영어로 된 14,133개의 객관식 QA 쌍으로 구성되어 있습니다. 데이터셋에 사용된 이미지는 중국 최대 소셜 미디어 플랫폼 중 하나인 Sina Weibo에서 가져왔으며, 원래 50,000개의 세트에서 필터링되었습니다.

7가지 유형의 질문: 정체성 인식 (이미지를 보고 유적지를 식별); 시각적 접지 (Visual Grounding, 이름이 주어졌을 때 올바른 이미지를 선택); 설명 매칭 (이미지가 주어졌을 때 올바른 백과사전 요약본을 선택); 역사적 시대 구분 (유적지가 건설된 왕조나 시대를 명명); 역사적 맥락화 (유적지의 역사적 배경에 대한 설명을 제공); 기능적 분석 (종교적 예배나 군사 방어와 같은 유적지의 기능을 명명); 건축적 분석 (이미지에 적합한 건축 특화 질문을 매칭).

오픈 웨이트 (Open weight) 모델이 이미 인간을 능가함: 이 벤치마크의 모든 질문에 대한 인간의 평균 정확도 점수는 약 67%인 반면, 테스트된 가장 높은 점수를 기록한 오픈 웨이트 모델(Qwen-VL-8B-Instruct)은 81%를 기록했습니다.

이것이 중요한 이유 – 문화적 지식을 테스트하는 저렴한 방법: ChinaHeritaQA와 같은 데이터셋은 a) 모델의 기본적인 시각적 추론 능력과 b) 관련 문화적 지식을 결합하여 빠르고 쉽게 테스트할 수 있는 방법입니다. 중국 정부가 대규모로 배포되기 전에 일반적으로 사용 가능한 소비자용 LLM (Large Language Models)이 특정 기본 문화 역량 임계값을 통과하도록 요구하는 상황을 상상해 볼 수 있으며, 이와 같은 벤치마크가 그 과정을 도울 수 있습니다.
더 읽어보기: ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China (arXiv).
데이터셋 받기 (ChinaHeritaQA, GitHub).

FrontierCode – 코드 품질을 테스트하는 고난도 코딩 벤치마크:
…안심이 될 정도로 어렵습니다. 아마 1년 정도는 버틸 수 있지 않을까요?…
Devin의 제작사인 Cognition이 FrontierCode라는 새로운 고난도 코딩 벤치마크를 구축했습니다. 이 벤치마크의 가장 큰 특징은 그 난이도에 있습니다. Claude Opus 4.8은 이 벤치마크의 가장 어려운 (

코드 병합 가능성(code mergeability)에 대한 채점: “엔드 투 엔드(end-to-end) 코드 품질 — 정확성, 테스트 품질, 범위 규율(scope discipline), 스타일, 그리고 코드베이스 표준 준수 여부를 평가합니다”. 이는 코드에 대해 다음과 같은 질문을 던지는 과정을 포함합니다: 패치(patch)가 문제를 성공적으로 해결하는가? 기존 코드베이스의 무언가를 망가뜨리는가? 프로젝트의 빌드(build), 린트(lint), 스타일 체크를 통과하는가? 에이전트의 테스트가 의도한 동작을 포착하는가? 패치가 필요한 부분만 수정하는가? 코드가 코드베이스 컨벤션(convention)을 준수하고 디자인 패턴(design pattern)을 따르며 가독성을 유지하는가? 이러한 질문들은 전통적인 테스트 방식과 LLM을 사용하여 테스트를 미세 조정하거나 검토하는 방식을 혼합하여 평가됩니다.
품질 관리(QC) 강조: “적대적 테스트(adversarial testing), 보정(calibration), 그리고 다단계 검토(multi-stage review)를 포함하는 광범위한 QC 파이프라인을 구축했습니다”.

안심할 수 있을 만큼 어려운 난이도: Diamond: Claude Opus 4.8이 13.4%로 가장 높았으며, GPT-5.5가 6.3%, Claude Opus 4.7이 5.2%로 그 뒤를 이었습니다. Main: 동일한 순서이지만, 각각 34.3%, 25.5%, 23%를 기록했습니다. Extended: 51.8%, 44.8%, 43.2%를 기록했습니다.

이것이 중요한 이유: 어려운 평가(evals)는 눈부시게 빠른 AI 발전 속도에 맞춰 우리의 방향을 설정하는 데 가장 가치 있는 요소 중 하나입니다. 최근 몇 년 동안 평가 도구들은 등장하자마자 점점 더 빠른 속도로 포화 상태에 이르렀습니다. SWE-Bench는 2023년 10월에 도입되었으며, 아마도 최근 포화로 인해 유용성이 다했을 것입니다. FrontierCode는 얼마나 오래 지속될까요? 저는 2027년 6월까지 시스템들이 Diamond에서 70% 이상의 점수를 받는 것을 보게 될 것이라고 예측합니다 (참고로, 이 글을 쓴 직후 Claude Fable 수치가 약 30%로 발표되었으므로, 아마 2027년 6월보다 더 일찍 일어날 수도 있습니다).
더 읽어보기: Introducing FrontierCode (Cognition).

샤오미가 1000 토큰/초 모델로 속도 경쟁에 뛰어들다:
_…극도로 빠른 추론(inference)이 새로운 기능을 가능하게 하다…
중국 기술 기업 샤오미(Xiaomi)가 '프런티어'급 1조 개 매개변수(parameter) LLM인 Xiaomi MiMo-V2.5-Pro-UltraSpeed의 세부 정보를 공개했습니다. 이 모델의 핵심 판매 포인트는 초당 1000 토큰이라는 놀라운 속도입니다. 샤오미는 FP4 양자화(quantization)와 같은 명백한 것들뿐만 아니라, DFlash(

Import AI 461: “정렬(Alignment)이 궤도에 오르지 못했다”; FrontierCode; 그리고 합성 연구 인턴

요약

핵심 포인트

댓글