[2026/06/08 ~ 14] 이번 주에 살펴볼 만한 AI/ML 논문 모음

PyTorchKR🔥🇰🇷 🤔💭

이번 주에 선정된 10편의 논문을 살펴보면, 인공지능 연구가 단순한 모델 성능 향상을 넘어 자율성, 신뢰성, 그리고 효율성의 한계를 돌파하려는 세 가지 뚜렷한 트렌드를 확인할 수 있습니다.

1️⃣ 자율적 자가 개선 및 멀티에이전트 시스템의 진화: 이번 주 논문들에서는 에이전트가 인간의 명시적인 지시나 고정된 궤적을 넘어 스스로 조직을 구성하고 약점을 개선하는 자율적 시스템으로 발전하는 흐름이 돋보입니다. Economy of Minds와 AutoScientists는 중앙 통제 없이 에이전트들이 경제적 상호작용(경매, 자본 축적)이나 공유 포럼을 통해 자발적으로 역할을 분담하고 장기적인 탐색을 이어가는 분산형 협력 시스템을 제안했습니다. 또한 Self-Harness는 에이전트가 자신의 과거 실패 패턴을 분석해 시스템 프롬프트와 운영 정책(Harness)을 반복적으로 수정하며 스스로 성능을 끌어올리는 프레임워크를 선보였습니다. 이는 AI가 단일 과제를 수행하는 수동적 도구를 넘어, 장기적인 계획과 협업을 수행하는 능동적인 진화 주체로 거듭나고 있음을 시사합니다.

2️⃣ AI 역량에 대한 엄밀한 검증과 보완적 활용(하이브리드): AI의 표면적 성능 이면에 존재하는 실질적 한계를 짚어내고, 이를 인간이나 고전적 알고리즘과 결합하여 한계를 극복하려는 성찰적 연구들도 주요 트렌드입니다. LiveBrowseComp는 검색 에이전트가 실제로는 새로운 정보를 발견하기보다 모델 내부의 사전 지식을 확인하는 데 그친다는 맹점을 꼬집었고, AI 리뷰어 연구는 AI가 세밀한 오류 탐지에는 뛰어나지만 장기적 맥락 파악에 취약해 인간 심사자를 완전히 대체할 수 없는 '보완재'임을 실증했습니다. 나아가 하이퍼파라미터 최적화(HPO) 연구는 LLM의 상태 추적 능력이 고전적 알고리즘보다 떨어진다는 점을 확인하고, 고전적 방법론(CMA-ES)의 내부 상태를 LLM과 공유하는 하이브리드 접근법을 통해 최고의 성능을 끌어냈습니다. 이는 거품이 낀 벤치마크를 경계하고, AI의 약점을 명확히 인지하여 가장 효과적인 협력 구조를 설계하려는 현실적인 시도입니다.

3️⃣ 데이터·환경·연산 자원의 지능적 최적화: 단순히 모델의 규모를 키우기보다, 학습 환경, 데이터, 그리고 하드웨어 연산의 효율을 극대화하여 비용 대비 성능의 밀도를 높이려는 인프라적 접근이 활발합니다. AutoForge는 고난도 에이전트 강화학습을 위한 복잡한 시뮬레이션 환경을 자동으로 합성하여 학습의 확장성을 해결했으며, APEX는 데이터의 난이도를 동적으로 분류해 가장 정보량이 많은 데이터에만 프롬프트 최적화 연산을 집중시키는 극대화된 데이터 효율성을 보여주었습니다. 더불어 FP8 is All You Need는 8비트 저정밀 텐서 연산을 활용해 고비용 배정밀도(FP64) 중심의 고성능 컴퓨팅(HPC) 한계를 돌파했고, DySIB는 고차원 관측 데이터에서 동역학적 핵심 정보만 추출하는 수학적 효율성을 증명했습니다. 이는 제한된 자원을 가장 똑똑하게 사용하여 AI 시스템의 실질적인 산업 및 과학적 적용 가능성을 넓히려는 치열한 노력입니다.

논문별 핵심 요약

Economy of Minds는 중앙집중식 제어 없이 에이전트들이 경매를 통해 행동 권리를 획득하고 환경 보상으로 부를 축적하는 경제적 상호작용 규칙을 바탕으로, 자발적으로 진화하며 다단계 추론과 같은 고차원적인 집단 지능을 형성하는 분산형 시스템을 제안합니다. -
AutoForge는 대규모 언어 에이전트의 효과적인 강화학습을 위해 검증 가능한 고난도 시뮬레이션 환경을 자동으로 대량 합성하고, 사용자 불안정성과 환경 간 이질성을 극복하여 학습 안정성을 향상시키는 환경 수준의 통합 파이프라인을 제시합니다. -
APEX는 대규모 언어 모델의 프롬프트를 최적화할 때 평가 데이터셋 전체를 낭비하는 기존의 비효율을 개선하고자, 정답과 오답이 엇갈리는 혼합 구간을 동적으로 선택해 한정된 계산 예산 내에서 데이터 효율성을 극대화하는 방법을 고안했습니다. -
Self-Harness는 인간 전문가의 개입이나 더 강력한 외부 모델의 도움 없이, 에이전트 스스로 과거의 실행 추적에서 발견된 실패 패턴을 분석하고 회귀 테스트를 거쳐 자신과 환경의 상호작용을 매개하는 운영 정책을 자율적으로 수정하는 프레임워크를 선보입니다. -
autoresearch 연구는 대규모 언어 모델이 하이퍼파라미터 최적화 환경에서 명시적인 상태 추적의 어려움으로 인해 고전적 알고리즘을 완전히 극복하지 못함을 밝히고, 공분산 행렬 적응 진화 전략의 내부 상태를 언어 모델과 공유하는 하이브리드 방식을 제안하여 최고 성능을 달성했습니다. -
FP8 is All You Need는 고성능 컴퓨팅에서 네이티브 배정밀도 부동소수점 하드웨어가 필수적이라는 통념을 반박하며, 중국 나머지 정리와 8비트 저정밀 텐서 연산을 결합해 텐서 처리량을 극대화함으로써 정확도 손실 없이 실행 성능을 회복할 수 있음을 입증했습니다. -
AI 리뷰어 연구는 45명의 도메인 전문가가 네이처 계열 논문을 대규모로 주석하고 검증한 결과를 통해, 인공지능이 인간이 놓친 고유한 문제를 짚어내는 훌륭한 보완재 역할을 수행하지만 긴 문맥 관리나 특정 분야의 암묵지 부족 같은 구조적 한계도 지니고 있음을 다층적으로 분석했습니다. -
LiveBrowseComp는 기존 검색 에이전트들이 외부 웹에서 새로운 사실을 탐색하기보다 이미 내재된 사전 지식을 재확인하는 데 의존하는 현상을 진단하고, 모델의 지식 경계를 넘어 최근 발생한 사실에 대한 진정한 딥서치 능력을 엄밀하게 평가하는 새로운 벤치마크를 도입했습니다. -
DySIB는 고차원적인 시계열 관측 데이터에서 과거와 미래 관측 창 사이의 예측 상호 정보량을 최대화하여, 원시 영상을 직접 복원하지 않고도 시스템의 동역학을 지배하는 저차원 위상공간의 기하학적 좌표를 정확하고 해석 가능하게 학습하는 방법론을 제시합니다. -
AutoScientists는 장기적인 계산 과학 실험 과정에서 요구되는 가설 설정, 실험 실행, 결과 분석 및 수정의 반복적 순환을 분산형 에이전트 팀이 스스로 논의하고 조직하여 처리하게 함으로써, 실패한 탐색 지식을 보존하고 유망한 방향으로 협력하는 자율적 연구 시스템을 구축했습니다.

마음의 경제: 경제적 상호작용을 통한 창발적 멀티에이전트 지능 / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

논문 소개

중앙집중형 제어 없이 다수의 에이전트가 어떻게 더 강한 집단 지능으로 자발적으로 진화할 수 있는지를 다룬 이 연구는, 프리드리히 하이에크(Friedrich Hayek)의 분산적 시장 조정 이론을 멀티에이전트 인공지능으로 옮겨온 시도라는 점에서 주목할 만합니다. 저자들은 이를 위해 에이전트 경제(agent economy)라는 틀을 제안하며, 각 에이전트가 단순히 협력하는 데 그치지 않고 경매(auction)를 통해 행동 권리를 획득하고, 서로 지불을 주고받으며, 환경에서 얻은 보상으로 부를 축적하도록 설계합니다. 이러한 경제적 신호는 별도의 전역 오케스트레이션이나 명시적 통신 규약이 없어도 에이전트들 사이의 분산형 기여도 할당(decentralized credit assignment)을 가능하게 하고, 각 행동의 가치가 자연스럽게 드러나도록 만듭니다. 그 결과 계획은 외부에서 강제되는 것이 아니라, 각 에이전트가 자신의 경제적 유인을 따르는 과정에서 내부적으로 형성됩니다. 즉, 복잡한 협업 메커니즘을 정교하게 설계하기보다, 상호작용의 규칙 자체를 잘 설정함으로써 집단적 사고가 자라나게 하는 접근입니다.

이 논문의 또 다른 핵심은 시스템이 고정된 구조에 머무르지 않고 경제적 선택(economic selection)을 통해 지속적으로 진화한다는 점입니다. 효율적인 에이전트는 더 많은 부를 축적하며 활용(exploitation) 중심의 개선 기회를 얻는 반면, 성과가 낮은 에이전트는 자원을 잃고 새로운 에이전트로 대체되면서 탐색(exploration)의 경로를 열게 됩니다. 이렇게 부(wealth)를 상태 변수로 삼는 설계는 단순한 파라미터 최적화를 넘어, 개별 에이전트의 지역적 유인(local incentives)이 장기적인 집단 성능(long-term global performance)으로 연결되도록 만드는 분산형 진화 메커니즘을 형성합니다. 특히 약한 초기 에이전트로 시작하더라도, 이 경제적 동학을 통해 더 정교한 행동 전략이 점차 축적되고 조합된다는 점이 중요합니다. 저자들은 이러한 과정에서 다단계 추론(multi-step reasoning)과 같은 고차원적 행동이 자발적으로 나타날 수 있음을 보이며, 에이전트가 단순한 반응형 정책을 넘어 계획과 검증을 포함하는 전략으로 발전한다고 주장합니다.

실험적으로는 수학적 추론, 금융 연구, 과학 연구, 가속기 설계(accelerator design), 분산 시스템 최적화(distributed-system optimization)라는 다섯 가지 에이전트형 과제에서 이 경제 시스템의 효과를 검증합니다. 결과적으로 제안된 방법은 더 강한 단일 거대 모델(monolithic baseline)보다 우수한 성능을 보였다고 보고되며, 이는 멀티에이전트 지능의 확장이 반드시 중앙집중형 조정에 의존할 필요가 없음을 시사합니다. 이 연구가 제시하는 핵심 메시지는 조정을 직접 설계하는 대신, 조정이 자연스럽게 생성되는 인센티브 구조를 설계해야 한다는 점입니다. 경매, 지불, 부, 파산, 대체와 같은 단순한 경제 메커니즘이 경쟁과 협력을 동시에 조직하고, 그 과정에서 더 나은 추론과 문제 해결 전략을 emergent하게 만들어낼 수 있다는 주장입니다. 더 나아가 저자들은 경제적 동학이 에이전트 행동을 어떻게 형성하는지에 대한 이론적 통찰도 제시하여, 이러한 현상이 우연한 경험적 결과가 아니라 원리 기반의 설계 가능 영역임을 보여줍니다. 결국 이 논문은 분산된 유인 구조가 어떻게 집단 지능의 성장을 이끌 수 있는지를 설명하며, 향후 멀티에이전트 인공지능을 설계하는 새로운 패러다임을 제안합니다.

초록(Abstract)

중앙집중식 제어 없이 에이전트 집단이 어떻게 스스로 조율하고 자기 적응하여 더 강한 집단 지능으로 발전할 수 있을까요? 프리드리히 하이에크(Friedrich Hayek)의 시장 내 분산형 조정 경제이론에서 영감을 받아, 우리는 에이전트가 경매를 통해 행동할 권리를 두고 경쟁하고, 지불을 교환하며, 환경 보상으로부터 부를 축적하는 에이전트 경제를 통해 이 질문을 연구합니다. 이러한 단순한 경제적 신호는 분산형 크레딧 할당을 유도하여, 전역적 조율이나 명시적 통신 프로토콜 없이도 계획을 이끌어냅니다. 집단은 경제적 선택을 통해 진화합니다. 효과적인 에이전트는 부를 축적하고 활용(exploitation)을 통해 변이되는 반면, 비효율적인 에이전트는 파산하여 탐색(exploration)을 통해 대체됩니다. 우리는 약한 에이전트로 초기화된 상태에서도 이 경제가 창발적인 다단계 추론 전략을 생성하며, 수학적 추론, 금융 연구, 과학 연구, 가속기 설계, 분산 시스템 최적화를 포함한 5개의 에이전트형 작업에서 더 강한 단일체 기준선들을 능가함을 보입니다. 또한 우리는 경제적 동학이 에이전트 행동을 어떻게 형성하는지에 대한 이론적 통찰을 제시하며, 국소적 유인이 장기적인 전역 성능과 어떻게 연결되는지 설명합니다. 우리의 결과는 다중 에이전트 지능을 위한 새로운 경로를 시사합니다. 즉, 조율을 직접 설계하는 대신, 그 조율이 자동으로 창발하는 분산형 유인 구조를 설계할 수 있습니다.

How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired by Friedrich Hayek's economic theory of decentralized coordination in markets, we study this question through an agent economy in which agents compete via auctions for the right to act, exchange payments, and accumulate wealth from environmental rewards. These simple economic signals induce decentralized credit assignment, driving planning without global orchestration or explicit communication protocols. The population evolves through economic selection: effective agents accumulate wealth and are mutated via exploitation, while ineffective ones go bankrupt and are replaced via exploration. We show that, initialized with weak agents, the economy produces emergent multi-step reasoning strategies and outperforms stronger monolithic baselines across five agentic tasks, including mathematical reasoning, financial research, scientific research, accelerator design, and distributed-system optimization. We further provide theoretical insights into how economic dynamics shape agent behaviors, linking local incentives to long-term global performance. Our results suggest a new path to multi-agent intelligence: rather than engineering coordination, we can design decentralized incentive structures under which it automatically emerges.

논문 링크

더 읽어보기

AutoForge: 에이전트 강화학습을 위한 자동화된 환경 합성 / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning

논문 소개

대규모 언어 기반 에이전트를 실제에 가깝게 학습시키려면, 저비용이면서도 충분히 복잡한 시뮬레이션 환경을 안정적으로 대량 생산하는 방법과, 그 환경에서 발생하는 상호작용 노이즈를 견디는 학습 절차가 함께 필요하다. AutoForge는 이러한 문제를 해결하기 위해 검증 가능한 고난도 작업(high-difficulty but easily verifiable tasks)에 연결된 시뮬레이션 환경을 자동으로 합성하는 통합 파이프라인과, 그 환경 특성에 맞춰 설계된 환경 수준 강화학습(reinforcement learning, RL) 알고리즘을 제안한다. 핵심 아이디어는 환경을 단순한 프롬프트 집합이 아니라 상태 구조와 연산 함수 집합으로 구성된 실행 가능한 시스템으로 보고, 도구 설명 문서를 바탕으로 이러한 환경을 대규모로 생성하는 데 있다. 특히 상태 구조 생성에서 속성 이름과 실제 값을 분리하고, 함수 집합 생성에서는 상태 구조에 의존하는 Python 코드를 자동 합성함으로써, 다양한 작업을 재사용 가능한 환경 스키마 위에 일관되게 얹을 수 있도록 설계하였다.

이후 도구 시퀀스 생성 단계에서는 단순한 도구 나열이 아니라, 그래프 기반 random walk와 시퀀스 병합, 추론 노드 삽입, 추론 엣지 삽입을 통해 도구 호출과 고차 추론이 얽힌 방향 비순환 그래프(directed acyclic graph, DAG)를 구성한다. 이러한 절차는 단일 조회형 과제보다 훨씬 복합적인 의존성을 요구하는 작업을 만들기 위한 것으로, 실제 에이전트가 도구를 호출한 뒤 결과를 해석하고 다음 행동을 결정하는 과정과 더 유사한 난이도를 제공한다. 생성된 그래프는 다시 작업 생성 단계로 전달되어, 초기 상태와 최종 상태를 함께 갖는 검증 가능한 학습 샘플로 재정제되며, 정답성은 특정 도구 경로의 일치가 아니라 최종 상태의 일치 여부로 판단된다. 이 점은 같은 목표를 여러 경로로 달성할 수 있는 에이전트 환경의 특성을 반영한 것으로, 데이터 생성과 평가 기준을 상태 중심으로 정렬했다는 데 의의가 있다.

학습 알고리즘인 ERPO는 기존 GRPO를 확장하여, 시뮬레이션 사용자(simulated user)의 불안정성과 환경 간 이질성을 동시에 다루도록 만든다. 에이전트는 도구 호출과 사용자에게의 정보 요청을 번갈아 수행하며 롤아웃을 진행하고, 이 과정에서 interleaved thinking을 통해 이전 추론 내용을 유지한 채 장기적인 계획과 재계획을 이어 간다. 또한 잘못된 사용자 행동을 사전에 식별해 학습 신호에서 제외하는 masking erroneous user behaviors(MEU) 전략을 적용함으로써, 합성 사용자 오류가 보상 추정과 정책 업데이트를 오염시키는 문제를 줄인다. 가장 중요한 기여는 환경 수준 advantage estimation으로, 동일한 질문 묶음이 아니라 같은 환경 내부에서 보상을 정규화하여 advantage를 계산하므로, 서로 다른 환경의 난이도 차이와 이상치에 덜 민감하고 학습 안정성이 높아진다.

이러한 설계는 결국 환경 생성, 상호작용 절차, 보상 추정의 세 층위를 하나의 일관된 프레임으로 묶어, 에이전트형 강화학습이 요구하는 대규모성, 안정성, 일반화 가능성을 동시에 확보하려는 시도라고 볼 수 있다. tau-bench, tau2-Bench, VitaBench에서의 검증과 도메인 밖 일반화 분석은, AutoForge가 단순한 합성 데이터 생성 기법을 넘어 실제 에이전트 학습을 위한 기반 인프라로 기능할 수 있음을 시사한다.

초록(Abstract)

시뮬레이션 환경에서 강화학습(RL)을 수행하는 것은 언어 기반 에이전트를 향상시키는 비용 효율적이고 매우 확장 가능한 방법을 제공합니다. 그러나 기존 연구는 반자동 환경 합성 또는 충분한 난이도가 부족한 과제에 제한되어 있어, 폭과 깊이가 모두 부족했습니다. 또한 이러한 환경에 통합된 시뮬레이션 사용자의 불안정성과 시뮬레이션 환경 간의 이질성은 에이전트형 강화학습에 추가적인 과제를 제기합니다. 본 연구에서는 (1) 높은 난이도를 가지면서도 쉽게 검증 가능한 과제와 연관된 시뮬레이션 환경을 자동화되고 확장 가능하게 합성하기 위한 통합 파이프라인과, (2) 사용자 불안정성을 효과적으로 완화할 뿐만 아니라 환경 수준에서 어드밴티지 추정도 수행함으로써 학습 효율과 안정성을 향상시키는 환경 수준 강화학습 알고리즘을 제안합니다. tau-bench, tau2-Bench, VitaBench를 포함한 에이전트 벤치마크에 대한 포괄적인 평가는 제안한 방법의 효과를 검증합니다. 추가적인 심층 분석은 도메인 외 일반화 능력이 뛰어남을 보여줍니다.

Conducting reinforcement learning (RL) in simulated environments offers a cost-effective and highly scalable way to enhance language-based agents. However, previous work has been limited to semi-automated environment synthesis or tasks lacking sufficient difficulty, offering little breadth or depth. In addition, the instability of simulated users integrated into these environments, along with the heterogeneity across simulated environments, poses further challenges for agentic RL. In this work, we propose: (1) a unified pipeline for automated and scalable synthesis of simulated environments associated with high-difficulty but easily verifiable tasks; and (2) an environment level RL algorithm that not only effectively mitigates user instability but also performs advantage estimation at the environment level, thereby improving training efficiency and stability. Comprehensive evaluations on agentic benchmarks, including tau-bench, tau2-Bench, and VitaBench, validate the effectiveness of our proposed method. Further in-depth analyses underscore its out-of-domain generalization.

논문 링크

APEX: 동적 데이터 선택을 활용한 자동 프롬프트 엔지니어링 전문가 / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

논문 소개

대규모 언어 모델(Large Language Models, LLMs)은 프롬프트의 표현 방식에 매우 민감하므로, 그 잠재력을 충분히 끌어내기 위해서는 자동 프롬프트 최적화(automatic prompt optimization)가 핵심적인 과제가 됩니다. 기존의 진화 알고리즘(evolutionary algorithms) 기반 접근은 프롬프트를 점진적으로 변형하는 데 강점을 보였지만, 개발 데이터셋을 고정된 평가용 자원처럼 반복 사용하면서 계산 예산을 비효율적으로 소모한다는 한계를 드러냈습니다. APEX(Automatic Prompt Engineering eXpert)는 이러한 병목을 해결하기 위해 프롬프트 탐색과 데이터 활용을 동시에 최적화하는 새로운 틀을 제안합니다. 이 방법의 중심에는 최적화 계보(optimization lineage)를 따라 데이터셋을 Easy, Hard, Mixed의 세 계층으로 동적으로 재구성하는 전략이 있으며, 특히 모델의 정답과 오답이 함께 나타나는 Mixed 계층을 가장 정보량이 높은 구간으로 간주합니다. 이러한 관점은 단순히 많은 예시를 보는 것보다, 어떤 예시가 프롬프트 개선에 실질적인 신호를 제공하는지를 식별하는 일이 더 중요하다는 점을 분명히 보여 줍니다.

APEX는 Mixed 계층에서 두 가지 고가치 프런티어를 추출합니다. 하나는 정보성 있는 변이를 생성하는 데 유리한 addressable frontier이고, 다른 하나는 후보 프롬프트의 우열을 구분하는 데 민감한 rank-sensitive frontier입니다. 전자는 프롬프트 수정의 방향성을 제공하고, 후자는 어떤 변형이 실제로 더 나은 성능으로 이어지는지를 판별하게 해 주므로, 두 프런티어는 탐색과 평가의 역할을 서로 보완합니다. 특히 이 구조는 데이터셋 전체를 일괄적으로 다루는 기존 방식과 달리, 현재 최적화 단계에서 가장 의미 있는 샘플에 계산을 집중시킨다는 점에서 데이터 효율성을 크게 끌어올립니다. 다시 말해 APEX는 프롬프트를 무작정 많이 바꾸는 대신, 모델의 행동이 가장 불안정하고 따라서 가장 많은 정보를 담고 있는 지점을 전략적으로 공략합니다. 이러한 설계는 프롬프트 최적화를 단순한 생성 문제가 아니라, 데이터 선택과 후보 비교가 결합된 적응형 탐색 문제로 재정의합니다.

실험적으로 APEX는 IFBench, SimpleQA Verified, FACTS Grounding이라는 서로 성격이 다른 세 벤치마크에서 검증되었으며, 평가 호출 5,000회라는 고정 예산 조건에서도 안정적인 개선을 보였습니다. 그 결과 초기 프롬프트 대비 Gemini 2.5 Flash에서는 평균 11.2%, Gemma 3 27B에서는 평균 6.8%의 성능 향상을 달성하여, 데이터 중심 접근이 효율적이면서도 강력한 프롬프트 최적화에 얼마나 중요한지를 입증했습니다. 이러한 성과는 APEX가 단순히 탐색 알고리즘을 개선한 수준을 넘어, 프롬프트 엔지니어링의 성패가 어떤 데이터를 언제, 어떻게 선택하느냐에 달려 있음을 실증적으로 보여 준다는 점에서 의미가 큽니다. 결국 이 연구는 자동 프롬프트 최적화의 핵심을 “더 많은 평가”가 아니라 “더 똑똑한 데이터 사용”으로 옮겨 놓았고, 제한된 계산 자원 안에서 더 높은 성능을 달성할 수 있는 실용적이고도 일반화 가능한 방법론을 제시합니다.

초록(Abstract)

대규모 언어 모델(LLM)은 프롬프트 구성에 매우 민감하여, 그 잠재력을 최대한 끌어내기 위해서는 자동 프롬프트 최적화가 필요합니다. 진화 알고리즘이 지배적인 패러다임으로 부상했지만, 이들은 데이터 효율성이라는 치명적인 병목을 안고 있습니다. 현재의 방법들은 개발용 데이터셋을 정적인 벤치마크로 취급하여, 정보성이 낮은 데이터에 상당한 계산 예산을 낭비합니다. 본 연구에서는 프롬프트 탐색과 함께 데이터 사용을 최적화하는 새로운 프레임워크 APEX(Automatic Prompt Engineering eXpert)를 소개합니다. APEX는 최적화 계보를 바탕으로 데이터셋을 Easy, Hard, Mixed 계층으로 동적으로 분류합니다. LLM의 성능이 엇갈리는 데이터를 식별하는 Mixed 계층을 우선시함으로써, 우리는 두 개의 고효율 부분집합을 찾아냅니다. 하나는 정보성 있는 변이를 생성하기 위한 addressable frontier이고, 다른 하나는 후보의 품질을 구분하기 위한 rank-sensitive frontier입니다. 우리는 IFBench, SimpleQA Verified, FACTS Grounding이라는 세 가지 다양한 벤치마크에서 APEX를 평가합니다. 5,000회의 평가 호출이라는 고정된 예산 하에서, APEX는 뛰어난 데이터 효율성 덕분에 Gemini 2.5 Flash에서는 초기 프롬프트보다 평균 11.2%, Gemma 3 27B에서는 6.8% 더 높은 성능을 보였으며, 이는 데이터 중심 접근이 효율적이고 효과적인 프롬프트 최적화의 핵심임을 보여줍니다.

Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.

논문 링크

셀프-하네스(Self-Harness): 스스로 개선되는 하네스 / Self-Harness: Harnesses That Improve Themselves

논문 소개

대규모 언어 모델(Large Language Model, LLM) 기반 에이전트의 성능은 기반 모델의 추론 능력만으로 결정되지 않고, 환경과의 상호작용을 매개하는 하니스(harness) 설계에 의해 크게 좌우됩니다. 하니스는 시스템 프롬프트, 도구 사용 방식, 검증 절차, 실패 복구 정책까지 포괄하는 운영 계층으로서, 같은 모델이라도 어떤 하니스를 적용하느냐에 따라 전혀 다른 행동 양상을 보이게 합니다. 저자들은 바로 이 지점에 주목하여, 하니스가 더 이상 인간 전문가가 수동으로만 설계하는 고정 자산이 아니라, 모델의 실제 실패 패턴을 바탕으로 스스로 개선될 수 있어야 한다는 문제의식을 제기합니다. 이러한 관점에서 제안된 Self-Harness는 외부의 더 강한 에이전트나 인간 엔지니어에 의존하지 않고, LLM 기반 에이전트가 자신의 운영 하니스를 반복적으로 개선하는 새로운 패러다임을 보여줍니다.

Self-Harness의 핵심 방법론은 약점 발굴(Weakness Mining), 하니스 제안(Harness Proposal), 제안 검증(Proposal Validation)으로 이루어진 반복 루프에 있습니다. 먼저 실행 추적(execution traces)에서 모델별 실패 패턴을 찾아내어, 어떤 행동이 반복적으로 성능을 저해하는지 구조적으로 진단합니다. 이어서 그 약점과 직접 연결되는 최소한의 하니스 수정안을 다양하게 생성하되, 지나치게 큰 변경이 아니라 실제 운영 정책을 정교하게 다듬는 수준의 국소적 편집을 지향합니다. 마지막으로 회귀 테스트(regression testing)를 통해 후보 수정이 기존 성능을 훼손하지 않는지 검증한 뒤에만 채택함으로써, 단순한 프롬프트 튜닝이 아니라 안전하고 누적 가능한 개선 체계를 형성합니다. 이러한 설계는 하니스가 모델의 행동을 지시하는 동시에, 모델의 실패로부터 다시 학습될 수 있다는 점을 기술적으로 구현한 것입니다.

논문은 Terminal-Bench-2.0 환경에서 이 프레임워크를 검증했으며, 초기에는 매우 단순한 하니스만을 사용한 상태에서 MiniMax M2.5, Qwen3.5-35B-A3B, GLM-5라는 서로 다른 계열의 세 기반 모델에 적용했습니다. 실험 결과, 홀드아웃 통과율이 각각 40.5%에서 61.9%, 23.8%에서 38.1%, 42.9%에서 57.1%로 상승해, Self-Harness가 모델 종류와 무관하게 일관된 개선 효과를 낼 수 있음을 보였습니다. 특히 정성 분석에서는 개선이 단순히 일반론적인 지시문을 덧붙이는 방식이 아니라, 각 모델의 약점을 구체적이고 실행 가능한 하니스 변경으로 전환하는 과정임이 드러났습니다. 이는 에이전트 성능 향상의 병목이 모델 파라미터 내부에만 있지 않으며, 운영 정책을 정교하게 학습시키는 것만으로도 실질적인 성능 개선이 가능하다는 점을 강하게 시사합니다. 결과적으로 Self-Harness는 LLM 기반 에이전트가 하니스에 의해 형성될 뿐 아니라, 하니스를 다시 형성할 수 있다는 새로운 연구 방향을 제시합니다.

초록(Abstract)

LLM 기반 에이전트의 성능은 기본 모델과 환경과의 상호작용을 중재하는 하니스(harness)에 의해 함께 형성됩니다. 서로 다른 모델은 각기 다른 행동을 보이므로, 효과적인 하니스 설계는 본질적으로 모델별로 달라질 수밖에 없습니다. 그러나 에이전트 하니스는 여전히 대체로 인간 전문가가 설계하고 있으며, 현대 LLM이 점점 더 다양해지고 빠르게 진화함에 따라 이러한 방식은 확장성이 떨어집니다. 본 논문에서는 인간 엔지니어나 더 강력한 외부 에이전트에 의존하지 않고, LLM 기반 에이전트가 자신의 운영 하니스를 스스로 개선하는 새로운 패러다임인 Self-Harness를 소개합니다. 우리는 Self-Harness를 세 단계로 이루어진 반복 루프로 구현합니다. 약점 발굴(Weakness Mining)은 실행 추적에서 모델별 실패 패턴을 식별하고, 하니스 제안(Harness Proposal)은 이러한 실패와 연결된 다양하면서도 최소한의 하니스 수정안을 생성하며, 제안 검증(Proposal Validation)은 회귀 테스트를 통과한 경우에만 후보 편집을 수락합니다. 우리는 최소한의 초기 하니스와 서로 다른 계열의 세 가지 기본 모델인 MiniMax M2.5, Qwen3.5-35B-A3B, GLM-5를 사용해 Terminal-Bench-2.0에 Self-Harness를 적용했습니다. 세 모델 모두에서 Self-Harness는 일관되게 성능을 향상시켰으며, 홀드아웃 통과율은 각각 40.5%에서 61.9%로, 23.8%에서 38.1%로, 42.9%에서 57.1%로 증가했습니다. 정성적 분석은 또한 Self-Harness가 단순히 일반적인 지시를 추가하는 데 그치지 않고, 모델별 약점을 구체적이고 실행 가능한 하니스 변경으로 효과적으로 전환한다는 점을 보여줍니다. 이러한 결과는 LLM 기반 에이전트가 하니스에 의해 형성될 뿐만 아니라, 하니스를 재구성하는 데에도 참여할 수 있는 방향을 시사합니다.

The performance of LLM-based agents is jointly shaped by their base models and the harnesses that mediate their interaction with the environment. Because different models exhibit distinct behaviors, effective harness design is inherently model-specific. Yet agent harnesses are still largely engineered by human experts, a paradigm that scales poorly as modern LLMs become increasingly diverse and rapidly evolving. In this paper, we introduce Self-Harness, a new paradigm in which an LLM-based agent improves its own operating harness, without relying on human engineers or stronger external agents. We operationalize Self-Harness as an iterative loop with three stages: Weakness Mining, which identifies model-specific failure patterns from execution traces; Harness Proposal, which generates diverse yet minimal harness modifications tied to these failures; and Proposal Validation, which accepts candidate edits only after regression testing. We instantiate Self-Harness on Terminal-Bench-2.0 using a minimal initial harness and three base models from diverse families: MiniMax M2.5, Qwen3.5-35B-A3B, and GLM-5. Across all three models, Self-Harness consistently improves performance, with held-out pass rates increasing from 40.5% to 61.9%, 23.8% to 38.1%, and 42.9% to 57.1%, respectively. Qualitative analyses further show that Self-Harness does not simply add generic instructions, but effectively turns model-specific weaknesses into concrete, executable harness changes. These results suggest a path toward LLM-based agents that are not merely shaped by their harnesses, but can also participate in reshaping them.

논문 링크

대규모 언어 모델(LLM)은 고전적 하이퍼파라미터 최적화 알고리즘을 능가할 수 있는가? autoresearch 연구 / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

논문 소개

대규모 언어 모델(LLM) 에이전트가 실제 하이퍼파라미터 최적화(HPO) 환경에서 고전적 알고리즘을 넘어설 수 있는지를 검증한 이 연구는, autoresearch 저장소를 실험장으로 삼아 코드 편집형 최적화의 가능성과 한계를 정면으로 살펴봅니다. 여기서 에이전트는 단순히 숫자형 하이퍼파라미터를 고르는 수준을 넘어, 훈련 코드 자체를 직접 수정하면서 작은 언어 모델의 성능을 개선해야 하며, 목표는 고정된 계산 예산 안에서 검증 바이트당 비트(validation bits-per-byte, val_bpb)를 최소화하는 것입니다. 특히 이 문제는 아키텍처, 옵티마이저, 학습 루프, 모델 크기까지 포함하는 넓은 코드 공간을 다루기 때문에, 언어 이해 능력과 최적화 상태 추적 능력이 동시에 요구된다는 점에서 일반적인 블랙박스 최적화보다 훨씬 도전적입니다. 저자들은 이 환경에서 공분산 행렬 적응 진화 전략(Covariance Matrix Adaptation Evolution Strategy, CMA-ES)과 트리 구조 Parzen 추정기(Tree-structured Parzen Estimator, TPE) 같은 고전적 기법을 LLM 기반 접근법과 직접 비교하며, 무엇이 실제 성능을 좌우하는지 체계적으로 분석합니다. 그 결과, 고정된 탐색 공간에서는 고전적 방법이 일관되게 더 우수했고, 특히 생성된 후보의 다양성보다 실행 실패를 줄이는 안정성이 더 중요하다는 사실이 드러났습니다.

흥미로운 점은 LLM에게 소스 코드를 직접 편집하도록 허용하면 격차가 다소 줄어들지만, 당시의 최첨단 모델인 Claude Opus 4.6과 Gemini 3.1 Pro Preview를 포함하더라도 고전적 방법을 완전히 따라잡지는 못했다는 것입니다. 이는 LLM이 개별 trial에서는 유용한 수정을 제안할 수 있어도, 반복 실험 전체를 통해 최적화 상태를 일관되게 유지하는 데는 여전히 약하다는 관찰로 이어집니다. 반대로 고전적 알고리즘은 도메인 지식은 부족하지만 평균 벡터, 스텝 크기, 공분산 행렬처럼 명시적인 상태를 안정적으로 갱신할 수 있다는 강점을 가집니다. 이러한 상보성을 바탕으로 저자들은 Centaur라는 하이브리드 방법을 제안하는데, 이는 CMA-ES의 해석 가능한 내부 상태를 LLM과 공유하여 언어 모델이 탐색의 맥락을 더 잘 반영하도록 설계된 방식입니다. Centaur는 실험 전반에서 가장 좋은 성능을 보였고, 놀랍게도 0.8B 규모의 작은 LLM만으로도 순수 고전적 방법과 순수 LLM 방법을 모두 앞설 수 있었습니다. 반면 제약 없는 코드 편집 방식은 더 큰 모델이 필요했으며, 이는 단순한 모델 규모보다 최적화 인터페이스와 상태 표현이 성능에 더 큰 영향을 준다는 점을 시사합니다. 또한 저자들은 탐색 다양성, 모델 스케일링, 그리고 Centaur에서 LLM이 제안하는 trial 비율을 세밀하게 분석함으로써, LLM이 언제 강점이 되고 언제 약점이 되는지를 정교하게 드러냅니다. 종합하면, 이 연구는 LLM이 고전적 최적화기를 대체하는 존재라기보다, 명시적 탐색 상태를 보완하는 협력적 구성요소로 활용될 때 가장 큰 효과를 낼 수 있음을 설득력 있게 보여줍니다.

초록(Abstract)

오토리서치 저장소는 LLM 에이전트가 학습 코드를 직접 편집해 하이퍼파라미터를 최적화할 수 있게 해줍니다. 우리는 이를 테스트베드로 사용해, 고정된 컴퓨팅 예산 하에서 작은 언어 모델의 하이퍼파라미터를 조정하는 문제에 대해 고전적 HPO 알고리즘과 LLM 기반 방법을 비교했습니다. 오토리서치 전반에 걸쳐 고정된 탐색 공간을 정의했을 때, CMA-ES와 TPE 같은 고전적 방법은 일관되게 LLM 기반 에이전트보다 뛰어난 성능을 보였으며, 이때 탐색 다양성보다 메모리 부족(OOM) 실패를 피하는 것이 더 중요했습니다. LLM이 소스 코드를 직접 편집하도록 허용하면 고전적 방법과의 격차는 줄어들지만, 본문 작성 시점의 Claude Opus 4.6 및 Gemini 3.1 Pro Preview와 같은 최첨단 모델을 사용하더라도 그 격차를 완전히 좁히지는 못했습니다. 우리는 LLM이 여러 시행에 걸쳐 최적화 상태를 추적하는 데 어려움을 겪는다는 점을 관찰했습니다. 반면 고전적 방법은 LLM의 도메인 지식이 부족합니다. 두 접근법의 강점을 결합하기 위해, 우리는 평균 벡터, 스텝 크기, 공분산 행렬을 포함한 CMA-ES의 해석 가능한 내부 상태를 LLM과 공유하는 하이브리드 방법 Centaur를 제안합니다. Centaur는 우리의 실험에서 가장 좋은 결과를 달성했으며, 0.8B LLM만으로도 모든 고전적 방법과 순수 LLM 방법을 능가하기에 충분했습니다. 제약 없는 코드 편집은 고전적 방법과 경쟁하려면 더 큰 모델을 필요로 합니다. 또한 우리는 탐색 다양성, 0.8B에서 최첨단 모델로의 모델 스케일링, 그리고 Centaur에서 LLM이 제안한 시행의 비율에 대한 소거 실험을 추가로 분석했습니다. 종합하면, 우리의 결과는 LLM이 고전적 옵티마이저를 대체하기보다는 보완하는 데 가장 효과적임을 시사합니다. 코드는 https://github.com/ferreirafabio/autoresearch-automl 에서, 인터랙티브 데모는 https://ferreirafabio.github.io/autoresearch-automl 에서 확인할 수 있습니다.

The autoresearch repository enables an LLM agent to optimize hyperparameters by editing training code directly. We use it as a testbed to compare classical HPO algorithms against LLM-based methods on tuning the hyperparameters of a small language model under a fixed compute budget. When defining a fixed search space over autoresearch, classical methods such as CMA-ES and TPE consistently outperform LLM-based agents, where avoiding out-of-memory failures matters more than search diversity. Allowing the LLM to directly edit source code narrows the gap to the classical methods but does not close it, even with frontier models available at the time of writing such as Claude Opus 4.6 and Gemini 3.1 Pro Preview. We observe that LLMs struggle to track optimization state across trials. In contrast, classical methods lack the domain knowledge of LLMs. To combine the strengths of both, we introduce Centaur, a hybrid that shares CMA-ES's interpretable internal state, including mean vector, step-size, and covariance matrix, with an LLM. Centaur achieves the best result in our experiments, and a 0.8B LLM already suffices to outperform all classical and pure LLM methods. Unconstrained code editing requires larger models to be competitive with classical methods. We further analyze search diversity, model scaling from 0.8B to frontier models, and ablate the fraction of LLM-proposed trials in Centaur. All in all, our results suggest that LLMs are most effective as a complement to classical optimizers, not as a replacement. Code is available at https://github.com/ferreirafabio/autoresearch-automl & interactive demo at https://ferreirafabio.github.io/autoresearch-automl.

논문 링크

더 읽어보기

FP8이면 충분하다(1부): HPC의 성배로 여겨진 하드웨어 FP64에 대한 반박 / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail

논문 소개

고성능 컴퓨팅(HPC, high-performance computing) 분야에서는 오랫동안 하드웨어가 직접 제공하는 배정밀도 부동소수점(FP64, double-precision floating point) 연산이 과학 계산의 필수 조건처럼 여겨져 왔지만, 이 논문은 최신 인공지능 최적화 GPU 세대에서는 그 전제가 더 이상 성립하지 않을 수 있다고 주장합니다. 특히 NVIDIA Blackwell Ultra(B300)에서 native FP64 처리량이 크게 낮아졌다는 점을 출발점으로 삼아, 오히려 풍부한 FP8(8-bit floating point) 텐서 처리량을 활용해 FP64 정확도를 복원하는 경로가 더 실용적일 수 있음을 보입니다. 이를 위해 저자들은 중국 나머지 정리(CRT, Chinese Remainder Theorem)와 Ozaki Scheme II를 결합하여 값을 여러 잔여 모듈러 채널로 분해한 뒤 다시 정확하게 복원하는 방식을 채택하고, 이 과정이 FP64 수준의 수치 정확도를 유지하면서도 저정밀 텐서 연산의 높은 처리량을 그대로 활용할 수 있도록 설계합니다. 핵심 방법론은 단순한 근사 가속이 아니라, 계산 경로 자체를 저정밀 텐서 코어로 옮기되 결과는 정수 기반 재구성으로 엄밀하게 되돌리는 데 있으며, 이 점에서 기존의 배정밀도 중심 접근과 분명히 구별됩니다.

이 논문의 또 다른 중요한 기여는 전통적인 Roofline 모델을 확장한 Tensor-Memory Equilibrium(TME) 모델입니다. TME는 단순히 연산 성능과 메모리 대역폭의 균형만 보는 것이 아니라, FP8 기반 에뮬레이션이 FP64 워크로드로 전환되는 과정에서 발생하는 계산 배수, 대역폭 배수, 재구성 지연까지 함께 반영하여 실제 실행 성능을 해석합니다. 저자들은 이 틀을 통해 레지스터 수준 퓨전(register-level fusion)이 중간 결과를 메모리로 자주 내보내지 않도록 만들어 bandwidth multiplier를 사실상 1에 가깝게 수렴시킬 수 있다고 설명하며, 그 결과 복원 오버헤드가 메모리 벽 뒤로 숨는 구조를 제시합니다. 다시 말해, 추가적인 변환과 복원 단계가 존재하더라도 전체 성능은 메모리 이동이 지배하는 구간에서는 거의 손실 없이 유지될 수 있다는 것입니다.

구현 관점에서 제시된 Ozaki Scheme II 커널은 이러한 아이디어가 실제로 어떻게 작동하는지 잘 보여 줍니다. 입력 행렬과 벡터를 여러 residue 채널로 분해해 각 채널에서 wmma 기반 텐서 연산으로 누적하고, 마지막에 Garner 재구성을 통해 하나의 double 값으로 복원하는 구조는, 정확도와 속도를 분리하여 각각에 가장 적합한 하드웨어 경로를 배정하는 설계 철학을 드러냅니다. 이때 SpMV(sparse matrix-vector multiplication), GEMV(general matrix-vector multiplication), stencil 같은 대표적 HPC 커널들이 모두 같은 논리로 처리될 수 있다는 점은, 이 접근이 특정 작업에만 국한된 최적화가 아니라는 사실을 보여 줍니다. 성능 결과 역시 이러한 주장을 뒷받침하는데, 저자들은 B300의 native FP64가 크게 약화된 반면 Ozaki II 경로는 훨씬 높은 실효 처리량으로 메모리 한계에 도달할 수 있다고 설명하며, H100 대비로도 동일하거나 더 나은 성능을 보인다고 제시합니다.

결국 이 연구가 전달하는 핵심 메시지는, 배정밀도 정확성을 유지하기 위해 반드시 native FP64 하드웨어에 의존해야 한다는 기존 통념이 더 이상 절대적이지 않다는 점입니다. FP8 텐서 처리량, CRT 기반 복원, 그리고 레지스터 수준 퓨전을 결합하면, 생산 환경의 HPC에서도 FP64 정확도와 메모리 대역폭 효율을 동시에 확보할 수 있으며, 오히려 구세대의 FP64 중심 설계보다 더 높은 성능 잠재력을 얻을 수 있습니다. 이러한 주장은 하드웨어 설계의 우선순위를 재고하게 만들고, 미래의 과학 계산이 더 이상 단일 정밀도 연산 유닛에 의존하지 않아도 된다는 점을 강하게 시사합니다.

초록(Abstract)

기존 HPC의 통설은 네이티브 하드웨어 FP64 실리콘이 과학 계산의 환원 불가능한 기반, 즉 배정밀도 시뮬레이션의 “성배”라고 본다. 그러나 본 논문은 이 통설이 틀렸다고 주장한다. B300 세대 및 그 이후의 AI 최적화 GPU에서는 풍부한 FP8 텐서 처리량과 중국인의 나머지 정리(Chinese Remainder Theorem) 기반의 Ozaki 스킴 II를 결합함으로써, 정형 HPC 커널 전반에서 완전한 FP64 정확도로 메모리 지붕 수준의 실행을 회복할 수 있다. NVIDIA의 Blackwell Ultra(B300)는 네이티브 FP64를 약 1.3 TFLOPS 수준으로 떨어뜨려, B200 대비 31배의 퇴화를 보이며, 심지어 메모리 병목 커널(SpMV, GEMV, 스텐실)조차 계산 병목으로 전환시킨다. 우리는 네 가지 기여를 제시한다. 첫째, Roofline에 연산 배수 α, 대역폭 배수 β, 재구성 지연 γ를 추가한 통합 분석 모델인 텐서-메모리 평형(Tensor-Memory Equilibrium, TME) 모델을 제안한다. 둘째, 레지스터 수준 퓨전이 β → 1을 이끄는 메커니즘임을 밝혀, 메모리 월 뒤에서는 에뮬레이션이 사실상 공짜가 되게 한다. 셋째, Ozaki II가 에뮬레이션 FP64를 약 1 TFLOPS의 네이티브 하한에서 B300에서는 약 500 TFLOPS, Rubin R200에서는 약 400 TFLOPS까지 끌어올리며, 계산 병목 구간에서는 B200의 네이티브 FP64 상한을 10배 이상 상회하고 대역폭 병목 구간에서는 메모리 지붕과 일치함을 예측한다. 넷째, H100을 기준선으로 삼았을 때 Ozaki II는 조사한 모든 워크로드에서 H100과 같거나 더 우수한 성능을 보이는 반면, B300의 네이티브 FP64는 최대 50배의 퇴화를 초래한다. 여기에 동반 Part(2) 논문에서 보고된 FFT 분석(남아 있는 INT32 파이프에서의 Kulisch 고정소수점 재구성)과 FP32+Kahan 리덕션을 결합하면, B300에서 조사한 모든 커널 클래스가 완전한 FP64로 메모리 지붕에 도달한다. 이러한 증거는 제목의 주장을 뒷받침한다. 즉, Ozaki II와 Kulisch 탈출 경로를 갖춘 FP8만으로도 생산용 HPC에는 충분하며, 네이티브 FP64 실리콘은 더 이상 그동안 여겨져 온 성배가 아니다.

Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.

논문 링크

AI 리뷰어의 한계와 기회: 45명의 전문가 과학자가 Nature 계열 논문의 리뷰를 검토한 연구 / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

논문 소개

인공지능(AI) 리뷰어가 과학 논문 심사 과정에 점차 도입되면서, 그 성능을 최종 판정의 일치 여부만으로 판단하는 접근의 한계가 분명해지고 있다. 실제로 리뷰어가 남긴 개별 비판이 얼마나 정확하고, 얼마나 중요한 문제를 짚으며, 그 주장을 뒷받침할 근거가 충분한지에 따라 심사의 질은 크게 달라지기 때문에, 저자들은 이러한 미시적 수준의 평가를 통해 AI 리뷰어의 실질적 역량과 한계를 정밀하게 드러내고자 했다. 이를 위해 물리, 생물, 보건 과학 분야의 45명 전문가 과학자가 참여한 대규모 주석 연구를 설계하고, 82편의 네이처 계열 논문에 대해 인간과 AI가 작성한 2,960개의 개별 비판을 각각 판단하도록 하였다. 각 비판은 correctness(정확성), significance(중요성), sufficiency of evidence(근거 충분성)라는 세 축으로 평가되었으며, 총 469시간에 걸친 검토를 통해 AI 리뷰어가 실제로 무엇을 잘하고 어디에서 실패하는지를 다층적으로 분석할 수 있었다. 이러한 방법론은 단순히 “AI가 인간과 비슷한 결론을 내리는가”를 묻는 수준을 넘어, 어떤 종류의 문제를 더 잘 포착하고 어떤 맥락에서는 오히려 과도하거나 부정확한 판단을 내리는지까지 구체적으로 보여 준다는 점에서 의미가 크다. 정량 결과는 현재의 AI 리뷰어가 결코 피상적 보조 도구에 머물지 않음을 시사한다. 예를 들어 GPT-5.2 기반 리뷰 에이전트는 세 평가 축을 통합한 기준에서 각 논문의 최고 평가 인간 리뷰어보다 더 높은 점수를 기록했으며, Gemini 3.0 Pro와 Claude Opus 4.5를 포함한 다른 AI 리뷰어들 역시 모든 축에서 가장 낮은 인간 리뷰어를 상회하였다. 더 나아가 AI 리뷰어가 제기한 정확한 비판은 더 자주 중요하고 근거가 충분한 것으로 평가되었고, 인간이 지적하지 않은 이슈의 26%를 새롭게 포착해 냈다는 점에서 탐지 범위의 확장성도 확인되었다. 그러나 동시에 AI 리뷰어들은 서로 매우 비슷한 비판을 반복하는 경향이 강해 인간보다 훨씬 높은 중복률을 보였고, 특정 하위 분야의 암묵지 부족, 장문 맥락 관리의 한계, 사소한 문제에 대한 과도한 비판성 같은 반복적 약점도 드러냈다. 부록의 정성 사례들은 이러한 약점이 단순한 오답이 아니라 분야별 관행 오독, 시간적 맥락 오류, 수정 가능성을 고려하지 않은 과도한 요구, 코드와 본문의 불일치 간과 같은 구조적 문제와 연결되어 있음을 보여 준다. 결국 이 연구는 AI 리뷰어가 인간 심사자를 대체하는 존재라기보다, 더 넓은 범위의 문제를 빠르게 탐지하고 세밀한 점검을 수행하는 보완재로서 유망하다는 점을 설득력 있게 제시하며, 향후 과학 심사에서 인간과 AI의 역할 분담을 재정의할 중요한 근거를 제공한다.

초록(Abstract)

AI의 성능이 향상됨에 따라 AI 리뷰어가 과학적 동료심사에 도입되기 시작했지만, 그 역량과 신뢰성은 여전히 의문으로 남아 있습니다. 많은 과학자들은 이를 연구를 평가할 전문성이 없는 확률적 시스템으로만 보는 반면, 다른 연구자들은 구체적 근거 없이 그 준비 상태를 더 낙관적으로 평가합니다. AI 리뷰어가 무엇을 잘하는지, 어디에서 부족한지, 그리고 어떤 과제가 남아 있는지를 이해하는 일은 필수적입니다. 그러나 기존의 AI 리뷰어 평가들은 주로 그 판정이 인간의 판정과 일치하는지(예: 점수 정합성, 채택 예측)에 초점을 맞춰 왔으며, 이는 그들의 역량과 한계를 규명하기에 충분하지 않습니다. 본 논문에서는 이러한 간극을 대규모 전문가 주석 연구를 통해 메우고자 합니다. 물리과학, 생명과학, 보건과학 분야의 도메인 과학자 45명이 469시간을 들여, Nature 계열 논문 82편에 대한 인간 작성 및 AI 생성 리뷰에서 각각 논문의 특정 한 가지 측면을 겨냥한 비판 2,960개를 정확성, 중요성, 증거의 충분성 측면에서 평가했습니다. 세 차원을 종합한 지표에서, GPT-5.2로 구동되는 리뷰 에이전트는 각 논문의 최고 평가를 받은 인간 리뷰어를 능가하며(60.0% 대 48.2%, p = 0.009), Gemini 3.0 Pro와 Claude Opus 4.5를 포함한 모든 AI 리뷰어는 모든 차원에서 최하위 평가를 받은 인간보다 높은 성과를 보였습니다. 또한 AI 리뷰어의 정확한 비판은 더 자주 중요하고 충분한 근거를 갖춘 것으로 평가되었으며, 인간이 제기하지 않은 고유한 문제의 26%를 추가로 드러냈습니다. 그러나 AI 리뷰어 간 중복은 인간보다 훨씬 더 컸고(리뷰어 간 쌍 기준 21% 대 3%), 여러 개의 파일에 걸친 긴 컨텍스트를 관리하는 능력의 한계, 세부 분야 지식 부족, 사소한 문제에 지나치게 비판적인 태도 등 인간과는 공유하지 않는 16가지 반복적 약점도 보였습니다. 종합하면, 우리의 결과는 현재의 AI 리뷰어가 인간 리뷰어를 대체하는 존재라기보다 보완하는 존재임을 보여줍니다.

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.

논문 링크

더 읽어보기

LiveBrowseComp: 검색 에이전트는 정말 검색하고 있는가, 아니면 이미 아는 것만 검증하고 있는가? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

논문 소개

대규모 언어 모델(Large Language Model, LLM) 기반 검색 에이전트(search agents)는 외부 웹을 탐색해 최신 사실을 찾아내는 능력으로 주목받고 있지만, 실제로는 새로운 정보를 발견하기보다 이미 내재된 지식(intrinsic knowledge)을 웹으로 확인하는 데 그치는 경우가 적지 않다는 문제의식이 이 연구의 출발점입니다. 저자들은 이러한 현상을 내재 지식 의존성(Intrinsic Knowledge Dependence, IKD)으로 정의하고, 검색 도구가 에이전트의 추론을 얼마나 실제로 확장하는지 정밀하게 진단하기 위해 세 가지 관점의 분석을 설계했습니다. 첫째, 도구를 완전히 제거한 닫힌책(closed-book) 설정에서 모델이 얼마나 답할 수 있는지를 측정하여, 기존 벤치마크가 애초에 모델 내부 지식에 얼마나 포섭되어 있는지 확인했습니다. 둘째, 검색은 허용하되 정답을 뒷받침하는 증거 문서를 제거해, 에이전트가 진정으로 외부 증거를 활용하는지 아니면 이미 떠올린 가설을 확인하는 데만 의존하는지를 살폈습니다. 셋째, 검색 궤적을 추적해 쿼리가 모델 내부에서 생성된 가설에서 출발했는지, 혹은 검색 결과에서 얻은 실마리에서 출발했는지를 분류함으로써 검색이 발견(discovery)의 과정인지 검증(verification)의 과정인지 구분하고자 했습니다. 이 방법론은 단순한 정답률 비교를 넘어, 검색 에이전트의 실제 작동 원리를 해부한다는 점에서 의미가 큽니다.

분석 결과는 기존 검색 벤치마크가 검색 능력과 기억 기반 재확인을 혼동할 수 있음을 분명히 보여 줍니다. 일부 모델은 도구 없이도 BrowseComp 질문의 최대 44.5%를 풀어냈고, 검색 쿼리의 절반 이상이 검색 결과가 아니라 모델 내부에서 생성한 가설에서 시작되었으며, 정답을 지지하는 증거를 제거하면 오히려 닫힌책 기준보다 더 낮은 성능을 보였습니다. 이는 검색 에이전트가 웹에서 새로운 사실을 찾아내기보다, 이미 알고 있는 내용을 검색으로 검증하는 경향이 강하다는 점을 시사합니다. 이러한 문제를 해결하기 위해 저자들은 LiveBrowseComp라는 새로운 딥서치(deep-search) 벤치마크를 제안합니다. LiveBrowseComp는 벤치마크 구축 시점 기준 최근 90일 이내에 공개된 사실에 의존하는 335개의 인간 작성 질문으로 구성되며, GDELT, TMDB, RAWG, CVE/NVD, SportsDB, USGS 등 여섯 개의 지속 갱신 소스를 바탕으로 만들어져 기존 모델의 사전 지식으로 쉽게 풀리지 않도록 설계되었습니다. 또한 전 세계적으로 널리 알려진 사건을 배제하여 단순한 회상이나 상식적 추측이 정답으로 이어지는 가능성을 줄였습니다. 그 결과 평가된 모든 에이전트는 닫힌책 정확도 2% 미만에 머물렀고, 검색을 붙인 점수도 BrowseComp 대비 25~40점 하락했으며, 기존 모델 순위는 더 이상 안정적으로 성능을 예측하지 못했습니다. 결국 이 연구는 검색 에이전트의 성능을 평가할 때 “이미 아는 것을 얼마나 잘 확인하는가”가 아니라 “현재 지식 경계를 넘어 모르는 사실을 얼마나 실제로 찾아내는가”를 보아야 한다는 점을 설득력 있게 제시합니다.

초록(Abstract)

대규모 언어 모델(LLM) 기반 검색 에이전트는 정말로 검색을 수행하고 있을까요, 아니면 웹을 이용해 이미 알고 있는 내용을 검증하고 있는 것일까요? 우리는 BrowseComp에서 세 가지 진단 지표를 통해 이 질문을 살펴봅니다. 우리의 분석은 내재 지식 의존성(Intrinsic Knowledge Dependence, IKD)을 드러냅니다. 즉, 도구에 접근할 수 있어도 에이전트는 검색을 통해 얻은 외부 증거보다, 검색 전에 모델에 인코딩된 내재적 지식에 종종 의존합니다. 에이전트는 도구 없이 BrowseComp 질문의 최대 44.5%를 답하고, 검색 쿼리의 절반 이상을 검색에서 얻은 단서가 아니라 내부적으로 생성한 가설에서 만들어 내며, 답변을 뒷받침하는 증거를 제거하면 클로즈드북 기준선보다 더 나쁜 성능을 보입니다. 이러한 결과는 정적 검색 벤치마크가 증거 중심의 발견보다 기억에 기반한 검증을 보상할 수 있으며, 에이전트가 이미 알고 있는 것과 실제로 찾아낼 수 있는 것을 혼동하게 만들 수 있음을 시사합니다.

이어 우리는 내재적 지식 범위를 넘어 에이전트를 평가하도록 설계한 딥서치 벤치마크 LiveBrowseComp를 소개합니다. 이 벤치마크는 사람이 작성한 335개의 질문으로 구성되며, 그 답은 벤치마크 구축 직전 90일 이내에 공개된 사실에 의존합니다. 질문은 6개의 갱신된 출처에서 추출되었고, 전 세계적으로 널리 알려진 사건은 제외하도록 필터링되었습니다. LiveBrowseComp에서는 평가된 모든 에이전트의 클로즈드북 정확도가 2% 미만에 그치며, 검색 보강 점수는 BrowseComp 대비 25~40포인트 하락하고, 이전 모델 순위는 더 이상 성능을 안정적으로 예측하지 못합니다. LiveBrowseComp는 https://huggingface.co/datasets/Forival/LiveBrowseComp 에서 이용할 수 있습니다.

Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.

논문 링크

더 읽어보기

고차원 실험 데이터에서 동역학의 위상 공간을 학습하기 위한 정보 병목 / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data

논문 소개

고차원 영상이나 시계열 관측에서 시스템의 실제 동역학을 지배하는 상태 변수를 찾아내는 문제는 물리학과 생물학, 복잡계 연구 전반에서 매우 중요한 과제로 여겨져 왔습니다. 관측값 자체는 잡음과 중복 정보를 많이 포함하지만, 그 이면에는 비교적 낮은 차원의 위상공간(phase space) 구조가 존재하는 경우가 많기 때문에, 핵심은 관측을 그대로 복원하는 것이 아니라 그 동역학을 가장 잘 설명하는 잠재 좌표를 찾아내는 데 있습니다. 저자들은 이러한 관점을 바탕으로 DySIB(Dynamical Symmetric Information Bottleneck, 동역학적 대칭 정보 병목)를 제안하며, 과거와 미래 관측 창 사이의 예측 상호 정보량(predictive mutual information, 예측 상호 정보량)을 최대화하는 동시에 잠재 표현의 복잡도를 억제하는 방식으로 저차원 표현을 학습합니다. 이 접근의 중요한 특징은 재구성 오차를 직접 최소화하는 오토인코더(autoencoder)와 달리, 입력 영상을 복원하지 않고 잠재 공간에서만 학습이 이루어진다는 점이며, 따라서 동역학 예측에 필요한 정보와 무관한 세부 변동을 과감히 제거할 수 있다는 데 있습니다.

DySIB의 방법론은 정보 병목(Information Bottleneck, 정보 병목) 원리를 동역학 학습 문제로 확장한 것으로, 잠재 표현이 단순히 압축된 벡터가 아니라 미래를 잘 예측하는 충분통계(sufficient statistic)에 가까운 역할을 하도록 설계되어 있습니다. 이를 위해 과거와 미래를 대칭적으로 다루는 구조를 취하고, InfoNCE 하한을 이용해 예측 정보를 추정하며, 가우시안 사전분포를 통해 표현의 복잡도를 제어합니다. 또한 시간 지연 임베딩과 공유 인코더(shared encoder)를 사용해 과거와 미래 창을 동일한 기하학적 기준으로 사상함으로써, 잠재 공간에서의 비교 가능성과 해석 가능성을 높입니다. 이러한 설계는 단순한 미래 프레임 생성이 아니라, 동역학의 본질적 구조를 담은 좌표계를 학습하는 데 초점을 둔다는 점에서 기존 예측 모델과 구별됩니다.

실증 검증은 물리 진자(physical pendulum)의 실험 영상 데이터에 대해 이루어졌으며, 이는 실제 상태공간이 이미 알려진 시스템이므로 학습된 잠재 좌표의 정합성을 엄밀하게 평가할 수 있는 이상적인 시험대가 됩니다. 결과적으로 DySIB는 잠재 차원과 시간 창 길이를 데이터에 맞게 자가 일관적으로 선택하면서, 진자의 실제 자유도와 일치하는 2차원 표현을 복원하였고, 학습된 좌표는 각도와 각속도에 부드럽게 대응하였습니다. 더 나아가 이 표현은 안정 평형점, 불안정 새들, separatrix, 회전과 진동을 구분하는 환형 위상 구조까지 재현하여, 단순한 시각적 유사성을 넘어 차원성, 위상, 기하 구조를 함께 포착했음을 보여주었습니다. 작은 해상도의 영상에서도 이러한 복원이 가능했다는 점은, DySIB가 불필요한 관측 세부를 버리고 동역학적으로 중요한 정보만 추출하는 데 효과적임을 뒷받침합니다.

이 연구의 의의는 고차원 관측으로부터 해석 가능한 동역학 좌표를 직접 발견할 수 있음을 보여준 데 있습니다. 특히 물리학에서 오랫동안 사용되어 온 상태변수, 유효 변수, 질서변수의 개념을 데이터 기반으로 재구성했다는 점에서, DySIB는 전통적인 이론 물리와 현대 표현학습 사이를 연결하는 방법론적 가교로 볼 수 있습니다. 동시에 잠재 표현의 비유일성, 게이지 자유도(gauge freedom), 더 복잡한 비선형 시스템으로의 확장 가능성 같은 한계도 분명히 드러내며, 향후에는 강한 잡음이나 혼돈계, 다중 스케일 시스템에 대한 일반화와 결합될 여지를 남깁니다. 그럼에도 이 논문은 예측 정보만으로도 실제 위상공간의 좌표를 복원할 수 있다는 점을 실험적으로 입증함으로써, 원시 관측에서부터 해석 가능한 운동 방정식으로 이어지는 새로운 연구 경로를 제시합니다.

초록(Abstract)

고차원 관측값으로부터 시스템의 동역학적 상태 변수를 식별하는 것은 물리과학 전반에 걸친 핵심 문제입니다. 문제는 상태 변수가 직접 관측되지 않으며, 비지도 학습으로 원시 고차원 데이터에서 추론해야 한다는 점입니다. 여기서는 과거 및 미래 관측 윈도우 사이의 예측 상호정보량을 최대화하는 동시에 표현 복잡도에 페널티를 부여함으로써 시계열 데이터의 저차원 표현을 학습하는 방법인 DySIB(Dynamical Symmetric Information Bottleneck, 동역학적 대칭 정보 병목)를 소개합니다. 이 목적 함수는 전적으로 잠재 공간에서 작동하며 관측값의 재구성을 요구하지 않습니다. 우리는 실제 상태 공간이 알려진 물리 진자의 실험 비디오 데이터셋에 DySIB를 적용했습니다. 데이터에 의해 자기일관적으로 설정된 학습 아키텍처의 하이퍼파라미터를 사용한 이 방법은 진자 위상 공간의 차원성, 위상, 기하와 일치하는 2차원 표현을 복원했으며, 학습된 좌표는 표준 각도와 각속도에 부드럽게 정렬되었습니다. 이러한 결과는 잘 특성화된 실험 시스템에서, 잠재 공간의 예측 정보를 사용해 고차원 데이터로부터 해석 가능한 동역학적 좌표를 직접 복원할 수 있음을 보여줍니다.

Identifying the dynamical state variables of a system from high-dimensional observations is a central problem across physical sciences. The challenge is that the state variables are not directly observable and must be inferred from raw high-dimensional data without supervision. Here we introduce DySIB (Dynamical Symmetric Information Bottleneck) as a method to learn low-dimensional representations of time-series data by maximizing predictive mutual information between past and future observation windows while penalizing representation complexity. This objective operates entirely in latent space and avoids reconstruction of the observations. We apply DySIB to an experimental video dataset of a physical pendulum, where the underlying state space is known. The method, with hyperparameters of the learning architecture set self-consistently by the data, recovers a two-dimensional representation that matches the dimensionality, topology, and geometry of the pendulum phase space, with the learned coordinates aligning smoothly with the canonical angle and angular velocity. These results demonstrate, on a well-characterized experimental system, that predictive information in latent space can be used to recover interpretable dynamical coordinates directly from high-dimensional data.

논문 링크

AutoScientists: 장기 실행 과학 실험을 위한 자기조직화 에이전트 팀 / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

논문 소개

장기적인 과학 실험에서는 가설을 세우고, 실험을 설계하고, 실행한 뒤, 그 결과에 따라 다시 방향을 수정하는 순환이 반복되는데, AutoScientists는 이러한 과정을 하나의 반복적 탐색 문제로 정식화하고 이를 수행하는 분산형 에이전트 체계를 제안합니다. 기존의 인공지능 에이전트가 대체로 단일한 연구 궤적을 따르거나 중앙 계획자에 의해 고정된 목표만 수행하는 데 비해, 이 방법은 여러 에이전트가 공유 상태(shared state)를 함께 읽고 쓰면서 스스로 팀을 구성하고 재구성하도록 설계되어 있습니다. 핵심 아이디어는 중앙에서 일괄적으로 지시하는 대신, 증거가 축적되는 방식에 맞추어 에이전트들이 유망한 가설 주위로 자율적으로 모이고, 실험 자원을 쓰기 전에 서로의 제안을 비판적으로 검토하며, 성공과 실패를 모두 공유해 불필요한 중복 탐색을 줄이는 데 있습니다. 이를 위해 논문은 작업 설명, 초기 프로그램, 학습 데이터셋, 평가 지표를 바탕으로 탐색 공간 안에서 평가 성능을 최대화하는 프로그램을 찾는 최적화 문제를 정의하고, 학습 데이터와 검증 데이터, 필요하면 교차검증(cross-validation, CV)을 구분하여 장기 실험의 평가 기준을 명확히 합니다. 이러한 문제 설정은 과학적 발견을 단순한 일회성 예측이 아니라, 프로그램 수준의 수정과 검증이 계속 누적되는 연구 과정으로 바라보게 만든다는 점에서 의미가 큽니다.

AutoScientists의 작동 방식은 주로 토론 단계와 실행 단계의 순환으로 이루어집니다. 토론 단계에서는 에이전트들이 현재 최고 후보인 챔피언 모델, 과거 실험 기록, 공유 포럼의 내용을 바탕으로 어떤 가설이 유망한지 논의하고, 초기에는 다양한 탐색 방향을 넓게 제안한 뒤 서로의 아이디어를 비판하며 탐색 공간의 사각지대를 찾아냅니다. 이후 실행 단계에서는 이렇게 형성된 팀이 병렬로 실험을 진행하고, 각 실험의 결과를 실험 로그와 공유 포럼에 기록하여 다른 팀이 즉시 참고할 수 있게 합니다. 특히 이 시스템은 분석가 역할의 에이전트가 아직 시도되지 않은 방향을 발굴해 제안하고, 실험가 역할의 에이전트가 실제 코드 변경과 학습을 수행하는 식으로 기능을 분리하여, 긴 실험 과정에서 흔히 생기는 병목을 줄입니다. 또한 실패한 실험을 별도의 목록에 저장해 같은 방향을 반복하지 않도록 하고, 성능 향상이 통계적 잡음일 가능성이 있으면 추가 시드로 재검증한 뒤에만 승격하는 절차를 둠으로써, 우연한 개선을 실제 진전으로 오인하지 않도록 했습니다.

이 접근의 가장 큰 강점은 단순히 더 많은 아이디어를 내는 데 있지 않고, 실험 지식이 누적되는 구조를 체계적으로 만든 데 있습니다. 에이전트들은 내부 상태와 기억을 유지하면서 장기간에 걸쳐 학습하고, 성공한 수정의 메커니즘을 분석해 후속 가설로 연결하며, 실패한 방향까지도 전체 시스템의 학습 자산으로 보존합니다. 그 결과 AutoScientists는 연구 산출물로 최고 성능의 프로그램뿐 아니라 모델 카드(model card)와 연구 결과 보고서까지 남겨 재현성과 해석 가능성을 함께 확보합니다. 이러한 설계는 장기 실행 과학 실험에서 중요한 적응성, 병렬성, 그리고 실패로부터의 학습을 하나의 체계로 묶어낸다는 점에서 기존 에이전트 접근과 뚜렷이 구별됩니다. 실제로 이 방법은 생의학 기계학습, 언어모델 학습 최적화, 단백질 적합도 예측에서 기존 에이전트보다 더 나은 성과를 보였고, BioML-Bench에서는 24개 과제 기준 평균 리더보드 백분위수 74.4%와 함께 가장 강한 단일 에이전트보다 8.33% 향상된 결과를 달성했습니다. 또한 GPT 학습 최적화에서는 목표 검증 bits-per-byte에 Autoresearch보다 1.9배 빠르게 도달했으며, ProteinGym에서는 ACE2-Spike 결합 문제와 217개 전체 assay에서 각각 기존 최고 성능을 넘어서는 개선을 보여, 분산형 자기조직 에이전트가 장기 과학 탐색에 실질적인 효과를 낼 수 있음을 입증합니다.

초록(Abstract)

과학 연구는 가설 생성, 실험 설계, 실행, 수정의 반복적 순환을 통해 진행된다. AI 에이전트는 이 과정의 일부를 자동화할 수 있지만, 기존 접근법은 대개 단일 연구 궤적을 따르거나 고정된 목표를 가진 중앙 플래너를 통해 조정된다. 그 결과, 병렬 탐색을 지속하거나, 실험적 증거가 변할 때 이에 적응하거나, 장기 실행 실험에서 실패한 방향에 대한 지식을 보존하는 데 어려움을 겪는다. 우리는 장기 실행 계산 과학 실험을 위한 분산형 AI 에이전트 팀인 AutoScientists를 소개한다. 에이전트들은 공유된 실험 상태를 해석하고, 유망한 가설을 중심으로 스스로 팀을 구성하며, 실험 컴퓨팅 자원을 사용하기 전에 제안을 비판하고, 성공과 실패를 공유하여 중복 탐색을 줄인다. 동일한 실험 예산에서 AutoScientists는 생의학 머신러닝, 언어 모델 학습 최적화, 단백질 적합도 예측 전반에서 기존 AI 에이전트보다 향상된 성능을 보인다. 생의학 영상, 단백질 공학, 단일세포 오믹스, 약물 발견을 아우르는 BioML-Bench의 24개 태스크에서 AutoScientists는 평균 리더보드 백분위 74.4%를 달성하여, 가장 강력한 AI 에이전트보다 +8.33% 향상했다. GPT 학습 최적화에서는 AutoScientists가 Autoresearch보다 목표 검증 bits-per-byte에 1.9배 더 빠르게 도달했으며, 단일 에이전트 접근법이 아무런 개선도 찾지 못한 시작 챔피언 상태에서도 계속해서 개선을 찾아냈다(채택된 개선 7건 대 0건). ProteinGym 적합도 예측에서는 AutoScientists가 ACE2-Spike 결합에 대한 방법을 찾아, 현재의 최첨단 모델보다 Spearman 상관계수 기준 +12.5% 향상했다. 또한 동일한 방법을 217개 ProteinGym assay 전체에 수정 없이 적용했을 때, 이전 최첨단보다 Spearman 상관계수 기준 +6.5% 향상했다.

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).

논문 링크

더 읽어보기

⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! 텔레그램(Telegram)이나 Slack/Discord/Teams/Dooray/GoogleChat 등으로도 새 글 알림을 받으실 수 있습니다. :D

[2026/06/08 ~ 14] 이번 주에 살펴볼 만한 AI/ML 논문 모음

요약

핵심 포인트

PyTorchKR🔥🇰🇷 🤔💭

논문별 핵심 요약

마음의 경제: 경제적 상호작용을 통한 창발적 멀티에이전트 지능 / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

논문 소개

초록(Abstract)

논문 링크

더 읽어보기

AutoForge: 에이전트 강화학습을 위한 자동화된 환경 합성 / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning

논문 소개

초록(Abstract)

논문 링크

APEX: 동적 데이터 선택을 활용한 자동 프롬프트 엔지니어링 전문가 / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

논문 소개

초록(Abstract)

논문 링크

셀프-하네스(Self-Harness): 스스로 개선되는 하네스 / Self-Harness: Harnesses That Improve Themselves

논문 소개

초록(Abstract)

논문 링크

대규모 언어 모델(LLM)은 고전적 하이퍼파라미터 최적화 알고리즘을 능가할 수 있는가? autoresearch 연구 / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

논문 소개

초록(Abstract)

논문 링크

더 읽어보기

FP8이면 충분하다(1부): HPC의 성배로 여겨진 하드웨어 FP64에 대한 반박 / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail

논문 소개

초록(Abstract)

논문 링크

AI 리뷰어의 한계와 기회: 45명의 전문가 과학자가 Nature 계열 논문의 리뷰를 검토한 연구 / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

논문 소개

초록(Abstract)

논문 링크

더 읽어보기

LiveBrowseComp: 검색 에이전트는 정말 검색하고 있는가, 아니면 이미 아는 것만 검증하고 있는가? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

논문 소개

초록(Abstract)

논문 링크

더 읽어보기

고차원 실험 데이터에서 동역학의 위상 공간을 학습하기 위한 정보 병목 / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data

논문 소개

초록(Abstract)

논문 링크

AutoScientists: 장기 실행 과학 실험을 위한 자기조직화 에이전트 팀 / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

논문 소개

초록(Abstract)

논문 링크

더 읽어보기

댓글