Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AI 2266건필터 해제
Cross-Modal Navigation with Multi-Agent Reinforcement Learning
본 논문은 로봇의 견고한 체화된 내비게이션을 위해 다중 모달리티 데이터를 활용하는 Multi-Agent Reinforcement Learning (MARL) 프레임워크인 CRONA를 제안합니다. CRONA는 각 모달리티에 특화된 경량 에이전트들이 협력하여 복잡하고 방대한 정책 공간 문제를 해결하며, 중앙 집중식 다중 모달 비평가(critic)와 제어 관련 보조 신념을 활용해 협업 능력을 향상시킵니다. 실험 결과, 이 다중 에이전트 접근 방식은 시각-음향 내비게이션 작업에서 단일 에이전트 기반 모델보다 성능과 효율성 면에서 크게 우수함을 입증했습니다.
AI CFD Scientist: Toward Open-Ended Computational Fluid Dynamics Discovery with
AI CFD Scientist는 계산 유체 역학(CFD) 분야의 오픈소스 AI 과학자로, 문헌 기반 아이디어 구상부터 검증된 실행, 비전 기반 물리 검증, 소스 코드 수정 및 논문 작성까지 단일 워크플로우 내에서 통합적인 과학적 발견을 가능하게 합니다. 이 프레임워크는 OpenFOAM 환경에서 작동하며, 특히 '비전 언어 물리 검증 게이트'를 핵심으로 사용하여 솔버 로그만으로는 파악하기 어려운 미묘한 실패 모드(Silent Failures)까지 감지합니다. 테스트 결과, AI CFD Scientist는 기존의 일반 AI 과학자 모델들보다 우수한 성능을 보였으며, 특히 런타임 보정 발견 및 물리적 검증 능력에서 뛰어난 효과를 입증했습니다.
The Structural Origin of Attention Sink: Variance Discrepancy, Super Neurons
본 논문은 대규모 언어 모델(LLMs)에서 발생하는 '주의 싱크(Attention Sink)' 현상의 구조적 기원을 규명합니다. 이 현상은 자기 주의 메커니즘의 값 집계 과정에서 발생하는 체계적인 분산 불일치와, 이를 Feed-Forward Network (FFN) 레이어 내의 슈퍼 뉴런 활성화가 증폭시키기 때문에 발생합니다. 연구진은 두 가지 통제된 개입을 통해 이 인과 관계를 검증하고, 궁극적으로 값 집계 출력의 안정성을 보장하는 'head-wise RMSNorm'이라는 새로운 정규화 기법을 제안하여 모델 훈련 속도를 가속화할 수 있음을 입증했습니다.
SkillOS: Learning Skill Curation for Self-Evolving Agents
SkillOS는 LLM 기반 에이전트가 과거 경험으로부터 재사용 가능한 스킬을 학습하고 큐레이션하여 자기 진화를 할 수 있도록 설계된 새로운 프레임워크입니다. 기존 방법들이 직면했던 간접적이고 지연된 피드백을 통한 장기적인 스킬 큐레이션 정책 학습의 어려움을 해결합니다. SkillOS는 고정된 에이전트 실행기와 누적 경험을 바탕으로 외부 스킬 저장소(SkillRepo)를 업데이트하는 훈련 가능한 스킬 큐레이터를 결합하여, 복합 보상을 통해 효과적으로 스킬 사용을 최적화하고 일반화 성능을 입증합니다.
When and Why SignSGD Outperforms SGD: A Theoretical Study Based on
본 논문은 대규모 모델 훈련에서 주목받는 SignSGD와 같은 시그널 기반 최적화 알고리즘이 왜 그리고 언제 표준 SGD보다 우수한 성능을 보이는지에 대한 이론적 분석을 제시합니다. 기존의 표준 설정(smoothness, finite variance)에서는 SGD가 이미 minimax optimal하여 시그널 기반 방법의 개선 여지가 없다는 한계가 있었습니다. 이를 극복하기 위해 $\ell_1$-norm stationarity, $\ell_ ext{fty}$-smoothness, 그리고 separable noise 모델을 도입한 새로운 문제 기하학 하에서 SignSGD의 이론적 우위를 증명했습니다.
MASPO: LLM 기반 다중 에이전트 시스템용 통합 프롬프트 최적화
본 기술 기사는 대형 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)의 프롬프트 최적화 문제를 해결하기 위한 새로운 프레임워크인 MASPO를 소개합니다. MASPO는 전체 시스템 목표에 초점을 맞춰 자동으로 반복적으로 프롬프트를 정교화하며, 로컬 유효성뿐만 아니라 후속 에이전트의 성공 가능성을 평가하는 통합 평가 메커니즘을 핵심으로 합니다. 이 프레임워크는 데이터 기반 진화적 빔 검색을 사용하여 고차원 프롬프트 공간을 효율적으로 탐색하고, 다양한 작업에서 최신 기법들을 능가하는 성능 향상을 입증했습니다.
Beyond Task Success: Measuring Workflow Fidelity in LLM-Based Agentic Payment
본 논문은 LLM 기반 에이전트 시스템을 결제 워크플로우에 적용할 때, 기존의 작업 성공률(TSR)이나 핸드오프 점수로는 포착할 수 없는 '워크플로우 충실도'를 측정하는 새로운 지표인 에이전트 성공률(ASR)을 제안합니다. ASR은 관찰된 에이전트 실행 시퀀스와 예상되는 시퀀스를 전환 수준에서 비교하여 경로의 정확성을 평가합니다. HMASP 테스트 결과, 일부 고성능 모델들이 실제 결제 과정 중 필수 체크포인트를 건너뛰는 '숨겨진 워크플로우 단축' 문제를 ASR을 통해 발견할 수 있었으며, 이는 규제 준수 및 신뢰성이 중요한 도메인에서 경로 수준의 평가가 필수적임을 시사합니다.
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
본 기사는 LLM의 추론 능력을 향상시키기 위해 강화학습(RL)을 적용하는 새로운 접근 방식인 ScaleLogic을 소개합니다. ScaleLogic은 요구되는 증명 계획의 깊이(지평선)와 기본 논리의 표현력이라는 두 가지 독립적인 난이도 축을 제어할 수 있는 합성 논리 추론 프레임워크입니다. 이 프레임워크는 다양한 논리를 지원하며, LLM이 장기 지평선의 복잡한 추론 능력을 학습하도록 체계적으로 훈련하는 것을 목표로 합니다.
Recursive Agent Optimization
Recursive Agent Optimization (RAO)은 자기 자신을 생성하고 재귀적으로 하위 작업을 새로운 인스턴스에 위임할 수 있는 재귀적 에이전트를 훈련하기 위한 강화학습 접근법입니다. 이 방법은 분할 정복(divide and conquer) 원리를 활용하여 더 긴 컨텍스트와 복잡한 문제에서도 일반화하는 추론 시간 스케일링 알고리즘을 구현합니다. RAO는 에이전트가 언제, 어떻게 위임하고 소통해야 하는지 학습시켜, 모델의 컨텍스트 윈도우를 초월하는 작업 확장성과 높은 일반화 능력을 제공하며 효율성을 높입니다.
멀티모달 도메인 일반화에서 우리는 진전을 이루고 있는가? 종합 벤치마크 연구
본 연구는 멀티모달 도메인 일반화(MMDG) 분야의 현황을 종합적으로 분석하고, 기존 평가 프로토콜의 부재와 일관성 없는 보고 문제를 지적하며 새로운 표준 벤치마크인 MMDG-Bench를 제안합니다. MMDG-Bench는 행동 인식, 기계적 고장 진단, 감정 분석 등 세 가지 이질적인 도메인을 아우르는 통합 플랫폼으로, 단순 정확도를 넘어 왜곡 견고성, 모달리티 누락 일반화 등을 체계적으로 평가합니다. 연구 결과, 현재의 MMDG 방법론들은 공정한 비교 하에 미미한 개선만을 보이며, 모든 방법이 현실 세계의 도전 과제(왜곡 및 모달리티 누락)에서 심각한 성능 저하를 겪는 등 이 분야가 아직 해결되지 않았음을 보여줍니다.
GlazyBench: A Benchmark for Ceramic Glaze Property Prediction and Image
세라믹 광택(glaze) 개발은 복잡하고 비용이 많이 드는 과정입니다. 본 논문에서는 이러한 문제를 해결하기 위해, 실제 광택 조성물 23,148개를 포함하는 최초의 AI 보조 설계 데이터셋인 GlazyBench를 제안합니다. 이 데이터셋은 원료 조성물로부터 표면 특성 예측과 시각적 이미지 생성을 지원하며, AI 기반 재료 과학 분야에 표준화된 평가 기준을 제공합니다.
Vision 모델 행동에 대한 개념 기반 추론 및 대비적 설명
본 논문은 심층 신경망의 예측을 인간이 이해하기 쉬운 고수준 개념으로 설명하는 '개념 기반 추론 및 대비적 설명' 프레임워크를 제안합니다. 기존 방법들이 직면했던 한계점(인과 연결 부족, 저수준 특징에 국한)을 극복하고, 모델 결과와 인과적으로 관련된 최소한의 고수준 개념 집합을 포착하는 것이 목표입니다. 이 방법을 통해 개별 이미지뿐만 아니라 사용자가 정의한 공통 '행동'을 보이는 이미지 집단에서도 모델 예측에 대한 이해를 제공할 수 있음을 입증했습니다.
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory
본 연구는 LLM 기반 에이전트의 장기적 의사결정 문제를 해결하기 위해 '전략적 궤적 추상화(StraTA)'라는 프레임워크를 제안합니다. StraTA는 초기 작업 상태에서 컴팩트한 전략을 샘플링하고, 후속 행동은 이 전략에 조건부로 결정하며, 계층적 GRPO 스타일의 롤아웃 설계를 통해 전략 생성과 행동 실행을 동시에 학습합니다. 실험 결과, StraTA는 ALFWorld, WebShop, SciWorld 등 다양한 환경에서 기존 강력한 베이스라인 모델들을 능가하는 높은 성공률과 샘플 효율성을 보여주었습니다.
Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval
본 기사는 기존의 정보 검색 에이전트가 가진 한계점, 즉 반복적이고 탐험적인 검색 과정으로 인해 발생하는 지연 시간 및 낮은 회수율 문제를 해결하기 위해 'SuperIntelligent Retrieval Agent (SIRA)'를 제안합니다. SIRA는 다중 라운드의 복잡한 탐색 과정을 단일의 정교하게 구성된(corpus-discriminative) 검색 액션으로 압축하는 것이 핵심입니다. 이를 위해 LLM이 문서와 쿼리 양쪽에서 누락되거나 중요한 증거 어휘를 예측하고, 통계적 필터링을 거쳐 최적화된 단일 가중치 BM25 호출을 수행합니다. 실험 결과, SIRA는 기존의 밀도 기반 리트리버 및 다중 라운드 에이전트 베이스라인보다 우수한 성능을 보여주었습니다.
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without
본 기사는 기존의 라벨링된 벤치마크가 없는 상황에서 여러 LLM의 안전성을 비교 평가하는 방법론을 제시합니다. 이 '라벨 없는 비교 안전 점수(benchmarkless comparative safety scoring)'는 고정된 시나리오, 평가 기준, 감사자/판사 등의 엄격한 조건 하에만 유효하며, 단순 응답성 측정 대신 목표 기반 분산 우위 및 재실행 안정성을 핵심 지표로 사용합니다. 이를 통해 실제 공공 부문 조달 사례(노르웨이)를 검증하고, 안전성이 모델의 시나리오 카테고리 및 위험 측정에 따라 달라지므로 단일 점수화보다는 여러 메트릭을 종합적으로 보고해야 함을 강조합니다.
AI Co-Mathematician: Accelerating Mathematicians with Agentic AI
AI Co-Mathematician은 수학자들이 오픈 엔드 연구를 수행하고 상호작용적으로 AI 에이전트를 활용할 수 있도록 설계된 통합 작업대입니다. 이 시스템은 아이디어 생성, 문헌 검색, 계산적 탐색, 정리 증명 등 복잡한 수학적 워크플로우 전반에 걸쳐 포괄적인 지원을 제공합니다. 특히 비동기 상태를 유지하며 사용자 의도를 정교화하고 실패한 가설까지 추적하는 기능을 통해 인간의 협업 연구 과정을 효과적으로 모방하여 높은 성능을 입증했습니다.
Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as
본 논문은 대형 언어 모델(LLMs) 파인튜닝 과정에서 사전 학습과 동일한 최적화기를 사용하는 '최적화기-모델 일관성' 현상을 제시합니다. 이 방법은 다른 접근 방식보다 더 나은 학습-망각 트레이드오프를 달성하여, 새로운 작업에 대한 성능을 유지하면서도 기존의 사전 학습 지식 손실(망각)을 최소화하는 것으로 나타났습니다. 또한, 특정 최적화기(Muon)가 추론 작업에서 기대만큼 좋은 성능을 보이지 않을 수 있음을 실험적으로 분석했습니다.
BAMI: Training-Free Bias Mitigation in GUI Grounding
본 논문은 GUI 에이전트의 핵심 기능인 GUI grounding의 성능 향상을 목표로 합니다. 기존 모델들이 고해상도 이미지와 복잡한 인터페이스 요소에서 발생하는 편향 문제(정밀 및 혼란 편향)를 겪는 문제를 해결하기 위해, 'Bias-Aware Manipulation Inference (BAMI)'라는 방법을 제안합니다. BAMI는 coarse-to-fine focus와 candidate selection이라는 두 가지 핵심 조작을 통해 훈련 없이 다양한 GUI grounding 모델의 정확도를 크게 향상시키며, 실제 벤치마크에서 유의미한 성능 개선을 입증했습니다.
Verifier-Backed Hard Problem Generation for Mathematical Reasoning
본 논문은 대형 언어 모델(LLMs)이 과학 및 수학 문제를 생성하는 과정의 한계를 극복하기 위해 '검증기 기반 어려운 문제 생성 프레임워크(VHG)'를 제안합니다. VHG는 기존의 설정자-해결자 구조에 독립적인 검증기를 통합하여, 문제가 유효성(검증기에 의해 평가)과 난이도(해결자에 의해 평가)라는 두 가지 기준을 모두 충족하도록 보상을 제한합니다. 이 프레임워크는 무한정 적분 및 일반 수학 추론 작업에서 기존 방법들보다 월등히 우수한 성능을 입증했습니다.
UniPool: 혼합 전문가(Mixture-of-Experts)를 위한 전역 공유 전문가 풀
UniPool은 기존의 계층별(per-layer) 전문가 할당 방식에 의존하는 Mixture-of-Experts (MoE) 아키텍처의 한계를 극복하기 위해 제안된 새로운 MoE 구조입니다. 이 모델은 모든 레이어가 독립적인 전문가 세트를 소유하는 대신, 전체 시스템이 공유하는 단일 글로벌 전문가 풀(UniPool)을 사용합니다. 이를 통해 전문가 용량을 전역적 예산으로 취급함으로써, 깊이 증가에 따라 전문가 파라미터가 선형적으로 증가할 필요 없이 효율적이면서도 높은 성능을 유지할 수 있음을 입증했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.