본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv논문

Is One Layer Enough? Understanding Inference Dynamics in Tabular Foundation

본 논문은 트랜스포머 기반 표본 컨텍스트 학습 모델(TFM)의 추론 메커니즘을 심층적으로 분석했습니다. 연구진은 6개의 최첨단 모델에 걸쳐 층별 역학을 대규모로 조사하여, 예측이 깊이에 따라 어떻게 나타나는지 탐구하고 언어 모델과 다른 잠재 공간 동역학을 발견했습니다. 그 결과, 여러 모델에서 상당한 깊이 방향 중복성이 확인되었으며, 이를 바탕으로 원래 모델의 단 20% 파라미터만 사용하여 유사 성능을 내는 '루프 단일 층 모델'를 설계하는 개념 증명을 제시했습니다.

transformertabular-datainference-dynamics
5일 전12
arXiv논문

On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR

본 논문은 검증 가능한 보상(RLVR)을 통해 모델이 얻는 추론 능력이 주로 rank-1 성분에 집중되어 있음을 분석하고, RLVR이 훈련 데이터에 과적합될 수 있는 역설적인 현상을 밝혀냈습니다. 연구진은 RLVR의 작동 방식을 세 가지 특성으로 특징지었는데, 이는 수학 추론 능력만 유지하며 특정 고유 스펙트럼을 최적화하는 방식입니다. 이러한 발견들은 기존 강화 학습(RL) 패러다임 개선 및 지속 학습 구현에 중요한 통찰력을 제공합니다.

reinforcement-learningrlvrlow-rank-dynamics
5일 전9
arXiv논문

Process Matters more than Output for Distinguishing Humans from Machines

대규모 언어 모델(LLM)과 자율 에이전트의 배포 증가로 인해 신뢰할 수 있는 인간-기계 구별 능력이 중요해지고 있습니다. 기존 방식은 출력 결과에 초점을 맞추지만, 본 연구는 인지과학적 관점에서 행동을 생성하는 '과정' 자체를 평가합니다. CogCAPTCHA30이라는 30개의 인지 과제 세트를 통해 과정 수준 특징이 단순한 성과 지표보다 인간과 에이전트를 더 강력하게 구별할 수 있음을 입증했습니다.

llmagent-detectioncognitive-science
5일 전12
arXiv논문

Continuous Latent Diffusion Language Model

본 논문은 기존 자기회귀(autoregressive) 방식의 한계를 극복하고, 텍스트를 계층적 잠재 공간에서 생성하는 새로운 접근 방식인 Cola DLM을 제안합니다. Cola DLM은 Text VAE와 블록-인과적 DiT를 결합하여 안정적인 잠재 매핑과 전역적 의미 모델링을 수행하며, 이를 통해 토큰 수준의 복원 대신 잠재 선행(latent prior) 전송에 초점을 맞춥니다. 이 설계는 비자기회귀 유도 편향을 제공하고 연속적 모달리티로의 확장을 용이하게 하며, 기존 LLM 대비 우수한 스케일링 행동과 생성 품질을 입증합니다.

latent diffusionnon-autoregressivetext generation
5일 전10
arXiv논문

Cooperation Matters: Evaluation of Cooperative Multi-Agent Reinforcement

본 논문은 기존 다중 에이전트 강화학습(MARL) 벤치마크가 단순히 최종 결과(리턴, 성공률 등)만을 측정하는 한계를 지적하며, 에이전트 간의 '협조 방식'을 진단할 수 있는 새로운 평가 관점을 제안합니다. 이 관점은 STAT라는 통제된 테스트베드를 통해 에이전트, 작업, 환경 크기를 체계적으로 변화시키며 협력 메커니즘을 분석합니다. 연구 결과는 유사한 최종 리턴이라도 중복 할당, 할당 다양성 등 다양한 협조 기제를 반영할 수 있음을 보여주었으며, MARL 평가에 있어 협조 감지 평가의 중요성을 강조합니다.

multi-agent-reinforcement-learningmarlcooperation
5일 전6
arXiv논문

방향 일관성(Directional Consistency)을 보완적인 최적화 신호로 활용한 GONO 프레임워크

본 논문은 딥러닝 최적화 과정에서 방향성 정렬(directional consistency)과 손실 수렴이 분리될 수 있다는 현상을 발견하고, 이를 활용한 새로운 옵티마이저 GONO를 제안합니다. 기존 옵티마이저들은 기울기 크기에만 의존하여 평탄 지대나 안장점 등을 구분하는 데 한계가 있습니다. GONO는 연속적인 기울기 방향의 코사인 유사도($cc_t$)를 측정하여, 방향성이 일관될 때는 모멘텀을 증폭시키고 진동할 때는 억제함으로써 최적화 성능을 개선합니다.

optimizationdeep-learningoptimizer
5일 전9
arXiv논문

NeuroAgent: LLM Agents for Multimodal Neuroimaging Analysis and Research

NeuroAgent는 이질적인 다중 모달리티 신경영상 데이터(sMRI, fMRI, dMRI, PET 등)의 전처리 및 분석 과정을 자동화하는 LLM 기반 에이전트 프레임워크입니다. 이는 자연어 쿼리를 통해 하류 분석을 인터랙티브하게 지원하며, 피드백 구동 Generate-Execute-Validate 엔진과 계층적 다중 에이전트 구조를 활용합니다. 연구 결과에 따르면, NeuroAgent는 ADNI 데이터셋에서 높은 전처리 정합성을 달성하고, 알츠하이머병 진단 등 복잡한 임무에서 여러 모달리티의 단일 베이스라인을 능가하는 우수한 성능(AUC 0.9518)을 보여주었습니다.

llm-agentsneuroimagingmultimodal-data
5일 전8
arXiv논문

Improved techniques for fine-tuning flow models via adjoint matching: a

본 논문은 속도 벡터장 상의 최적 제어 문제로 표현되는 결정론적 아도인트 매칭 프레임워크를 제시합니다. 이 방법은 정책 하에서 가치 기울기를 직접 회귀하여 단순하고 안정적인 학습 목표를 달성할 수 있게 합니다. 또한, 계산 효율성을 높이기 위해 보상 신호가 집중되는 궤적의 말단 부분에만 계산을 수행하는 절단 아도인트 스키마와, 정렬 강도 및 분포 보존 간의 유연한 트레이드오프를 제공하는 일반화된 정규화 기법을 소개합니다.

optimal-controladjoint-matchingflow-models
5일 전9
arXiv논문

Towards Metric-Faithful Neural Graph Matching

본 논문은 구조적 그래프 유사성을 측정하는 NP-hard 문제인 Graph Edit Distance (GED)를 근사하는 신경 그래프 매칭 아키텍처의 인코더 기하학 역할을 이론적으로 분석합니다. 연구진은 그래프 유사성 예측기와 정렬 기반 두 가지 범주의 신경 GED 추정기에 대해, 특정 조건 하에서 bi-Lipschitz 인코더가 제어된 GED 대리값(surrogate)을 제공하고 순위 안정성을 개선함을 증명했습니다. 이를 바탕으로 FSW-GNN이라는 bi-Lipschitz WL-등가 인코더를 제안하며, 이 변형이 기존 아키텍처에 적용되었을 때 GED 예측 및 순위 지표에서 유의미한 성능 향상을 보임을 입증합니다.

graph-matchingneural-networksgraph-edit-distance
5일 전10
arXiv논문

DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining

DINORANKCLIP은 기존의 대조적 언어-이미지 사전 학습(CLIP) 모델이 가진 두 가지 주요 약점, 즉 순서 정보 손실과 지역 구조 민감도 부족 문제를 해결하기 위해 제안된 새로운 프레임워크입니다. 이 모델은 DINOv3 스터디를 활용하고 다중 스케일 퓨전 모듈 및 갈등 인식 게이트를 통합하여 시각적 표현의 공간적 정보를 보존합니다. 또한, 고차원 Plackett-Luce 순위 모델을 도입함으로써 기존 CLIP과 RANKCLIP보다 더 풍부한 순서 일관성 제약을 적용하며, 다양한 벤치마크에서 우수한 성능을 입증했습니다.

vision-languagepretrainingclip
5일 전11
arXiv논문

UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

UniSD는 대형 언어 모델(LLMs)의 자기 분별(Self-distillation, SD) 학습 과정을 체계적으로 연구하고 개선하기 위한 통합 프레임워크입니다. 기존 방법들이 개별적인 설계 선택에 초점을 맞춘 것과 달리, UniSD는 감독 신뢰성, 표현 정렬, 학습 안정성 문제를 해결하는 다중 교사 동의, EMA 교사 안정화, 토큰 수준 대비 학습 등 여러 보완적 메커니즘을 통합했습니다. 이 프레임워크를 통해 구축된 UniSDfull은 기본 모델보다 5.4점 높은 성능을 달성하며, 외부 강자 없이도 LLM 적응에 효과적인 실용적이고 조작 가능한 접근법임을 입증합니다.

self-distillationllmstransfer-learning
5일 전14
arXiv논문

Patch2Vuln: Agentic Reconstruction of Vulnerabilities from Linux Distribution

Patch2Vuln은 Linux 배포판 업데이트의 보안 의미를 분석하기 위해 설계된 에이전트 기반 재구성 파이프라인입니다. 이 시스템은 오래된/새로운 ELF 바이너리 쌍을 추출하고, Ghidra 및 Ghidriff와 같은 도구를 사용하여 디컴파일하며, 변경된 함수를 식별하여 잠재적인 취약점 보고서(dossiers)를 구축합니다. 연구 결과에 따르면, 에이전트는 실제 보안 패치 함수를 성공적으로 국소화하고 원인 클래스를 할당하는 능력을 보여주었으나, 이진 디퍼의 커버리지와 로컬 행동 유효성 검증의 한계가 명확히 드러났습니다.

binary-analysisvulnerability-reconstructionlinux-security
5일 전8
arXiv논문

Cross-Modal Navigation with Multi-Agent Reinforcement Learning

본 논문은 로봇의 견고한 체화된 내비게이션을 위해 다중 모달리티 데이터를 활용하는 Multi-Agent Reinforcement Learning (MARL) 프레임워크인 CRONA를 제안합니다. CRONA는 각 모달리티에 특화된 경량 에이전트들이 협력하여 복잡하고 방대한 정책 공간 문제를 해결하며, 중앙 집중식 다중 모달 비평가(critic)와 제어 관련 보조 신념을 활용해 협업 능력을 향상시킵니다. 실험 결과, 이 다중 에이전트 접근 방식은 시각-음향 내비게이션 작업에서 단일 에이전트 기반 모델보다 성능과 효율성 면에서 크게 우수함을 입증했습니다.

reinforcement-learningmulti-agent-systemsembodied-navigation
5일 전12
arXiv논문

AI CFD Scientist: Toward Open-Ended Computational Fluid Dynamics Discovery with

AI CFD Scientist는 계산 유체 역학(CFD) 분야의 오픈소스 AI 과학자로, 문헌 기반 아이디어 구상부터 검증된 실행, 비전 기반 물리 검증, 소스 코드 수정 및 논문 작성까지 단일 워크플로우 내에서 통합적인 과학적 발견을 가능하게 합니다. 이 프레임워크는 OpenFOAM 환경에서 작동하며, 특히 '비전 언어 물리 검증 게이트'를 핵심으로 사용하여 솔버 로그만으로는 파악하기 어려운 미묘한 실패 모드(Silent Failures)까지 감지합니다. 테스트 결과, AI CFD Scientist는 기존의 일반 AI 과학자 모델들보다 우수한 성능을 보였으며, 특히 런타임 보정 발견 및 물리적 검증 능력에서 뛰어난 효과를 입증했습니다.

cfdcomputational-fluid-dynamicsai-scientist
5일 전7
arXiv논문

The Structural Origin of Attention Sink: Variance Discrepancy, Super Neurons

본 논문은 대규모 언어 모델(LLMs)에서 발생하는 '주의 싱크(Attention Sink)' 현상의 구조적 기원을 규명합니다. 이 현상은 자기 주의 메커니즘의 값 집계 과정에서 발생하는 체계적인 분산 불일치와, 이를 Feed-Forward Network (FFN) 레이어 내의 슈퍼 뉴런 활성화가 증폭시키기 때문에 발생합니다. 연구진은 두 가지 통제된 개입을 통해 이 인과 관계를 검증하고, 궁극적으로 값 집계 출력의 안정성을 보장하는 'head-wise RMSNorm'이라는 새로운 정규화 기법을 제안하여 모델 훈련 속도를 가속화할 수 있음을 입증했습니다.

llmsself-attentionvariance discrepancy
5일 전11
arXiv논문

SkillOS: Learning Skill Curation for Self-Evolving Agents

SkillOS는 LLM 기반 에이전트가 과거 경험으로부터 재사용 가능한 스킬을 학습하고 큐레이션하여 자기 진화를 할 수 있도록 설계된 새로운 프레임워크입니다. 기존 방법들이 직면했던 간접적이고 지연된 피드백을 통한 장기적인 스킬 큐레이션 정책 학습의 어려움을 해결합니다. SkillOS는 고정된 에이전트 실행기와 누적 경험을 바탕으로 외부 스킬 저장소(SkillRepo)를 업데이트하는 훈련 가능한 스킬 큐레이터를 결합하여, 복합 보상을 통해 효과적으로 스킬 사용을 최적화하고 일반화 성능을 입증합니다.

llm-agentsreinforcement-learningskill-curation
5일 전11
arXiv논문

When and Why SignSGD Outperforms SGD: A Theoretical Study Based on

본 논문은 대규모 모델 훈련에서 주목받는 SignSGD와 같은 시그널 기반 최적화 알고리즘이 왜 그리고 언제 표준 SGD보다 우수한 성능을 보이는지에 대한 이론적 분석을 제시합니다. 기존의 표준 설정(smoothness, finite variance)에서는 SGD가 이미 minimax optimal하여 시그널 기반 방법의 개선 여지가 없다는 한계가 있었습니다. 이를 극복하기 위해 $\ell_1$-norm stationarity, $\ell_ ext{fty}$-smoothness, 그리고 separable noise 모델을 도입한 새로운 문제 기하학 하에서 SignSGD의 이론적 우위를 증명했습니다.

signsgdoptimizationdeep-learning
5일 전10
arXiv논문

MASPO: LLM 기반 다중 에이전트 시스템용 통합 프롬프트 최적화

본 기술 기사는 대형 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)의 프롬프트 최적화 문제를 해결하기 위한 새로운 프레임워크인 MASPO를 소개합니다. MASPO는 전체 시스템 목표에 초점을 맞춰 자동으로 반복적으로 프롬프트를 정교화하며, 로컬 유효성뿐만 아니라 후속 에이전트의 성공 가능성을 평가하는 통합 평가 메커니즘을 핵심으로 합니다. 이 프레임워크는 데이터 기반 진화적 빔 검색을 사용하여 고차원 프롬프트 공간을 효율적으로 탐색하고, 다양한 작업에서 최신 기법들을 능가하는 성능 향상을 입증했습니다.

llmmulti-agent-systemsprompt-optimization
5일 전8
arXiv논문

Beyond Task Success: Measuring Workflow Fidelity in LLM-Based Agentic Payment

본 논문은 LLM 기반 에이전트 시스템을 결제 워크플로우에 적용할 때, 기존의 작업 성공률(TSR)이나 핸드오프 점수로는 포착할 수 없는 '워크플로우 충실도'를 측정하는 새로운 지표인 에이전트 성공률(ASR)을 제안합니다. ASR은 관찰된 에이전트 실행 시퀀스와 예상되는 시퀀스를 전환 수준에서 비교하여 경로의 정확성을 평가합니다. HMASP 테스트 결과, 일부 고성능 모델들이 실제 결제 과정 중 필수 체크포인트를 건너뛰는 '숨겨진 워크플로우 단축' 문제를 ASR을 통해 발견할 수 있었으며, 이는 규제 준수 및 신뢰성이 중요한 도메인에서 경로 수준의 평가가 필수적임을 시사합니다.

llm-agentsworkflow-fidelityagentic-systems
5일 전8
arXiv논문

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

본 기사는 LLM의 추론 능력을 향상시키기 위해 강화학습(RL)을 적용하는 새로운 접근 방식인 ScaleLogic을 소개합니다. ScaleLogic은 요구되는 증명 계획의 깊이(지평선)와 기본 논리의 표현력이라는 두 가지 독립적인 난이도 축을 제어할 수 있는 합성 논리 추론 프레임워크입니다. 이 프레임워크는 다양한 논리를 지원하며, LLM이 장기 지평선의 복잡한 추론 능력을 학습하도록 체계적으로 훈련하는 것을 목표로 합니다.

reinforcement-learningllmsreasoning
5일 전12

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.