본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2266필터 해제

arXiv논문

왜 동일한 관찰로부터 결론이 갈라지는가: 추론을 통한 세계 모델 비식별성 (World-Model Non-Identifiability)의 공식화

본 논문은 동일한 관찰(데이터)을 공유함에도 불구하고 사람들이 서로 다른 결론에 도달하는 현상을 상대방의 인지적 결함이 아닌, 추론 및 학습 과정 자체에 내재된 '비식별성(Non-identifiability)' 문제로 설명합니다. 이 비식별성은 추론 설정($ heta$)의 차이에서 오는 $ heta$-수준과, 반복적인 데이터 노출 및 업데이트 규칙으로 인해 세계 모델($W$) 자체가 분리되는 $W$-수준 두 가지 방식으로 체계화됩니다. 연구진은 이를 분석하기 위해 Reference, Exploration, Stabilization, Horizon 등으로 구성된 추론 프로필 $ heta$를 도입하고, AI 규제 논쟁 등 실제 사례에 적용하여 그 의미를 확장합니다.

5월 13일3
arXiv논문

GUI Agent를 위한 실행 가능한 에이전트 메모리 (Executable Agentic Memory)

본 논문은 기존 GUI 에이전트가 장기 과제에서 취약한 모델 중심적 상호작용 패러다임을 개선하기 위해 '실행 가능한 에이전트 메모리(EAM)'라는 구조화된 지식 그래프를 제안합니다. EAM은 상태 인식 DFS와 행동 그룹 마이닝을 통해 다단계 루틴을 압축하는 효율적인 메모리 구축 파이프라인을 포함합니다. 또한, Q-함수 모델 기반의 가치 안내 그래프 탐색을 도입하여 계획의 정확성을 높이고, AndroidWorld 등 실증 환경에서 기존 최신 모델 대비 높은 성능과 낮은 비용(GPT-4o 대비 6배 절감)을 입증했습니다.

5월 13일5
arXiv논문

Missingness-MDPs: 결측 데이터 이론과 POMDP의 가교

본 논문은 결측 데이터 이론과 부분 관측 마르코프 결정 과정(POMDPs)을 통합한 새로운 하위 클래스인 missingness-MDPs (miss-MDPs)를 제안합니다. miss-MDP는 특정 시점에서 상태 특징이 누락될 확률을 지정하는 POMDP입니다. 연구진은 행동-관측 궤적 데이터셋에서 미지의 결측 함수를 학습하여, 근사적으로 정확한(PAC) 알고리즘을 통해 최적의 정책을 계산하는 방법을 제시합니다.

5월 13일5
arXiv논문

의미론적 증강(Semantic Augmentation)을 통한 파편화된 인용 네트워크의 재연결

본 기사는 과학 논문의 인용 그래프가 누락된 연결로 인해 파편화되는 문제를 해결하기 위한 하이브리드 프레임워크를 제안합니다. 이 프레임워크는 인용 토폴로지 정보와 LLM 기반의 텍스트 유사성을 결합하여 의미론적 에지를 추가하고 기존 인용에 가중치를 부여함으로써 그래프를 증강합니다. 이를 통해 학문적 동질성을 유지하면서 파편화를 효과적으로 감소시키고, 구조적 해석 가능성을 갖춘 다중 스케일 조직화가 가능한 지표를 제공합니다.

5월 13일5
arXiv논문

EHR-RAGp: 전자 건강 기록 (Electronic Health Records)을 위한 검색 증강 프로토타입 가이드 파운데이션 모델

EHR-RAGp는 전자 건강 기록(EHR)의 복잡한 역사적 데이터를 효과적으로 활용하기 위해 설계된 검색 증강 파운데이션 모델입니다. 이 모델은 다양한 임상 이벤트 유형에 걸쳐 가장 관련성 높은 환자 이력을 동적으로 통합하는 프로토타입 가이드 검색 모듈을 제안합니다. EHR-RAGp는 기존의 고정된 윈도우 방식의 한계를 극복하고, 여러 임상 예측 작업에서 최첨단 성능을 보여주며 장기적인 임상 문맥 활용에 효율적인 프레임워크를 제공합니다.

5월 13일2
arXiv논문

암시적 인과 그래프 모델링을 통한 전이 가능한 지연 인식 강화학습 (Transferable Delay-Aware Reinforcement

본 논문은 무작위 지연이나 교차 태스크 환경에서 행동-상태 피드백의 시간적 대응 관계가 약화되는 문제를 해결하기 위해, 암시적 인과 그래프 모델링 기반의 전이 가능한 지연 인식 강화학습 방법을 제안합니다. 이 방법은 필드-노드 인코더와 메시지 전달 메커니즘을 사용하여 고차원 관측값에서 노드 수준의 의미를 가진 잠재 상태와 동적 인과 의존성을 학습합니다. 이를 통해 구조적 표현 및 환경 역학 지식을 습득하고, 상상 기반 행동 학습 및 계획을 통합하여 교차 태스크 전이와 빠른 적응 성능을 입증했습니다.

5월 13일3
arXiv논문

PriorZero: 의사결정을 위한 언어 사전 지식(Language Priors)과 세계 모델(World Models)의 결합

PriorZero는 LLM의 언어적 사전 지식과 세계 모델(World Model) 기반 계획을 결합하여 강화 학습 에이전트의 성능을 높이는 통합 프레임워크입니다. 기존 방식의 한계인 사전 지식과 환경 역학 간의 불일치를 해결하기 위해, MCTS 루트 노드에만 사전 지식을 주입하고 세계 모델 학습과 LLM 미세 조정을 분리하는 설계를 채택했습니다. 이를 통해 탐색 효율성과 최종 성능을 모두 개선하며 다양한 벤치마크에서 그 효과를 입증했습니다.

5월 13일5
arXiv논문

엔트로피 최대화를 통한 매니폴드 샘플링 (Manifold Sampling via Entropy Maximization)

본 논문은 제약 조건이 여러 개의 분리된 구성 요소로 이루어진 복잡한 매니폴드 상의 샘플링 문제를 해결하기 위해 MASEM (Manifold Sampling via Entropy Maximization)이라는 방법을 제안합니다. 이 방법은 k-최근접 이웃 밀도 추정 기반으로 경험적 분포의 엔트로피를 최대화하는 재샘플링 기법을 사용합니다. 연구진은 평균장 분석을 통해 MASEM이 목표 분포와 경험적 분포 간의 KL-발산을 지수적으로 감소시키며, 로보틱스 벤치마크 등에서 기존 방법 대비 뛰어난 효율성과 성능을 입증했습니다.

5월 13일7
arXiv논문

Large Language Models를 이용한 비관제 공항 주변의 자동 항공 교통 안전 평가를 향하여

본 연구는 Large Language Models (LLMs)를 활용하여 비관제 공항(non-towered airports)에서의 항공 안전 평가 프레임워크를 제시합니다. 이 프레임워크는 CTAF 무선 통신, METAR 기상 데이터, ADS-B 궤적, VFR 섹션 차트 등 다양한 모달리티의 데이터를 통합 분석하는 Vision-Language Model (VLM) 접근 방식을 제안합니다. Gemini 2.5 Pro를 이용한 예비 연구에서 우선권 위반 식별 능력을 입증했으며, 오픈 소스 및 폐쇄형 LLM을 사용한 벤치마킹 결과 높은 분류 성능(macro F1 점수 0.85 이상)을 보여 비관제 공항 안전 분석의 유망한 미래 역량임을 시사합니다.

5월 13일6
arXiv논문

태스크 불가지론적 (Task-Agnostic) 월드 모델에서의 VLA 강화 학습

본 논문은 월드 모델 내에서 강화 학습(RL)을 통해 Vision-Language-Action (VLA) 모델을 사후 학습시키는 방법을 다루며, 기존 방법론들이 태스크 특정적 데이터에 의존하여 확장성 문제가 있다는 점을 지적합니다. 이를 해결하기 위해, 연구진은 다운스트림 태스크 의존성으로부터 완전히 분리된 새로운 패러다임인 RAW-Dream을 제안했습니다. RAW-Dream은 다양한 태스크 프리 행동으로 사전 학습된 월드 모델과 기성 VLM을 활용하여, 제로샷 상상(Zero-shot imagination) 내에서 어떤 새로운 태스크에도 즉시 적응할 수 있는 Task-agnostic VLA를 구현합니다.

5월 13일7
arXiv논문

BSO: 안전 정렬은 밀도 비율 매칭 (Density Ratio Matching)이다

본 논문은 언어 모델의 안전 정렬 문제를 밀도 비율 매칭(density ratio matching) 문제로 단순화하는 Bregman Safety Optimization (BSO)을 제안합니다. BSO는 복잡한 다단계 파이프라인이나 보조 모델 없이, 단일 단계 손실 함수를 통해 최적의 안전 정책을 증명 가능하게 회복할 수 있게 합니다. 이 방법은 기존 선호 최적화(preference optimization)를 확장하면서도 범용성을 유지하며, 안전성-유용성 트레이드오프 개선에 효과적임을 입증했습니다.

5월 13일4
arXiv논문

$δ$-mem: Large Language Models를 위한 효율적인 온라인 메모리

LLM이 장기 정보 축적 및 에이전트 시스템에서 효율적으로 작동하기 위해 $δ$-mem이라는 경량 메모리 메커니즘을 제안합니다. 이 방법은 고정된 Full-attention 백본을 델타 규칙 학습으로 업데이트되는 고정 크기의 상태 행렬로 보강하여 과거 정보를 압축합니다. $δ$-mem은 생성 과정 중 어텐션 계산에 저차원 수정을 적용함으로써, 적은 메모리 상태만으로도 기존 모델 대비 높은 성능 향상을 달성하며 특히 메모리 집약적인 벤치마크에서 큰 이점을 보여줍니다.

5월 13일4
arXiv논문

ToolCUA: Computer Use Agent를 위한 최적의 GUI-Tool 경로 오케스트레이션(Orchestration)을 향하여

본 논문은 Computer Use Agents (CUAs)가 직면하는 하이브리드 액션 공간(GUI 액션과 도구 호출)의 불확실성을 해결하기 위해 ToolCUA라는 엔드투엔드 에이전트를 제안합니다. ToolCUA는 인터리브드 GUI-Tool 궤적 스케일링 파이프라인을 통해 다양한 학습 데이터를 확보하고, 워밍업 SFT와 단일 턴 RL을 결합하여 중요한 전환 시점의 의사결정을 개선합니다. 최종적으로 도구 효율성 보상을 이용한 Online Agentic RL을 통해 최적화된 ToolCUA는 OSWorld-MCP에서 높은 정확도를 달성하며 효과적인 GUI-Tool 오케스트레이션을 입증했습니다.

5월 13일4
arXiv논문

GRPO와 On-Policy Distillation을 넘어: 언어 모델 사후 학습을 위한 경험적 Sparse-to-Dense 보상 원칙

본 기사는 언어 모델 사후 학습 시 데이터 할당의 효율성을 높이는 '보상 밀도(reward-density)' 원칙을 제시합니다. 기존 방식이 간과했던 이 원칙은 희소한 시퀀스 수준 보상은 탐색에, 조밀한 토큰 수준 교사 보상은 행동 압축에 사용해야 함을 강조합니다. 연구진은 Qwen3 및 Llama 모델을 사용하여 검증 가능한 수학 문제에서 '브릿지(Bridge)'를 통한 증류 방식이 기존의 직접적인 GRPO보다 성능이 우수하며, 특히 학생 측 희소 RL 적용 전후로 그 효과가 극대화됨을 입증했습니다.

5월 13일3
arXiv논문

빠르고 느린 학습: 지속적으로 적응하는 LLM을 향하여

본 글은 LLM의 적응성 문제를 다루며, 기존의 파라미터 업데이트 방식(치명적 망각 위험)과 인컨텍스트 학습(성능 한계)의 단점을 극복하는 새로운 'fast-slow 학습 프레임워크'를 제안합니다. 이 프레임워크는 모델 매개변수를 '느린 가중치'(Slow Weights, 일반 추론 담당)와 최적화된 컨텍스트로부터 학습되는 '빠른 가중치'(Fast Weights, 태스크 특화 정보 흡수 담당)로 분리하여 관리합니다. Fast-Slow Training (FST)은 높은 샘플 효율성과 성능 점근선을 유지하면서도 치명적 망각을 최소화하고 지속적인 학습 능력을 보존하는 것이 핵심입니다.

5월 13일3
arXiv논문

미생물군게놈 임베딩을 활용한 미생물 군집 풍부도 예측

본 연구는 미생물 공동체의 속성을 구성원들의 원시 DNA 서열만으로 예측할 수 있는지 탐구합니다. 세트 집계 게놈 임베딩(SAGE)과 게놈 언어 모델(GLMs)의 소수 샷 학습 능력을 활용하여, 미생물 공동체 수준의 풍부도 프로파일을 예측하는 새로운 접근 방식을 제시했습니다. 이 방법은 기존 생물정보학적 방법론 대비 개선된 일반화 성능을 보였으며, 공동체 수준 잠재 표현이 성능 향상에 기여함을 입증했습니다.

5월 13일5
arXiv논문

KAN-CL: Kolmogorov-Arnold Networks를 이용한 지속 학습 (Continual Learning)을 위한 매듭별 중요도

KAN-CL은 Kolmogorov-Arnold Networks(KANs)의 스플라인 파라미터화 특성을 활용하여 지속 학습 시 발생하는 치명적 망각 문제를 해결하는 새로운 프레임워크입니다. 매듭(Knot) 단위의 세밀한 중요도 가중 앵커링과 백본 정규화(bbEWC)를 결합하여, 기존 방식 대비 망각을 획기적으로 감소시키고 높은 정확도를 유지합니다.

5월 13일4
arXiv논문

LISA: 신호 없는 자율 교차로 관리를 위한 인지적 중재 (Cognitive Arbitration)

LISA는 LLM을 활용하여 차량의 의도를 추론하고 신호등 없이 자율적으로 교차로를 관리하는 인지적 중재 프레임워크입니다. 기존 시스템이 신호 인프라에 의존하거나 의도 인식이 부족했던 한계를 극복하여, 대기 시간을 획기적으로 줄이고 연료 소비를 절감하는 성능을 입증했습니다.

5월 13일3
arXiv논문

Feature Association Map을 이용한 AI 설명 가능성을 위한 새로운 기술

AI 시스템의 투명성과 신뢰성을 높이기 위해 특징 집합의 그래프 이론적 정식화를 활용한 새로운 XAI 알고리즘인 FAMeX를 제안합니다. FAMeX는 특징 간의 연관성을 기반으로 하는 Feature Association Map(FAM)을 모델링의 기초로 삼습니다. 실험 결과, FAMeX는 분류 작업에서 기존의 PFI 및 SHAP보다 우수한 특징 중요도 측정 성능을 보여주었습니다.

5월 13일3
arXiv논문

QAP-Router: 강화학습을 이용한 동적 이차 할당 문제로의 큐비트 라우팅 해결

본 논문에서 제안하는 QAP-Router는 양자 컴파일링의 핵심 문제인 큐비트 라우팅을 동적 이차 할당 문제(QAP)로 공식화하여 해결합니다. 이 접근 방식은 양자 게이트를 흐름 행렬, 하드웨어 토폴로지를 거리 행렬로 모델링하고, 이를 통합된 목적 함수에 포함시켜 강화학습 환경의 보상으로 정의합니다. 솔루션 인식 트랜스포머 백본과 예측 메커니즘을 활용하여 근시안적 결정을 방지함으로써, 기존 컴파일러 대비 CNOT 게이트 수를 크게 줄이는 효과를 입증했습니다.

5월 13일4

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.