본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2266필터 해제

arXiv논문

SCICONVBENCH: 계산 과학의 작업 정식화를 위한 다회차 명확화(Multi-Turn Clarification)에 대한 LLM 벤치마킹

SCICONVBENCH는 계산 과학 분야에서 불명확한 사용자 요청을 정제하기 위한 LLM의 다회차 명확화(multi-turn clarification) 능력을 평가하는 새로운 벤치마크입니다. 유체 역학, 재료 과학 등 네 가지 영역을 대상으로 모호성 해소와 불일치 해결 능력을 측정하며, 현재의 최첨단 모델들이 여전히 모호성 해소와 암묵적 가정 문제에서 한계를 보임을 입증합니다.

5월 19일1
arXiv논문

Position: 안전한 LLM Agent 배포를 위해 구조적으로 요구되는 3계층 확률적 Assume-Guarantee 아키텍처

본 논문은 단일 계층의 가드레일만으로는 LLM 에이전트의 안전성을 보장하기에 불충분하다고 주장하며, 3계층의 확률적 Assume-Guarantee 아키텍처를 제안합니다. 이 구조는 의미론적 의도, 환경적 타당성, 동적 실행 가능성이라는 세 가지 독립적인 안전 차원을 계약 기반 아키텍처로 분리하여 인증합니다. 이를 통해 시스템 수준의 안전 경계를 도출할 수 있는 이론적 틀을 제공합니다.

5월 19일1
arXiv논문

고전적 계획법(Classical Planning)에서 일반적인 정책 학습을 위한 효율적인 Lookahead 인코딩 및 추상화된

본 연구는 고전적 계획법(Classical Planning)에서 일반화된 정책을 학습하기 위해 기존 Iterated Width(IW) 방식의 계산 비용과 확장성 문제를 해결하는 새로운 접근법을 제안합니다. 홀리스틱 인코딩(Holistic encoding)을 통해 단 한 번의 순전파로 모든 전이를 점수화하고, 관계적 추상화(Relational abstraction)를 도입하여 객체 단위의 효율적인 새로움 검사를 가능하게 합니다. 이를 통해 IPC 2023 벤치마크 등 대규모 도메인에서 기존 LAMA 플래너와 이전 연구들을 뛰어넘는 최첨단 성능을 달성했습니다.

5월 19일1
arXiv논문

Lance: 다중 작업 시너지(Multi-Task Synergy)를 통한 통합 멀티모달 모델링

Lance는 이미지와 비디오에 대해 이해, 생성, 편집을 동시에 지원하는 경량 네이티브 통합 멀티모달 모델입니다. 모델 크기를 키우는 대신 다중 작업 학습과 이중 스트림 MoE 아키텍처를 통해 이해와 생성 능력을 조화롭게 통합했습니다. 실험 결과, 기존 오픈 소스 모델 대비 뛰어난 시각적 생성 성능과 강력한 멀티모달 이해 능력을 입증했습니다.

5월 19일0
arXiv논문

Reversa: 레거시 소프트웨어를 AI 에이전트용 운영 사양으로 변환하기 위한 역방향 문서화 엔지니어링 프레임워크

Reversa는 레거시 소프트웨어의 암묵적인 비즈니스 규칙과 아키텍처를 AI 코딩 에이전트가 이해할 수 있는 운영 사양으로 변환하는 역방향 문서화 엔지니어링 프레임워크입니다. 멀티 에이전트 파이프라인을 통해 코드 분석, 규칙 추출, 사양 작성을 수행하며, 코드와 사양 간의 추적성 및 신뢰도 표시를 통해 안정적인 시스템 수정을 지원합니다.

5월 19일1
arXiv논문

LLM 가이드 모델 패치를 통한 대규모 재최적화(Re-Optimization)의 민주화

본 논문은 운영 연구(OR) 전문가 없이도 최종 사용자가 자연어 상호작용을 통해 최적화 모델을 신속하게 재최적화할 수 있는 LLM 기반 에이전트 프레임워크를 제안합니다. LLM은 사용자의 요구사항을 모델의 구조화된 패치로 변환하고, 최적화 툴박스를 활용하여 효율적인 솔루션을 생성합니다. 공급망 관리 및 시험 시간표 작성 사례를 통해 프레임워크의 계산 효율성과 모델 수정의 해석 가능성을 입증했습니다.

5월 19일1
arXiv논문

SkillGenBench: LLM 에이전트를 위한 기술 생성 파이프라인 벤치마킹

LLM 에이전트가 저장소와 문서로부터 실행 가능한 기술(skills)을 직접 생성하는 능력을 평가하기 위한 새로운 벤치마크인 SkillGenBench를 소개합니다. 이 벤치마크는 태스크 조건부 및 태스크 불가지론적 생성 체제와 코드 저장소 및 문서 기반의 두 가지 소스를 모두 다룹니다. 실험을 통해 다양한 방법론 간의 성능 차이와 기술 추출 과정에서의 주요 실패 모드를 규명하였습니다.

5월 19일1
arXiv논문

PopPy: Python Compound AI 애플리케이션에서의 병렬성 기회적 활용

PopPy는 외부 컴포넌트 호출로 인해 지연 시간이 발생하는 Compound AI 애플리케이션의 성능을 최적화하기 위해 개발된 시스템입니다. 사전 컴파일 방식과 런타임을 결합하여 Python의 언어적 복잡성과 동적 특성을 극복하고 병렬화 기회를 찾아냅니다. 실제 애플리케이션 테스트 결과, 순차적 의미를 유지하면서도 실행 시간을 최대 6.4배 단축하는 성과를 보였습니다.

5월 19일1
arXiv논문

통합 멀티모달 모델을 위한 의미론적 생성 튜닝 (Semantic Generative Tuning)

통합 멀티모달 모델(UMMs)의 시각적 이해와 생성 능력 사이의 불일치를 해결하기 위해 '의미론적 생성 튜닝(SGT)'이라는 새로운 패러다임을 제안합니다. 이미지 분할(segmentation)을 생성적 대리 작업으로 활용하여 모델의 구조적 의미론을 강화함으로써, 이해와 생성 역량을 동시에 향상시키는 방법을 제시합니다.

5월 19일1
arXiv논문

DexHoldem: 숙련된 Embodied System을 이용한 텍사스 홀덤 플레이

DexHoldem은 숙련된 하드웨어 조작과 인지 능력을 동시에 평가하기 위해 구축된 텍사스 홀덤 기반의 실세계 시스템 레벨 벤치마크입니다. 이 시스템은 ShadowHand를 활용한 정교한 조작 기술, 물리적 정책, 그리고 에이전트의 인지 능력을 종합적으로 테스트합니다. 연구 결과, 시각적 하위 능력과 완전한 상태 복구 능력 사이의 격차를 확인하였으며, 폐쇄 루프 배포 시 발생하는 오류 누적 문제를 사례 연구를 통해 보여줍니다.

5월 19일1
arXiv논문

실행 가능한 세계 표현 (Actionable World Representation)

본 논문은 물리적 세계를 모델링하기 위해 객체의 상태를 명시적으로 표현하는 'WorldString'이라는 새로운 신경망 구조를 제안합니다. WorldString은 포인트 클라우드나 RGB-D 비디오 스트림을 통해 객체의 상태 매니폴드를 학습하며, 디지털 트윈으로서 물리적 세계 모델의 핵심 빌딩 블록 역할을 수행합니다. 또한, 모델이 완전 미분 가능한 구조를 가져 향후 정책 학습 및 신경 역학과의 통합이 용이합니다.

5월 19일0
arXiv논문

잘못 설정된 탐색 후 활용 전략이 초경쟁적 가격을 유도하는 메커니즘 분석

본 연구는 '탐색 후 활용(explore-then-exploit)' 전략을 사용하는 기업들이 경쟁사의 가격을 고려하지 않은 잘못된 독점 모델을 사용할 때, 시장 가격이 내쉬 균형보다 높은 초경쟁적 수준으로 형성되는 메커니즘을 분석합니다. 유체 한계 상미분 방정식 분석을 통해 기업들이 유사한 가격 범위 내에서 탐색할 경우 가격이 독점 수준까지 상승할 수 있음을 규명하였습니다. 실제 임대 시장 시뮬레이션을 통해 이러한 현상이 다양한 변수 환경에서도 견고하게 나타남을 입증했습니다.

5월 18일0
arXiv논문

AgriMind: 다중 클래스 식물 질병 분류를 위한 앙상블 딥러닝 프레임워크

AgriMind는 수동 식물 질병 탐지를 자동화하기 위해 개발된 앙상블 딥러닝 프레임워크입니다. ResNet50, EfficientNet-B0, DenseNet121 모델을 결합하여 15가지 식물 질병 클래스에 대해 99.23%의 높은 정확도를 달성했습니다. 전이 학습 방식을 통해 효율적인 학습을 구현했으며, NVIDIA T4 GPU 기준 53 FPS의 빠른 추론 속도를 보여줍니다.

5월 18일2
arXiv논문

CitePrism: 인적 개입 기반의 인용 감사 및 편집 무결성을 위한 AI 프레임워크

CitePrism은 편집자와 심사위원이 원고의 인용 정확성과 윤리성을 검토할 수 있도록 지원하는 AI 기반 하이브리드 의사결정 프레임워크입니다. LLM의 문맥 추론과 임베딩 기반 유사성 분석을 결합하여 인용의 관련성을 평가하며, 인간의 검토를 병행하는 Human-in-the-loop 방식을 채택하고 있습니다. 현재는 완전 자동화된 시스템이 아닌, 편집 프로세스를 보조하는 파일럿 단계의 의사결정 지원 도구로 설계되었습니다.

5월 18일2
arXiv논문

AI 에이전트의 소유권 추적: 유해한 에이전트의 운영자 식별 문제와 해결 방안

자율적인 AI 에이전트가 증가함에 따라 유해한 행동을 하는 에이전트의 운영자를 식별하기 어려운 '책임 격차(accountability gap)' 문제가 발생하고 있습니다. 본 연구는 관찰된 에이전트의 상호작용을 호스팅 벤더의 계정과 연결하는 '에이전트 귀속(agent attribution)' 문제를 정의하고, 카나리(canary) 기반의 새로운 프로토콜을 제안합니다. 이 프로토콜은 적대적인 운영자의 방해를 극복하면서도 에이전트의 성능 저하 없이 운영자를 식별할 수 있는 강력한 방어 체계를 제공합니다.

5월 18일2
arXiv논문

인간 원격 조작 데이터를 활용한 양팔 로봇의 로프 조작을 위한 시뮬레이션 기반 정책 학습

본 연구는 로프와 같은 변형 가능한 선형 객체(DLO)를 조작하기 위해 인간의 원격 조작 데이터를 활용한 시뮬레이션 기반 정책 학습을 다룹니다. 시각 기반 정책과 3D 입자 상태 기반 정책을 비교한 결과, 상태 기반 정책이 새로운 로프 구성에 대해 훨씬 더 높은 일반화 성능과 데이터 효율성을 보임을 입증했습니다.

5월 18일1
arXiv논문

불확실성을 고려한 OS 탐색 시스템 ScreenSearch

ScreenSearch는 데스크톱 GUI 에이전트가 겪는 부분 관측 가능성 문제를 해결하기 위해 설계된 OS 상태 탐색 시스템입니다. UIA 트리 기반의 구조적 화면 검색과 모호성 인지형 PUCT 그래프-밴딧 알고리즘을 결합하여, 시각적으로 유사하지만 상태가 다른 화면을 식별하고 효과적으로 탐색 코퍼스를 구축합니다.

5월 18일1
arXiv논문

XSearch: 개념-코드 정렬을 통한 설명 가능한 코드 검색 프레임워크

XSearch는 기존 의미론적 코드 검색의 한계인 설명 가능성 부족과 일반화 능력 저하를 해결하기 위해 제안된 프레임워크입니다. 쿼리의 기능적 개념을 식별하고 이를 코드 문장과 명시적으로 정렬하는 '설명 후 예측' 방식을 통해, 분포 외(OOD) 상황에서도 뛰어난 성능을 보여줍니다. 실험 결과, 기존 모델 대비 분포 외 벤치마크 성능을 최대 15배 향상시켰으며 사용자 평가에서도 높은 유용성을 입증했습니다.

5월 18일0
arXiv논문

VideoSeeker: 네이티브 에이전트 도구 호출을 통한 인스턴스 수준 비디오 이해 유도

VideoSeeker는 기존 LVLM이 텍스트 프롬프트에 의존하여 정밀한 시공간적 지역화에 어려움을 겪던 문제를 해결하기 위해 제안된 새로운 패러다임입니다. 에이전트 추론을 통합하여 모델이 시각적 프롬프트를 통해 필요한 비디오 세그먼트를 능동적으로 검색하고 인지할 수 있도록 설계되었습니다. 실험 결과, GPT-4o 및 Gemini-2.5-Pro와 같은 폐쇄형 모델보다 뛰어난 성능을 보이며 인스턴스 수준의 비디오 이해 능력을 입증했습니다.

5월 18일2
arXiv논문

편집 가능한 3D Gaussian Splatting을 위한 강건한 사전 가이드 기반 세그멘테이션

3D Gaussian Splatting(3D-GS)의 편집 가능성을 높이기 위해 SAM-HQ를 활용하여 정교한 2D 마스크를 생성하고, 이를 3D 도메인으로 확장하는 새로운 프레임워크를 제안합니다. 학습된 사전 정보를 통해 다시점 일관성을 강제함으로써 경계 충실도와 미세 구조를 보존하며, 실시간 객체 편집을 가능하게 합니다.

5월 18일0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.