본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 371필터 해제

arXiv논문

ABPMS 프로세스 프레임의 하이브리드 성질과 자동화된 프로세스 발견에 대한 함의

본 논문은 AI 증강 비즈니스 프로세스 관리 시스템(ABPMS)에서 핵심적인 역할을 하는 '프로세스 프레임'을 개념화합니다. 전통적 모델의 한계를 극복하기 위해, 이 프로세스 프레임을 절차적(procedural) 요소와 선언적(declarative) 요소가 결합된 하이브리드 비즈니스 프로세스 표현으로 제안합니다. 특히, 절차적 모델에 선언적 패러다임의 '오픈 월드 가정'을 적용하여, 각 활동이 특정 범위 내에서만 제한되도록 하는 새로운 실행 의미론과 프로세스 발견 접근법의 기초를 제시합니다.

business-process-managementai-augmented-systemsprocedural-modeling
4월 27일2
arXiv논문

CGC: Fine-Grained Multi-Image Understanding 을 위한 Compositional Grounded Contrast

본 논문은 다중 모드 대형 언어 모델(MLLMs)이 직면하는 세밀한 다중 이미지 이해의 어려움(공간적 환각, 주의력 누출 등)을 해결하기 위한 저비용 프레임워크인 Compositional Grounded Contrast (CGC)를 제안합니다. CGC는 기존 단일 이미지 기반 주석을 활용하여 Inter-Image Contrast와 Intra-Image Contrast를 도입함으로써 의미론적으로 분리된 방해 요소 컨텍스트와 객체 일관성을 확보하는 구성적 다중 이미지 학습 인스턴스를 구축합니다. 또한, Think-before-Grounding 패러다임에 규칙 기반 공간 보상(Rule-Based Spatial Reward)을 추가하여 소스 이미지 귀속 및 구조화된 출력 유효성을 개선했으며, 다양한 벤치마크에서 우수한 성능 향상을 입증했습니다.

multimodalllmscomputer-vision
4월 27일2
arXiv논문

계층적 주행 VQA에서의 교차 단계 일관성: 명시적 베이스라인과 학습된 게이트드 컨텍스트 프로젝터

본 논문은 자율주행 그래프 시각 질문 답변(GVQA)에서 인지-예측-계획 단계 간의 컨텍스트 일관성을 확보하는 두 가지 상보적인 방법을 비교 연구합니다. 첫 번째 방법인 명시적 베이스라인은 추가 학습 없이 프롬프트 기반 조건화 전략을 사용하여 NLI 모순을 크게 줄이는 강력한 무학습 성능을 보여줍니다. 두 번째 방법인 게이트드 컨텍스트 프로젝터는 숨겨진 상태 벡터를 다음 단계 입력에 정규화된 방식으로 주입하여 계획 단계의 의미적 일관성을 통계적으로 유의미하게 개선합니다.

autonomous-drivingvqamultimodal-learning
4월 27일3
arXiv논문

자연어에서 검증된 코드로: Dafny 기반 형식 검증을 통한 AI 보조 문제-코드 생성으로의 도약

본 연구는 대형 언어 모델(LLMs)이 생성한 코드가 가지는 정확성 문제를 형식 검증(formal verification)을 통해 해결하고자 합니다. 이를 위해 'NaturalLanguage2VerifiedCode (NL2VC)-60' 데이터셋을 구축하고, 계층적 프롬프팅 전략(tiered prompting strategy)을 사용하여 7개 오픈-웨이트 LLM의 성능을 평가했습니다. 그 결과, 단순한 자연어 입력만으로는 성공률이 낮았으나, 구조적인 서명 제공이나 검증기 피드백을 활용하는 자기 치유(self-healing) 프롬프팅 전략을 사용할 경우 모델의 성능이 극적으로 향상됨을 입증했습니다.

formal verificationllmscode generation
4월 27일3
arXiv논문

UniSonate: 텍스트 지시를 통한 음성, 음악 및 사운드 효과 생성을 위한 통합 모델

UniSonate는 텍스트 지시를 사용하여 음성, 음악 및 사운드 효과 등 이질적인 오디오 모달리티를 통합적으로 생성할 수 있는 새로운 흐름 매칭(flow-matching) 프레임워크입니다. 기존의 TTS, TTM, TTA와 같이 분산되어 있던 전문화된 모델들의 한계를 극복하기 위해 설계되었으며, 특히 비구조적인 환경 소리를 구조화된 시간 잠재 공간으로 투영하는 동적 토큰 주입 메커니즘을 도입했습니다. 이 접근법은 다양한 오디오 모달리티 간의 최적화를 통해 높은 성능과 구조적 일관성을 입증했습니다.

audio-synthesisgenerative-aitext-to-audio
4월 27일2
arXiv논문

지지를 보존하지, 대응만 하지 말라: 오프라인 강화학습을 위한 동적 라우팅

본 논문은 오프라인 강화학습(Offline RL)의 한계를 극복하기 위해 '동적 라우팅' 기법을 도입한 단일 단계 액터 DROL을 제안합니다. 기존 방식들이 데이터셋이 지지하는 행동 영역을 벗어나지 않으면서도 성능 개선을 이루는 데 어려움을 겪었던 반면, DROL은 각 상태에서 여러 후보 행동을 샘플링하고 이 중 가장 적합한 '승리자'만을 업데이트하여 로컬 최적화를 가능하게 합니다. 이를 통해 단일 패스 추론의 효율성을 유지하면서도 미세한 지역 개선 능력을 확보했습니다.

offline-rlreinforcement-learningdynamic-routing
4월 27일2
arXiv논문

실제 제조 환경용 학습 증강 로봇 자동화

본 기사는 기존의 고정된 스크립트에 의존하던 산업용 로봇 시스템을 개선하기 위해 '학습 증강 로봇 자동화(Learning-Augmented Robotic Automation)'라는 하이브리드 시스템을 제안합니다. 이 시스템은 학습 기반 작업 제어기와 신경망 3D 안전 모니터를 결합하여, 실제 제조 환경의 복잡한 워크플로우에 통합되었습니다. 전기 모터 생산 라인에서 케이블 삽입 및 납땜과 같은 인간이 수행하던 작업을 자동화하는 데 성공했으며, 물리적 펜싱 없이도 장시간 연속 작동과 높은 품질 관리 결과를 입증했습니다.

roboticsindustrial-automationmachine-learning
4월 27일1
arXiv논문

대규모 문서 컬렉션 탐색: 다문서 분석적 QA를 위한 MuDABench

본 논문은 대규모 반정형 문서 컬렉션에서 복잡한 분석적 질문에 답하기 위한 새로운 벤치마크인 MuDABench를 소개합니다. 이 벤치마크는 여러 문서를 가로지르는 광범위한 정보 추출, 종합 및 정량적 분석을 요구하며, 기존의 제한적인 다문서 QA 방식과 차별화됩니다. 연구진은 표준 RAG 시스템의 한계를 극복하기 위해 계획-추출-코드 생성 모듈을 오케스트레이션하는 다중 에이전트 워크플로우를 제안했으며, 이는 성능 향상을 보였으나 여전히 인간 전문가 수준에는 미치지 못함을 분석했습니다.

qamultidocument-qarag
4월 27일2
arXiv논문

왜 그런지 알려주세요: 학생 문제 행동 진단을 위한 설명 가능한 LLM 기반 대화 시스템 설계

본 기사는 학생의 문제 행동 진단 및 개입 전략 계획을 지원하는 설명 가능한 대형 언어 모델(LLM) 기반 대화 시스템을 제안합니다. 기존 LLM은 권장 이유를 명확히 설명하지 않아 교사의 신뢰도에 한계가 있었으나, 본 시스템은 계층적 귀인(hierarchical attribution) 방법을 사용하여 대화 증거를 식별하고 자연어 설명을 생성함으로써 투명성을 높였습니다. 기술 및 사용자 연구 결과 모두에서 이 접근 방식이 기존 방법보다 우수함을 입증했습니다.

llmexplainable-aixai
4월 27일2
arXiv논문

계층적 목표 인식에 대한 확률론적 프레임워크

본 논문은 에이전트의 행동 관찰을 통해 목표를 추론하는 '목표 인식' 분야에 대한 새로운 확률론적 프레임워크를 제시합니다. 특히, 기존 연구에서 통합되지 않았던 계층적 작업 구조(HTNs)와 확률론적 추론을 결합하여 계획 기반 목표 인식을 수행합니다. 이 프레임워크는 세 단계 생성 모델을 활용한 HTN 플래너를 통해 목표 가설의 사후 분포를 추정하며, 실험적으로 기존 방식보다 향상된 성능을 입증했습니다.

goal-recognitionprobabilistic-inferencehtn
4월 27일3
arXiv논문

단일 블록 채널 코드를 활용한 자연어 문장 전송을 위한 시맨틱 기반 수신기 프레임워크

본 논문은 잡음이 있는 무선 채널에서 자연어 문장을 전송하기 위해 시맨틱 강화 수신기 프레임워크를 제안합니다. 이 프레임워크는 문장을 짧은 블록 코드로 분할하여 병렬 디코딩한 후, 언어 모델 컨텍스트를 활용해 손상된 부분을 재구성하는 시맨틱 오류 수정(SEC) 모델을 핵심으로 합니다. 또한, 다중 후보 재구성을 위한 시맨틱 리스트 디코딩(SLD)과 CRC 오버헤드 없이 선택적 부분 재전송이 가능한 시맨틱 신뢰도 유도 HARQ(SHARQ) 메커니즘을 추가하여 성능을 극대화합니다. 시뮬레이션 결과, 이 방식은 기존의 긴 코드 전송 방식 대비 높은 시맨틱 충실도를 유지하면서 디코딩 지연 시간을 획기적으로 줄이는 장점을 보여줍니다.

semantic-encodingwireless-communicationerror-correction
4월 27일3
arXiv논문

ReLeVAnT: 정확한 법적 텍스트 분류를 위한 관련성 어휘 벡터

본 연구는 법률 문서의 이진 분류를 위한 ReLeVAnT라는 프레임워크를 제안하며, 이는 클래스 간 문서의 구별적 특징을 활용하는 데 중점을 둡니다. ReLeVAnT는 n-gram 처리, 대조적 점수 매칭(contrastive score matching), 그리고 얕은 신경망을 결합하여 법률 문서 분류 작업을 수행합니다. 이 프레임워크는 LexGLUE 데이터셋에서 높은 정확도와 F1 점수를 달성하며, 기존 방법들이 의존하던 복잡한 메타데이터나 광범위한 컴퓨팅 파워 없이 신속하고 신뢰성 있게 작동함을 보여줍니다.

legal-techtext-classificationnlp
4월 27일4
arXiv논문

Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets

본 논문은 방대한 문서 컬렉션에 대한 질문 답변(QA)의 어려움을 해결하기 위해 SLIDERS라는 새로운 프레임워크를 제안합니다. 기존 방식이 직면하는 집계 병목 현상을 극복하고자, SLIDERS는 핵심 정보를 관계형 데이터베이스로 추출하여 SQL을 통한 구조화된 상태 추론을 가능하게 합니다. 또한 출처, 근거, 메타데이터 기반의 데이터 조정 단계를 도입하여 불일치하고 중복되는 기록을 효과적으로 처리함으로써 기존 벤치마크에서 최고 성능을 달성했습니다.

question-answeringllmstructured-reasoning
4월 27일4
arXiv논문

BLAST: ASP 기반 구조화된 테스트를 통한 LLM 평가

본 기술 기사는 대형 언어 모델(LLMs)의 성능을 평가하기 위한 새로운 방법론인 BLAST를 소개합니다. BLAST는 특히 명시적 패러다임인 Answer Set Programming (ASP) 코드를 생성하는 정확도를 측정하도록 설계된 구조화된 벤치마킹 프레임워크입니다. 이 연구는 ASP 코드 생성을 위해 개발된 두 가지 의미적 지표와 10개의 그래프 관련 문제를 사용하여 다양한 최신 LLM 8개를 대상으로 실증적인 평가를 수행했습니다.

llmanswer-set-programmingasp
4월 27일3
arXiv논문

ChangeQuery: 시각 감지에서 의미 이해로 - 자연재해와 인재에 대한 원격 탐사 변화 분석 고도화

본 논문은 원격 탐사 기반의 재난 피해 평가가 단순한 픽셀 변화 감지를 넘어 고수준 의미 분석으로 진화하는 추세에 맞춰, 기존 비전-언어 모델의 한계를 극복하기 위한 포괄적인 멀티모달 프레임워크인 ChangeQuery를 제안합니다. 이 프레임워크는 자연재해와 인공 재난(무장 충돌)을 모두 아우르는 균형 잡힌 대규모 벤치마크 데이터셋 DICQ와, 원시 분할 마스크를 계층적 지시문으로 자동 변환하는 의미 주석 파이프라인을 활용합니다. ChangeQuery는 이를 통해 사용자의 복잡한 쿼리에 따라 다중 작업 추론을 수행하며, 정확한 피해 정량화 및 해석 가능한 재난 요약을 제공하여 새로운 최첨단 성능을 달성했습니다.

remote-sensingmultimodal-aidisaster-monitoring
4월 27일2
arXiv논문

LeHome: 가정 시나리오에서 가변 물체 조작을 위한 시뮬레이션 환경

LeHome은 가변 물체(예: 의류, 식품)를 다루는 가정 시나리오 로봇 공학을 위한 포괄적인 시뮬레이션 환경입니다. 이 환경은 기존 시뮬레이터가 어려워했던 고충실도 역학과 현실적인 상호작용을 제공하며, 다양한 형태와 재질의 물체 조작을 정확하게 모델링합니다. 또한, 저비용 로봇 구현에 초점을 맞춰 자원 제약된 하드웨어에서도 가정 작업을 종단 간 평가할 수 있는 확장 가능한 테스트베드를 제공하여, 시뮬레이션과 실제 환경 사이의 격차를 줄이는 것을 목표로 합니다.

roboticssimulationhousehold-robotics
4월 27일3
arXiv논문

CNSL-bench: 중국 국가 수어 이해 능력을 가진 MLLM 평가 벤치마크

본 기술 기사는 대규모 언어 모델(LLM)의 수어 이해 능력을 평가하기 위해 중국 국가 공통 수어 사전 기반의 포괄적인 벤치마크인 CNSL-bench를 소개합니다. 이 벤치마크는 정렬된 텍스트, 이미지, 비디오 등 다중 모달리티와 발음 다양성을 포함하여 수어 이해에 대한 일관되고 세밀한 평가 환경을 제공합니다. 연구 결과, 최신 MLLM들은 여전히 인간의 성능에 비해 현저히 부족하며, 입력 모달리티나 특정 수동 발음 형태에 따라 모델 간 성능 편차가 크다는 것을 입증했습니다.

multimodal-llmsign-languagechinese-sign-language
4월 27일2
arXiv논문

CognitiveTwin: 알츠하이머 질환의 인지 저하 예측을 위한 견고한 다중 모달 디지털 트윈

CognitiveTwin은 알츠하이머병(AD) 환자의 개인별 인지 저하 궤적을 예측하기 위해 설계된 견고한 다중 모달 디지털 트윈 프레임워크입니다. 이 모델은 인지 점수, MRI, PET, 생체표지자, 유전학 등 다양한 유형의 종단 데이터를 통합합니다. Transformer 기반 아키텍처와 Deep Markov Model을 결합하여 시간적 동역학을 포착하며, 높은 예측 정확도뿐만 아니라 공정성과 결측 데이터에 대한 견고성을 입증했습니다.

alzheimer'sdigital-twinmultimodal
4월 27일1
arXiv논문

AgentSearchBench: 실전 환경에서의 AI 에이전트 검색을 위한 벤치마크

AI 에이전트 생태계가 성장함에 따라, 주어진 작업에 가장 적합한 에이전트를 식별하는 것이 중요한 과제가 되었습니다. 기존 벤치마크들이 제한적인 시나리오를 가정했던 한계를 극복하기 위해, 본 논문은 약 10,000개의 실제 에이전트를 기반으로 하는 대규모 벤치마크인 AgentSearchBench를 소개합니다. 이 벤치마크는 실행 가능한 작업 쿼리와 고수준 설명 모두에서 에이전트 검색 및 재순위화 문제를 다루며, 특히 실행 기반 성능 신호를 활용하여 관련성을 평가함으로써 기존 방법론의 한계를 입증하고 실행 인식 프로빙의 중요성을 강조합니다.

ai-agentsagent-searchbenchmarking
4월 27일2
arXiv논문

Superminds 테스트: Probing Agents 를 통한 에이전트 사회의 집단 지능에 대한 능동적 평가

본 연구는 대규모 자율 에이전트 사회에서 집단 지능이 규모만으로 자생적으로 나타나는지 평가하기 위해 Superminds 테스트라는 계층적 프레임워크를 도입했습니다. 200만 개 이상의 에이전트가 호스팅되는 MoltBook 플랫폼을 분석한 결과, 사회는 복잡한 추론이나 정보 종합 작업에서 개별 최첨단 모델보다 우월한 성능을 보이지 못했으며, 심지어 기본적인 조정 작업에서도 실패하는 등 집단 지능의 뚜렷한 부재를 확인했습니다. 연구진은 현재 에이전트 사회의 주요 한계가 상호작용의 희소성과 깊이가 부족하다는 점을 지적하며, 단순 규모 확장만으로는 높은 수준의 협업 능력을 기대하기 어렵다고 결론지었습니다.

collective-intelligencelarge-language-modelsautonomous-agents
4월 27일3

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.