본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 324필터 해제

arXiv논문

회복력 있는 시각 에이전트를 위한 패턴 언어

본 논문은 멀티모달 파운데이션 모델을 기업 환경에 통합할 때 발생하는 근본적인 소프트웨어 아키텍처 문제를 다룹니다. 특히, 높은 지연 시간과 비결정론적 특성을 가진 시공간 언어 행동(VLA) 모델의 출력을 실시간 및 결정론이 요구되는 기업 제어 루프에 적용하는 것이 핵심 과제입니다. 이를 해결하기 위해, 연구진은 빠른 결정론적 반사 작용과 느린 확률적 감독을 분리하는 '시각 에이전트를 위한 아키텍처 패턴 언어'를 네 가지 설계 패턴(하이브리드 어포던스 통합, 적응형 시각 앵커링, 시각 계층 합성, 의미론적 시나그래프)으로 제안합니다.

multimodal-modelsagent-architecturevla
3일 전5
arXiv논문

반복되는 질문을 위한 신뢰할 수 있는 답변: 템플릿 제약 디코딩을 통한 텍스트-SQL 정확도 향상

본 기사는 대규모 언어 모델(LLMs)을 활용한 텍스트-SQL 생성의 불안정성을 해결하기 위해 '템플릿 제약 디코딩(TeCoD)'이라는 시스템을 소개합니다. TeCoD는 과거의 NL-SQL 쌍에서 재사용 가능한 템플릿을 추출하고, 정교하게 조정된 모듈을 사용하여 적절한 템플릿을 선택합니다. 이후 문법적 제약을 통해 SQL 생성을 강제함으로써, 기존 방식 대비 높은 실행 정확도와 낮은 지연 시간을 달성하여 실제 환경에서의 배포 가능성을 높입니다.

llmstext-to-sqlnatural-language-processing
3일 전6
arXiv논문

TopBench: 표 기반 질문 답변에 대한 암묵적 예측 및 추론을 위한 벤치마크

TopBench는 대형 언어 모델(LLMs)의 표 기반 질문 답변 능력을 평가하기 위해 개발된 새로운 벤치마크입니다. 기존 LLM들이 단순 정보 추출에 강점을 보이지만, 실제 세계의 복잡한 '암묵적 예측' 추론 능력은 부족합니다. TopBench는 의사 결정, 치료 효과 분석 등 네 가지 하위 작업을 포함하는 779개의 샘플로 구성되어 있으며, 모델이 구조화된 표와 추론 텍스트를 모두 생성하도록 요구하여 LLM의 심층적인 예측적 추론 능력을 측정합니다.

llmstable-qabenchmarking
3일 전4
arXiv논문

FlexiTac: 로봇 시스템용 저비용 오픈소스 확장성 있는 촉각 감지 솔루션

FlexiTac은 로봇 엔드 이펙터를 위한 저비용, 오픈소스, 확장 가능한 압저항성 촉각 감지 솔루션입니다. 이는 얇고 유연한 센서 패드와 실시간 데이터 스트리밍을 위한 컴팩트 판독 보드로 구성된 '플러그인' 모듈 형태로 제공됩니다. FlexiTac은 다양한 그리퍼에 장착 가능하며, 접촉 인식 및 현실-가상 환경 학습 파이프라인 등 현대적인 촉각 학습 애플리케이션을 지원합니다.

roboticstactile-sensingopensource
3일 전4
arXiv논문

LLM 기반 임상 그래프 구조 정제자: EEG 발작 진단에서의 표현 학습 향상

본 논문은 노이즈로 인해 그래프 구조가 왜곡되기 쉬운 EEG 발작 진단 분야에서, 대규모 언어 모델(LLM)을 활용하여 임상 그래프를 정제하는 새로운 프레임워크를 제안합니다. 이 방법론은 LLM의 강력한 추론 능력을 이용해 중복되거나 관련 없는 엣지를 식별하고 제거함으로써 그래프 표현의 품질을 높입니다. 그 결과, 기존 대비 향상된 발작 감지 정확도와 더 해석 가능한 임상 그래프 구조를 제공함을 TUSZ 데이터셋 실험을 통해 입증했습니다.

llmeeggraph-representation
3일 전5
arXiv논문

MemOVCD: 교차 시간적 기억 추론과 전역-지역 적응 보정을 통한 학습 없는 오픈보카불러블러 변화 탐지

MemOVCD는 사전 정의된 카테고리 없이 이중 시점 원격 감지 이미지의 의미론적 변화를 탐지하는 학습 없는 프레임워크입니다. 기존 방법들이 시간적 결합 부족이나 지역적 추론에 의존하여 발생하는 한계를 극복하기 위해, MemOVCD는 교차 시간적 기억 추론과 전역-지역 적응 보정 전략을 도입했습니다. 이를 통해 양방향 시간 방향에서 의미론적 증거를 효과적으로 집계하고 공간 일관성을 개선함으로써, 다양한 오픈보카불러블러 환경에서 높은 변화 탐지 성능을 입증합니다.

remote-sensingchange-detectionopen-vocabulary
4일 전5
arXiv논문

비안궈: 온라인 시스템 운영을 위한 유연한 기술 배치 아전트 프레임워크

본 기술 기사는 대규모 온라인 시스템의 운영 및 유지보수(O&M) 과정에서 발생하는 복잡한 문제 해결을 위한 'Bian Que'라는 아전트 프레임워크를 소개합니다. 기존 방식은 방대한 데이터와 지식 속에서 필요한 정보를 선별하고 연결하는 오케스트레이션 단계에 병목 현상이 있었습니다. Bian Que는 운영 작업을 세 가지 정형 패턴으로 통합하고, 각 스킬이 필요한 데이터와 지식을 자동으로 검색/정제하며, 하나의 수정 신호가 지식 증류 및 스킬 정제를 통해 자체적으로 진화하는 메커니즘을 제공하여 O&M 효율성을 혁신합니다.

agent-frameworkllm-orchestrationsre
4일 전5
arXiv논문

QYOLO: 양자 영감을 받은 공유 채널 믹싱을 통한 경량 객체 탐지

QYOLO는 양자(quantum) 영감을 받은 공유 채널 믹싱을 활용하여 객체 탐지 모델의 계산 오버헤드를 줄이는 경량화 프레임워크입니다. 기존 YOLO 구조에서 깊은 백본 모듈이 차지하는 파라미터 비중 불균형 문제를 해결하기 위해, QYOLO는 핵심 C2f 병목 모듈들을 컴팩트한 QMixBlock으로 대체했습니다. 이 블록은 공유 학습 가능한 사인(sinusoidal) 믹싱 메커니즘을 통해 전역 채널 재조정을 수행하여 모델의 구조적 압축을 달성하며, 기존 대비 파라미터 및 GFLOPs를 크게 줄이면서도 mAP 성능 저하를 최소화했습니다.

object-detectionmodel-compressionyolo
4일 전6
arXiv논문

양자 게이트키퍼: VQC 기반 키 도출을 활용한 다중 요소 컨텍스트-바운드 이미지 스테가노그래피

본 논문은 양자 게이트키퍼(Quantum Gatekeeper)라는 새로운 다중 요소 컨텍스트-바운드 이미지 스테가노그래피 프레임워크를 제안합니다. 이 시스템은 LSB 임베딩, 결정론적 변분 양자 회로(VQC)에서 파생된 게이트 키, 그리고 사용자 제공의 여러 컨텍스트 요소를 통합하여 데이터를 숨기고 복구합니다. 페이로드 추출을 위해서는 비밀번호, 공유 비밀키, 컨텍스트 문자열 등 네 가지 필수 요소가 모두 정확해야 하며, 하나라도 오류가 발생하면 시스템은 실패를 알리는 '침묵적 거부'를 수행합니다.

steganographyquantum-computingvariational-quantum-circuits
4일 전7
arXiv논문

효율적인 엣지-클라우드 비전-언어 모델 (VLM) 을 위한 점진적 의미 통신

본 논문은 리소스 제약이 있는 엣지 디바이스와 대역폭 제한 환경에서 VLM을 효율적으로 구동하기 위한 점진적 의미 통신 프레임워크를 제안합니다. 이 프레임워크는 메타 오토인코더(Meta AutoEncoder)를 사용하여 시각 토큰을 적응적이고 점진적으로 정제 가능한 표현으로 압축하여, 통신 비용과 정보 충실도 사이의 균형을 맞춥니다. 실험 결과, 1 Mbps 업링크 환경에서 제안된 방식은 기존 풀 엣지 또는 풀 클라우드 솔루션 대비 네트워크 지연 시간을 크게 줄이면서 높은 의미 일관성을 유지함을 입증했습니다.

vision-language-modelsedge-cloudcommunication-efficiency
4일 전9
arXiv논문

비서구적 맥락에서의 청소년을 위한 문화적 감수성 있는 생성형 AI 위험: 청소년, 부모 및 교사의 관점

본 연구는 서구 중심의 관점에서 간과되어 온 비서구적 맥락, 특히 사우디아라비아에서 청소년을 위한 생성형 AI 사용의 위험성을 탐구했습니다. 혼합 방법론(Reddit/X 분석 및 인터뷰)을 통해 7~17세 청소년, 부모, 교사 31명을 대상으로 데이터를 수집하고 분석했습니다. 연구 결과, 비서구적 맥락에서의 프라이버시와 안전성은 공동체 구조와 규범에 의해 형성되며, 특히 정서적 지원을 위해 개인 및 가족 정보를 공개할 때 문화적으로 뿌리박힌 기대(겸손, 명예 등)와 충돌하는 위험이 발견되었습니다. 따라서 문화적 규범과 가치에 맞는 포용적이고 상황 민감한 부모 제어 설계가 필요함을 시사합니다.

generative-aicultural-sensitivityadolescence
4일 전9
arXiv논문

AGEL-Comp: 상호작용 에이전트에서의 구성적 일반화를 위한 신경상징적 프레임워크

본 논문은 대형 언어 모델(LLM) 기반 에이전트의 한계점인 '구성적 일반화' 문제를 해결하기 위해 신경상징적 AI 아키텍처인 AGEL-Comp를 제안합니다. AGEL-Comp는 세계 모델로 방향성 하이퍼그래프 기반의 인과 프로그램 그래프(CPG)를 사용하고, 상호작용을 통해 새로운 지식을 합성하는 ILP 엔진, 그리고 LLM과 NTP가 결합된 추론 핵심부를 통합했습니다. 이 프레임워크는 추론-추상화 학습 사이클을 구현하여 에이전트가 명시적이고 구조화된 방식으로 세계를 이해하고 계획할 수 있게 합니다.

neuro-symbolicllmagent
4일 전5
arXiv논문

DUAL-BLADE: 엣지 LLM 추론을 위한 듀얼 패스 NVMe-직접 KV 캐치 오프로딩

본 기술 기사는 엣지 AI 시스템의 LLM 추론 시 발생하는 KV 캐시 메모리 부족 문제를 해결하기 위한 DUAL-BLADE 프레임워크를 제안합니다. 기존 NVMe 오프로딩 방식이 커널 페이지 캐시에 의존하여 지연 시간과 오버헤드가 높았던 단점을 개선했습니다. DUAL-BLADE는 런타임에 KV 텐서를 GPU 메모리(페이지 캐시) 또는 파일 시스템을 우회하는 직접적인 NVMe 경로로 동적으로 할당하며, I/O와 GPU DMA를 중첩하여 추론 처리량을 크게 향상시키는 것이 핵심입니다.

llmedge-aikv-cache
4일 전10
arXiv논문

Star-Fusion: 구면 위상학을 통한 이산 천체 방향을 위한 다중 모달 트랜스포머 아키텍처

Star-Fusion은 자율 우주선 항법에 필수적인 천체 방향 결정 문제를 다루는 새로운 다중 모달 트랜스포머 아키텍처입니다. 기존의 LIS 알고리즘과 표준 딥러닝 모델이 가진 계산 오버헤드 및 비유클리드 위상학적 문제점을 해결하기 위해, 이 접근법은 천구를 일관된 영역으로 분할하여 문제를 '이산 위상 분류'로 재정의합니다. Star-Fusion은 광측정, 공간적 정지, 좌표 기반 정보를 융합하는 삼분류 전략을 사용하며, 높은 정확도와 낮은 추론 지연 시간을 동시에 달성하여 실시간 온보드 배포에 적합한 성능을 입증했습니다.

astronomydeep-learningautonomous-navigation
4일 전4
arXiv논문

중등 수학 자동 역량 평가를 위한 이질적 대규모 언어 모델 (LLM) 의 인간 개입 (Human-in-the-Loop) 벤치마킹

본 논문은 중등 수학 평가의 자동화 및 역량 기반 교육(CBE) 전환에 필요한 '인간 개입(Human-in-the-Loop)' 벤치마킹 프레임워크를 제안합니다. 네팔 커리큘럼을 바탕으로 이해력, 지식 등 다차원적 역량을 평가하기 위해 오픈 웨이트 및 독점 모델들을 비교했습니다. 연구 결과, 단순히 모델의 크기보다 아키텍처가 주어진 평가 기준(rubric)에 얼마나 잘 준수하는지(Architecture-compatibility)가 성능에 더 중요하며, LLM이 자율적인 인증에는 부적합하지만 인간 전문가의 도움을 받는 보조 지원 도구로 활용될 수 있음을 보여줍니다.

llmeducational-techassessment
4일 전10
arXiv논문

SciHorizon-DataEVA: 이질적 과학 데이터의 AI 준비도 평가를 위한 에이전트 시스템

본 연구는 다양한 이질적 과학 데이터의 인공지능(AI) 활용 가능성, 즉 'AI 준비도'를 체계적으로 평가하기 위한 에이전트 시스템인 SciHorizon-DataEVA를 제안합니다. 기존에는 AI 모델의 효과성이 데이터 자체의 준비도에 의해 제한되었으나, 본 시스템은 네 가지 핵심 차원(거버넌스 신뢰성, 데이터 품질, AI 호환성, 과학적 적응성)을 기반으로 평가 기준을 설정했습니다. Sci-TQA2-Eval이라는 계층적 다중 에이전트 접근법을 통해 동적으로 평가 사양을 구축하고 실행함으로써, 광범위하고 신뢰할 수 있는 데이터셋 전반의 AI 준비도 평가를 가능하게 합니다.

ai4sciencedata-evaluationagent-system
4일 전9
arXiv논문

블랙박스 신뢰도에서 측정 가능한 임상 AI 신뢰로: 증거, 감독, 단계적 자율성을 위한 프레임워크

본 논문은 임상 AI에 대한 신뢰를 단순한 정확도를 넘어 증거(evidence), 감독(supervision), 단계적 자율성(staged autonomy)이라는 세 가지 원칙을 기반으로 측정 가능한 시스템 속성으로 정의하는 실용적인 프레임워크를 제안합니다. 이 프레임워크는 블랙박스 모델이 임상 논리를 완전히 대체하기보다, 결정론적 핵심과 환자 특이적 AI 어시스턴트, 다중 계층 인간 감독 레이어를 결합하여 신뢰성을 확보하는 아키텍처에 초점을 맞춥니다. 궁극적으로 신뢰할 수 있는 임상 AI는 개별 모델의 속성이 아니라, 증거 추적, 인간 감독, 그리고 점진적인 권한 부여가 내장된 시스템 설계의 결과물로 제시됩니다.

clinical-aitrustworthinessmedical-ai
4일 전8
arXiv논문

ClawGym: Claw 에이전트 구축을 위한 확장 가능한 프레임워크

본 기술 기사는 복잡하고 다단계적인 워크플로우를 처리하는 'Claw 스타일' 에이전트 개발의 한계를 극복하기 위해 확장 가능한 프레임워크인 ClawGym을 소개합니다. ClawGym은 페르소나 기반 의도와 스킬 기반 작업을 활용하여 13,500개 이상의 필터링된 작업 데이터셋(ClawGym-SynData)을 구축했으며, 이를 통해 에이전트의 지도 학습 미세 조정 및 강화학습 탐색을 지원합니다. 또한 신뢰성 있는 평가를 위한 벤치마크인 ClawGym-Bench도 함께 제공하여, 연구자들이 체계적으로 개인 에이전트를 개발하고 검증할 수 있도록 합니다.

agent-frameworkllm-agentsreinforcement-learning
4일 전6
arXiv논문

TIDE: 확산 대규모 언어 모델의 교차 아키텍처 지식 증류

TIDE는 확산 대규모 언어 모델(dLLMs)의 교차 아키텍처 지식 증류를 위한 최초의 프레임워크입니다. 기존 방법들이 단일 아키텍처 내 추론 단계 감소에만 초점을 맞춘 것과 달리, TIDE는 아키텍처, 주의 메커니즘, 토큰라이저 등 여러 구성 요소에서 차이가 나는 교사(Teacher)와 학생(Student) 모델 간의 지식 전이를 다룹니다. 이 프레임워크는 TIDAL, CompDemo, Reverse CALM이라는 세 가지 모듈을 통해 작동하며, 8B/16B 규모의 Teacher 모델을 0.6B Student 모델로 증류할 때 기존 대비 높은 성능 향상을 보여주었습니다.

diffusion-llmsknowledge-distillationcross-architecture
4일 전6
arXiv논문

신경 집합을 통한 인과 학습

본 논문은 신경 집합(Neural Assemblies)이 변수 간의 인과 관계 방향성을 학습할 수 있는지 탐구하며, 이를 위해 DIRECT(DIRectional Edge Coupling/Training)라는 새로운 메커니즘을 제안합니다. 이 방법은 적응적 가중치 스케줄 하에서 소스 및 타겟 집합의 공발화를 통해 방향성 관계를 체화하는 것이 핵심입니다. 특히 역전파 기반 방식과 달리 국소 가소성에만 의존하여 인과 주장을 기계 수준에서 감사 가능하게 만드는 '설계상 설명 가능한(explainable by design)' 프레임워크를 제공합니다.

neural-assembliescausal-learninglocal-plasticity
4일 전8

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.