Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AI 2305건필터 해제
Divide-then-Diagnose: 임상의가 영감을 준 맥락을 활용한 초장시간 캡슐 내시경 비디오
기존 캡슐 내시경(CE) 연구는 주로 단일 프레임 분류에 머물러 있어, 장시간 비디오 기반 진단이 어려웠습니다. 본 논문은 '진단 주도형 CE 영상 요약'이라는 새로운 과제를 정의하고, 이를 해결하기 위해 DiCE라는 임상 의사 흐름을 모방한 프레임워크를 제안합니다. 240개의 실제 임상 보고서 기반 데이터셋 VideoCAP을 활용하여 개발된 DiCE는 방대한 정상 프레임 속에서 핵심 병변 증거를 추출하고, 이를 진단적 맥락으로 묶어 신뢰도 높은 요약본을 생성하며 기존 SOTA 대비 우수한 성능을 입증했습니다.
Tool Attention Is All You Need: 동적 도구 게이팅 및 지연 스키마 로딩을 통한 MCP/Tools Tax 제거를 위한 확장 가능한 에이전트 워크플로우
기존 LLM 에이전트 워크플로우에서 외부 도구 연결을 위해 사용되던 Model Context Protocol (MCP)은 매 턴마다 방대한 스키마 정보를 로드해야 하는 'Tools Tax' 문제를 안고 있습니다. Tool Attention은 이 문제를 해결하기 위해 어텐션(Attention) 패러다임을 도구 게이팅으로 확장한 미들웨어 레이어입니다. Intent Schema Overlap (ISO) 점수, 상태 인식 게이팅 함수, 2단계 지연 스키마 로딩을 결합하여, 필요한 도구의 전체 JSON 스키마를 최소화하고 컨텍스트 사용량을
Alignment has a Fantasia Problem
현대 AI 비서들은 사용자가 명확한 목표를 제시한다고 가정하고 작동합니다. 하지만 실제 인간의 의사결정 과정은 모호하고 점진적이어서, 사용자의 초기 프롬프트가 곧 최종 의도를 대변하지 못하는 '환상적 상호작용(Fantasia interactions)' 문제가 발생합니다. 본 논문은 AI 정렬 연구가 사용자에게 단순한 명령 수행자가 아닌, 목표를 형성하고 다듬도록 돕는 인지적 지원자(cognitive support) 역할을 해야 한다고 주장하며, ML, 인터페이스 디자인, 행동 과학을 융합한 새로운 접근법을 제시합니다.
단일 자극 기반, 모달 내 분산을 통한 교차 모달 수렴 조절
본 논문은 신경망이 다양한 모달리티(Modalities)를 학습할 때 나타나는 '표현적 수렴성(representational convergence)' 현상을 분석합니다. 특히, 단일 자극(single-stimulus) 수준에서 각 모달 내의 분산도(intra-modal dispersion)가 시각 모델과 언어 모델 간의 교차 모달 수렴성(cross-modal convergence)을 강력하게 조절함을 발견했습니다. 즉, 특정 자극에 대해 여러 비전 모델이 높은 일치도를 보일수록 (낮은 intra-modal dispersion), 이
TraceScope: 분리된 체크리스트 판정을 통한 인터랙티브 URL 분류
기존의 정적(static) URL 분류기가 놓치던, 인터랙티브한 피싱 공격에 대응하기 위해 'TraceScope'를 제안합니다. TraceScope는 샌드박스 환경에서 GUI 브라우저를 구동하는 오퍼레이터 에이전트가 페이지 행동을 기록하고, 별도의 어드저커 에이전트가 MITRE ATT&CK 체크리스트 기반으로 증거를 검증하여 보고서를 생성합니다. 이 시스템은 기존 대비 높은 재현성(reproducible)과 정확도를 보여주며, 실제 피싱 환경에서도 우수한 성능을 입증했습니다.
블랙박스 경계 설정: AI 위험 규제를 위한 통계적 인증 프레임워크
본 논문은 AI 시스템의 안전성 검증에 필요한 기술적 공백을 메우는 새로운 접근 방식을 제안합니다. 현행 EU AI Act 등 규제들이 고위험 AI 시스템의 안전성을 요구하지만, '허용 가능한 위험'을 정량적으로 측정하고 이를 증명할 수 있는 방법론이 부재합니다. 저자들은 항공기 인증 패러다임을 차용하여 2단계 프레임워크를 제시하며, 모델 내부 접근 없이도 시스템의 실제 실패율에 대한 감사 가능하고 확정적인 상한(upper bound)을 계산하는 통계적 검증 도구(RoMA, gRoMA)를 개발했습니다. 이는 규제 준수 의무를 개발사
Transient Turn Injection: 대규모 언어 모델(LLM)의 상태 비저장 다중 턴 취약점 노출
최근 LLM이 민감한 워크플로우에 통합되면서, 모델의 적대적 견고성과 안전성이 중요해졌습니다. 본 논문은 새로운 다중 턴(multi-turn) 공격 기법인 Transient Turn Injection (TTI)을 소개합니다. TTI는 지속적인 대화 맥락 유지 없이도 여러 독립적인 상호작용에 걸쳐 악의적인 의도를 분산시켜 모델의 상태 비저장성(stateless moderation) 취약점을 체계적으로 공격합니다. 이 연구는 OpenAI, Anthropic, Google Gemini 등 주요 LLM들을 대상으로 광범위한 평가를 진행하여
노이즈에 강한 양자 회로 최적화를 위한 리플레이 버퍼 엔지니어링
본 논문은 깊은 강화학습 (Deep Reinforcement Learning, RL)을 활용한 양자 회로 최적화의 세 가지 주요 병목 현상을 해결하는 새로운 방법을 제시합니다. 핵심적으로 'ReaPER+'라는 적응형 리플레이 규칙을 도입하여 샘플 효율성을 획기적으로 개선하고, OptCRLQAS를 통해 느린 양자-고전 평가 과정을 가속화했습니다. 또한, 노이즈가 없는 궤적(noiseless trajectories)을 재활용하는 전송 기법으로 학습 단계를 대폭 줄여, 복잡한 분자 모델링 작업에서 높은 에너지 정확도를 달성했음을 보여주며
카메라가 생성형 AI를 사용할 때 이미지의 진위성 확보 방안
생성형 AI(GenAI) 기술이 카메라 이미지에 깊숙이 통합되면서, 딥러닝 기반의 이미지 처리 과정에서 '환각(hallucinated)' 콘텐츠가 발생할 위험성이 커졌습니다. 본 논문은 사용자가 촬영한 이미지가 실제 원본과 다르게 변질되었을 가능성을 해결하기 위해 개발되었습니다. 제안된 방식은 카메라 ISP에 의존하지 않고, 포스트-캡처 단계에서 이미지의 '환각되지 않은' (unhallucinated) 버전을 복원할 수 있는 인코더와 MLP 디코더를 제공합니다. 이 모델은 저장 공간을 최소화하여 JPEG나 HEIC 같은 표준 이미지
문서에서 개방형 도메인 이벤트 추출을 위한 멀티모달 텍스트 및 그래프 기반 접근 방식
본 논문은 문서 내의 이벤트를 포괄적으로 추출하는 새로운 방법론인 MODEE를 제안합니다. 기존의 이벤트 추출 방식이 가진 한계점, 즉 특정 도메인에 국한되거나(closed-domain) LLM 활용 시 문서 구조적 맥락을 놓치는 문제를 해결하고자 합니다. MODEE는 그래프 기반 학습과 대규모 언어 모델(LLMs)의 텍스트 표현 능력을 결합하여 문서 전체 수준의 추론을 모델링합니다. 실험 결과, 이 방법은 기존 최신 기술 대비 우수한 성능을 보였으며, 폐쇄 도메인까지 일반화 가능함을 입증했습니다.
TingIS: 엔터프라이즈 규모의 노이즈가 많은 고객 인시던트로부터 실시간 위험 이벤트 발견
대규모 클라우드 네이티브 서비스에서 고객 인시던트 데이터는 중요한 위험 신호원이지만, 노이즈와 복잡성 때문에 활용하기 어렵습니다. 논문 'TingIS'는 이러한 문제를 해결하기 위해 개발된 엔드투엔드 시스템입니다. TingIS는 효율적인 인덱싱 기법과 대규모 언어 모델(LLMs)을 결합한 다단계 이벤트 연결 엔진을 핵심으로 사용합니다. 이 시스템은 2,000 메시지/분 이상의 피크 처리량을 자랑하며, 높은 정확도와 낮은 지연 시간으로 실제 비즈니스 위험을 실시간으로 발견하고 경고할 수 있게 합니다.
단위 운영 확정(Unit Commitment)을 위한 다단계 워밍업 딥러닝 프레임워크
전력망의 안정적인 운영을 위해 필수적인 유닛 커밋먼트(Unit Commitment, UC) 문제는 대규모 혼합 정수 선형 계획법(MILP) 문제입니다. 이 논문은 계산 시간 제약이 심화되는 환경에 대응하기 위해 트랜스포머 기반 아키텍처를 활용한 새로운 다단계 프레임워크를 제안합니다. 72시간 예측을 수행하고, 물리적 제약을 만족시키기 위한 후처리 과정을 거친 뒤, 그 결과를 MILP 솔버의 '워밍업(warm start)' 입력값으로 사용합니다. 이 접근 방식은 탐색 공간을 대폭 줄여 계산 속도를 높이고, 기존 솔버보다 낮은 비용의
Nemobot Games: 대규모 언어 모델(LLM)을 활용한 상호작용 학습을 위한 전략적 AI 게임 에이전트 제작
본 논문은 대규모 언어 모델(LLMs)을 활용하여 AI 게임 프로그래밍의 새로운 패러다임을 제시하는 'Nemobot'이라는 에이전트 엔지니어링 환경을 소개합니다. Nemobot은 사용자가 LLM 기반 게임 에이전트를 직접 만들고 배포할 수 있게 하며, 딕셔너리 기반, 해법 기반, 학습 기반 등 다양한 유형의 게임에서 전략적 행동을 보여줍니다. 특히, 이 플랫폼은 사용자 피드백과 크라우드소싱 데이터를 결합하여 에이전트가 스스로 로직을 개선하는 '자가 프로그래밍(self-programming)'에 근접한 경험을 제공하며, AI 학습 및
확장 가능한 프레임워크를 이용한 확산 모델 기반의 결합 시공간 초해상화
기존의 비디오 초해상도(Super-Resolution) 모델은 특정 공간/시간 배율에 고정되어 있어 다른 조건으로 확장 적용이 어렵다는 한계가 있었습니다. 본 논문에서 제안하는 'Scale-Adaptive Framework'는 이러한 문제를 해결합니다. 이 프레임워크는 시공간 초해상도를 확산 모델(Diffusion Model)과 결정론적 예측을 결합하여 설계했으며, 세 가지 핵심 하이퍼파라미터(노이즈 스케줄 $eta$, 시간 컨텍스트 길이 $L$, 질량 보존 함수 $f$)를 조정함으로써 공간 및 시간 배율에 관계없이 일관되게 작동
연구 질문에서 과학 워크플로우까지: 과학 자동화를 위한 에이전트형 AI 활용
기존의 과학 워크플로우 시스템은 실행(scheduling, resource management)을 자동화하지만, 연구 질문을 실제 워크플로우 사양으로 변환하는 '의미론적 번역' 단계는 여전히 수동 작업이었습니다. 본 논문은 이 격차를 해소하기 위해 에이전트 기반 아키텍처를 제안합니다. 이 시스템은 LLM이 자연어 연구 질문을 구조화된 의도(Intent)로 해석하고, 검증된 생성기가 재현 가능한 워크플로우 DAG를 만들며, 도메인 전문가가 'Skills'라는 지식 레이어를 제공하여 정확성을 극대화합니다. 실험 결과, Skills 도입
프롬프트가 비전을 무시할 때: LVLM에서의 프롬프트 유도 환각
대규모 비전-언어 모델(LVLMs)은 뛰어난 성능에도 불구하고, 시각적 입력에 근거하지 않은 '환각(hallucinations)' 문제에 취약합니다. 본 논문은 이 문제를 해결하기 위해 새로운 벤치마크인 HalluScope를 제안하고, 환각의 주원인이 텍스트 기반 사전 지식(textual priors) 과도한 의존성임을 밝혀냈습니다. 이를 개선하기 위한 방법론으로, 선호도 최적화 (Preference Optimization) 기법을 활용하는 HalluVL-DPO 프레임워크를 제시합니다. 이 방법을 통해 모델이 시각적으로 근거 있는(
Seeing Fast and Slow: 비디오에서 시간의 흐름 학습하기
본 논문은 비디오에서 '시간' 자체를 학습 가능한 시각적 개념으로 다루며, 영상의 재생 속도를 인식하고 조작하는 새로운 방법을 제시합니다. 자가 지도(self-supervised) 방식으로 시간 구조와 멀티모달 단서를 활용하여 속도 변화를 감지하고 재생 속도를 추정하는 모델을 개발했습니다. 이를 기반으로 고화질 슬로우 모션 데이터셋 구축, 특정 속도로 움직임을 생성하는 비디오 생성(speed-conditioned video generation), 그리고 저프레임/흐릿한 영상을 고해상도 프레임 시퀀스로 변환하는 시간 초해상화(temp
계층적 시뮬레이션 기반 추론을 위한 토큰화된 흐름 매칭
시뮬레이터 평가 비용은 시뮬레이션 기반 추론(SBI)의 주요 병목 현상입니다. 특히 전역 및 국소 파라미터를 공유하는 계층적 설정에서는 이 구조를 활용하여 효율성을 높일 수 있습니다. 본 논문은 기존 접근 방식들이 여전히 여러 사이트에서 시뮬레이션을 수행하는 한계를 극복하고자, 우도 분해(Likelihood Factorisation, LF)를 통해 단일 사이트 시뮬레이션만으로 훈련할 수 있는 방법을 제안합니다. 이를 기반으로, 함수 값 관측을 지원하며 계층적 SBI에 적합한 토큰화된 흐름 매칭 접근법인 TFMPE (Tokenised
프롬프트 최적화로 법률 QA 평가 성능 극대화 방안
본 연구는 자유 형식의 법률 질의응답(Legal QA) 평가에서 'LLM을 심판으로 활용하는 방식 (LLM-as-a-judge)'의 효과를 탐구합니다. 특히, 프롬프트 설계와 심판 선택이 평가 결과에 미치는 영향을 분석했습니다. 저자들은 ProTeGi라는 방법을 사용하여 태스크 프롬프트를 자동으로 최적화하고, 이 과정에서 두 명의 가상 심판(Qwen3-32B, DeepSeek-V3)의 피드백을 활용했습니다. 주요 발견으로는, 자동 최적화가 수동 설계보다 일관되게 우수하며, 특히 관대한(lenient) 심판의 피드백이 높은 성능 향상
불완전 인식 환경을 위한 POMDP 안전장치 설계
자율 시스템이 학습된 인식을 기반으로 할 때, 센서 오분류는 위험한 결정을 초래할 수 있습니다. 본 연구는 이러한 상황에 대비하여 '안전장치(shield)'를 설계합니다. 시스템 동역학은 알려져 있지만 인식 불확실성은 제한된 레이블 데이터로부터 추정해야 하는 일반적인 경우를 다룹니다. 이를 위해, 인식 확률의 신뢰 구간을 계산하고 시스템을 이산 상태 및 행동을 가진 유한 간격 부분 관측 마르코프 결정 과정(Interval POMDP)으로 모델링합니다. 연구진은 지금까지의 관찰과 일치하는 보수적인 믿음 집합을 계산하는 알고리즘을 제안
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.