본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 371필터 해제

arXiv중요논문

양자화 인식 이미지 개선: 모바일 환경 최적화를 위한 새로운 접근법

모바일 기기에서 고품질 이미지를 빠르게 처리하는 것은 큰 과제입니다. 기존의 이미지 향상 모델은 저정밀도(low-precision)로 변환될 때 성능이 급격히 떨어지는 '훈련-배포 격차'를 겪습니다. 본 논문에서는 이 문제를 해결하기 위해 게이트 인코딩과 다중 스케일 정제 기법을 결합한 효율적인 모델을 제안합니다. 특히, 양자화 인식 학습(Quantization-Aware Training, QAT)을 도입하여 실제 모바일 환경의 저정밀도 영향을 미리 시뮬레이션함으로써, 높은 화질 유지와 낮은 연산 오버헤지를 동시에 달성하는 방법을

image enhancementquantization-aware trainingmobile ai
4월 24일2
arXiv중요논문

AI 에이전트 코딩의 다음 단계: 지식 기반(Epistemic Grounding) 문서 도입

최근 AI 코딩 도구는 단순한 채팅 기반을 넘어, 개발자가 계획을 세우고 AI 에이전트가 이를 구현하는 '에이전틱' 방식으로 발전하고 있습니다. 본 글은 여기에 한 단계 더 나아가, 프로젝트 전체의 지식적 근거를 명시적으로 주입할 수 있는 'GROUNDING.md' 개념을 제안합니다. 이 문서는 과학적 정확성(Hard Constraints)과 커뮤니티 합의 규칙(Convention Parameters)을 정의하여, 사용자가 어떤 프롬프트를 넣더라도 시스템이 반드시 지켜야 할 핵심 원칙을 강제함으로써 코드의 신뢰도를 극대화하는 것이목

ai-agentscodingepistemic grounding
4월 24일2
arXiv중요논문

추론 과정 최적화: 추론 스킬을 검색하여 정확도와 효율성을 높이다

기존의 LLM 기반 추론(CoT)은 복잡한 문제 해결 시 긴 중간 과정을 생성하는 데 많은 토큰을 소모합니다. 이 논문은 이러한 문제를 해결하기 위해, 광범위한 탐색과 시행착오를 통해 얻은 '재사용 가능한 추론 스킬'을 요약하고 저장하여 검색(Retrieval) 기반으로 활용하는 방법을 제안합니다. 이를 통해 모델이 매번 처음부터 추론하는 대신 관련 스킬을 불러와 사용함으로써, 토큰 소모는 줄이고 문제 해결 정확도는 높일 수 있습니다.

llmreasoningcot
4월 24일2
arXiv중요논문

LLM 벤치마크의 한계와 사용자 중심 평가 시스템 제안

현재 LLM 리더보드는 벤치마크 설계자가 설정한 우선순위에 의해 모델을 비교하며, 단일 점수는 모델의 다양한 성능 특성을 가립니다. 본 논문은 LMArena (구 Chatbot Arena) 데이터셋을 분석하여 이러한 평가 편향성을 지적하고, 사용자가 직접 프롬프트 슬라이스(prompt slices)를 선택하고 가중치를 부여해 원하는 방식으로 모델 순위를 확인할 수 있는 인터랙티브 시각화 인터페이스를 제안합니다. 이는 LLM 평가의 투명성과 맥락 적합성을 높여, 실제 사용자 요구에 맞는 새로운 리더보드 설계 방향을 제시합니다.

llmbenchmarkevaluation
4월 24일3
arXiv논문

타임스탬프 데이터에서 고수준 이벤트 추론 방법론 (논문 요약)

본 논문은 타임스탬프가 기록된 데이터를 활용하여 단순한 시간적 사건을 넘어선 '고수준의 장기적 이벤트(meta-events)'를 탐지하는 새로운 로직 기반 프레임워크를 제안합니다. 이 방법론은 논리 규칙을 사용하여 사건의 존재 및 종료 조건을 포착하고, 이를 조합해 복합적인 메타이벤트를 구성합니다. 특히 의료 분야에서 진단 기록이나 약물 투여 같은 임상 관찰 데이터를 활용하여 질병 에피소드나 치료 과정을 추론할 수 있으며, 잘못된 이벤트 추론을 방지하기 위해 제약 조건(constraints)과 수정 메커니즘(repair)을 도입하여

temporal-reasoningknowledge-graphmedical-ai
4월 24일2
arXiv논문

항공 이미지 분석의 새로운 표준, SyMTRS 데이터셋 공개

원격 감지(Remote Sensing) 분야의 핵심 난제였던 대규모 주석 데이터 부족 문제를 해결할 혁신적인 합성 데이터셋 'SyMTRS'가 발표되었습니다. 이 데이터셋은 2048x2048 해상도의 고화질 RGB 항공 이미지와 함께, 깊이 지도(Depth Map), 야간 환경 변환을 위한 영역 적응(Domain Adaptation) 쌍, 그리고 x2, x4, x8 배율의 저해상도 이미지를 완벽하게 제공합니다. SyMTRS는 단일 태스크가 아닌 기하학적 이해, 도메인 간 강건성, 해상도 향상을 통합적으로 연구할 수 있는 다중 작업 벤

remote-sensingsynthetic dataaerial imagery
4월 24일2
arXiv중요논문

캡슐 내시경 영상 분석의 새로운 패러다임: DiCE 프레임워크

기존 캡슐 내시경(CE) 연구는 주로 단일 프레임 분류에 머물러 있어, 장시간 비디오 기반 진단이 어려웠습니다. 본 논문은 '진단 주도형 CE 영상 요약'이라는 새로운 과제를 정의하고, 이를 해결하기 위해 DiCE라는 임상 의사 흐름을 모방한 프레임워크를 제안합니다. 240개의 실제 임상 보고서 기반 데이터셋 VideoCAP을 활용하여 개발된 DiCE는 방대한 정상 프레임 속에서 핵심 병변 증거를 추출하고, 이를 진단적 맥락으로 묶어 신뢰도 높은 요약본을 생성하며 기존 SOTA 대비 우수한 성능을 입증했습니다.

capsule endoscopymedical aivideo summarization
4월 24일3
arXiv중요논문

LLM 에이전트 효율 극대화: Tool Attention 아키텍처 소개

기존 LLM 에이전트 워크플로우에서 외부 도구 연결을 위해 사용되던 Model Context Protocol (MCP)은 매 턴마다 방대한 스키마 정보를 로드해야 하는 'Tools Tax' 문제를 안고 있습니다. Tool Attention은 이 문제를 해결하기 위해 어텐션(Attention) 패러다임을 도구 게이팅으로 확장한 미들웨어 레이어입니다. Intent Schema Overlap (ISO) 점수, 상태 인식 게이팅 함수, 2단계 지연 스키마 로딩을 결합하여, 필요한 도구의 전체 JSON 스키마를 최소화하고 컨텍스트 사용량을

llm-agenttool-attentioncontext-window
4월 24일2
arXiv논문

AI 정렬 연구의 새로운 패러다임: '환상적 상호작용' 문제 제기

현대 AI 비서들은 사용자가 명확한 목표를 제시한다고 가정하고 작동합니다. 하지만 실제 인간의 의사결정 과정은 모호하고 점진적이어서, 사용자의 초기 프롬프트가 곧 최종 의도를 대변하지 못하는 '환상적 상호작용(Fantasia interactions)' 문제가 발생합니다. 본 논문은 AI 정렬 연구가 사용자에게 단순한 명령 수행자가 아닌, 목표를 형성하고 다듬도록 돕는 인지적 지원자(cognitive support) 역할을 해야 한다고 주장하며, ML, 인터페이스 디자인, 행동 과학을 융합한 새로운 접근법을 제시합니다.

ai-alignmentcognitive supporthuman-computer-interaction
4월 24일3
arXiv논문

단일 자극 기반의 모달 간 수렴성 조절 연구

본 논문은 신경망이 다양한 모달리티(Modalities)를 학습할 때 나타나는 '표현적 수렴성(representational convergence)' 현상을 분석합니다. 특히, 단일 자극(single-stimulus) 수준에서 각 모달 내의 분산도(intra-modal dispersion)가 시각 모델과 언어 모델 간의 교차 모달 수렴성(cross-modal convergence)을 강력하게 조절함을 발견했습니다. 즉, 특정 자극에 대해 여러 비전 모델이 높은 일치도를 보일수록 (낮은 intra-modal dispersion), 이

cross-modalrepresentational_convergencevision-language
4월 24일3
arXiv중요논문

TraceScope: 상호작용형 URL 분석을 위한 새로운 프레임워크

기존의 정적(static) URL 분류기가 놓치던, 인터랙티브한 피싱 공격에 대응하기 위해 'TraceScope'를 제안합니다. TraceScope는 샌드박스 환경에서 GUI 브라우저를 구동하는 오퍼레이터 에이전트가 페이지 행동을 기록하고, 별도의 어드저커 에이전트가 MITRE ATT&CK 체크리스트 기반으로 증거를 검증하여 보고서를 생성합니다. 이 시스템은 기존 대비 높은 재현성(reproducible)과 정확도를 보여주며, 실제 피싱 환경에서도 우수한 성능을 입증했습니다.

phishingurl triageai agents
4월 24일3
arXiv논문

AI 위험 규제를 위한 통계적 인증 프레임워크 제시

본 논문은 AI 시스템의 안전성 검증에 필요한 기술적 공백을 메우는 새로운 접근 방식을 제안합니다. 현행 EU AI Act 등 규제들이 고위험 AI 시스템의 안전성을 요구하지만, '허용 가능한 위험'을 정량적으로 측정하고 이를 증명할 수 있는 방법론이 부재합니다. 저자들은 항공기 인증 패러다임을 차용하여 2단계 프레임워크를 제시하며, 모델 내부 접근 없이도 시스템의 실제 실패율에 대한 감사 가능하고 확정적인 상한(upper bound)을 계산하는 통계적 검증 도구(RoMA, gRoMA)를 개발했습니다. 이는 규제 준수 의무를 개발사

ai-riskcertificationstatistical-verification
4월 24일3
arXiv중요논문

LLM의 '일회성' 대화 취약점 공격 기법 (TTI) 분석

최근 LLM이 민감한 워크플로우에 통합되면서, 모델의 적대적 견고성과 안전성이 중요해졌습니다. 본 논문은 새로운 다중 턴(multi-turn) 공격 기법인 Transient Turn Injection (TTI)을 소개합니다. TTI는 지속적인 대화 맥락 유지 없이도 여러 독립적인 상호작용에 걸쳐 악의적인 의도를 분산시켜 모델의 상태 비저장성(stateless moderation) 취약점을 체계적으로 공격합니다. 이 연구는 OpenAI, Anthropic, Google Gemini 등 주요 LLM들을 대상으로 광범위한 평가를 진행하여

llmadversarial_attacksecurity
4월 24일3
arXiv중요논문

노이즈에 강한 양자 회로 최적화를 위한 리플레이 버퍼 설계

본 논문은 깊은 강화학습 (Deep Reinforcement Learning, RL)을 활용한 양자 회로 최적화의 세 가지 주요 병목 현상을 해결하는 새로운 방법을 제시합니다. 핵심적으로 'ReaPER+'라는 적응형 리플레이 규칙을 도입하여 샘플 효율성을 획기적으로 개선하고, OptCRLQAS를 통해 느린 양자-고전 평가 과정을 가속화했습니다. 또한, 노이즈가 없는 궤적(noiseless trajectories)을 재활용하는 전송 기법으로 학습 단계를 대폭 줄여, 복잡한 분자 모델링 작업에서 높은 에너지 정확도를 달성했음을 보여주며

reinforcement-learningquantum-computingoptimization
4월 24일3
arXiv중요논문

카메라 이미지의 진위성 확보: 생성형 AI 시대의 새로운 접근

생성형 AI(GenAI) 기술이 카메라 이미지에 깊숙이 통합되면서, 딥러닝 기반의 이미지 처리 과정에서 '환각(hallucinated)' 콘텐츠가 발생할 위험성이 커졌습니다. 본 논문은 사용자가 촬영한 이미지가 실제 원본과 다르게 변질되었을 가능성을 해결하기 위해 개발되었습니다. 제안된 방식은 카메라 ISP에 의존하지 않고, 포스트-캡처 단계에서 이미지의 '환각되지 않은' (unhallucinated) 버전을 복원할 수 있는 인코더와 MLP 디코더를 제공합니다. 이 모델은 저장 공간을 최소화하여 JPEG나 HEIC 같은 표준 이미지

ai-toolsimage-processinggenerative-ai
4월 24일3
arXiv논문

문서 기반 이벤트 추출: 멀티모달 텍스트 및 그래프 학습 접근법

본 논문은 문서 내의 이벤트를 포괄적으로 추출하는 새로운 방법론인 MODEE를 제안합니다. 기존의 이벤트 추출 방식이 가진 한계점, 즉 특정 도메인에 국한되거나(closed-domain) LLM 활용 시 문서 구조적 맥락을 놓치는 문제를 해결하고자 합니다. MODEE는 그래프 기반 학습과 대규모 언어 모델(LLMs)의 텍스트 표현 능력을 결합하여 문서 전체 수준의 추론을 모델링합니다. 실험 결과, 이 방법은 기존 최신 기술 대비 우수한 성능을 보였으며, 폐쇄 도메인까지 일반화 가능함을 입증했습니다.

event-extractionllmmultimodal
4월 24일2
arXiv중요논문

TingIS: 대규모 엔터프라이즈 환경의 실시간 리스크 이벤트 발견 시스템

대규모 클라우드 네이티브 서비스에서 고객 인시던트 데이터는 중요한 위험 신호원이지만, 노이즈와 복잡성 때문에 활용하기 어렵습니다. 논문 'TingIS'는 이러한 문제를 해결하기 위해 개발된 엔드투엔드 시스템입니다. TingIS는 효율적인 인덱싱 기법과 대규모 언어 모델(LLMs)을 결합한 다단계 이벤트 연결 엔진을 핵심으로 사용합니다. 이 시스템은 2,000 메시지/분 이상의 피크 처리량을 자랑하며, 높은 정확도와 낮은 지연 시간으로 실제 비즈니스 위험을 실시간으로 발견하고 경고할 수 있게 합니다.

ai-agentsenterprise-aillm
4월 24일3
arXiv중요논문

전력 시스템 최적화를 위한 다단계 워밍업 딥러닝 프레임워크

전력망의 안정적인 운영을 위해 필수적인 유닛 커밋먼트(Unit Commitment, UC) 문제는 대규모 혼합 정수 선형 계획법(MILP) 문제입니다. 이 논문은 계산 시간 제약이 심화되는 환경에 대응하기 위해 트랜스포머 기반 아키텍처를 활용한 새로운 다단계 프레임워크를 제안합니다. 72시간 예측을 수행하고, 물리적 제약을 만족시키기 위한 후처리 과정을 거친 뒤, 그 결과를 MILP 솔버의 '워밍업(warm start)' 입력값으로 사용합니다. 이 접근 방식은 탐색 공간을 대폭 줄여 계산 속도를 높이고, 기존 솔버보다 낮은 비용의

milpunit commitmentdeep learning
4월 24일2
arXiv논문

Nemobot: LLM 기반 전략적 게임 에이전트 개발 환경 소개

본 논문은 대규모 언어 모델(LLMs)을 활용하여 AI 게임 프로그래밍의 새로운 패러다임을 제시하는 'Nemobot'이라는 에이전트 엔지니어링 환경을 소개합니다. Nemobot은 사용자가 LLM 기반 게임 에이전트를 직접 만들고 배포할 수 있게 하며, 딕셔너리 기반, 해법 기반, 학습 기반 등 다양한 유형의 게임에서 전략적 행동을 보여줍니다. 특히, 이 플랫폼은 사용자 피드백과 크라우드소싱 데이터를 결합하여 에이전트가 스스로 로직을 개선하는 '자가 프로그래밍(self-programming)'에 근접한 경험을 제공하며, AI 학습 및

ai-agentsllmgame-ai
4월 24일3
arXiv중요논문

확장 가능한 확산 모델 기반 시공간 초해상도 프레임워크

기존의 비디오 초해상도(Super-Resolution) 모델은 특정 공간/시간 배율에 고정되어 있어 다른 조건으로 확장 적용이 어렵다는 한계가 있었습니다. 본 논문에서 제안하는 'Scale-Adaptive Framework'는 이러한 문제를 해결합니다. 이 프레임워크는 시공간 초해상도를 확산 모델(Diffusion Model)과 결정론적 예측을 결합하여 설계했으며, 세 가지 핵심 하이퍼파라미터(노이즈 스케줄 $eta$, 시간 컨텍스트 길이 $L$, 질량 보존 함수 $f$)를 조정함으로써 공간 및 시간 배율에 관계없이 일관되게 작동

super-resolutiondiffusion modelspatiotemporal
4월 24일2

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.