본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 324필터 해제

arXiv논문

불확실성을 걷다: 오디오 인식 대규모 언어 모델의 불확실성 추정에 대한 경험적 연구

본 연구는 오디오 인식 대규모 언어 모델(ALLMs)의 불확실성 추정(uncertainty estimation)에 대한 체계적인 경험적 연구를 제시합니다. 기존 LLM에서 주로 다루어졌던 이 주제를 ALLM 환경, 특히 지각적 모호성과 교차 모드 정합이 필요한 오디오 조건부 생성에 적용하여 새로운 도전 과제를 탐구했습니다. 다양한 엔트로피 기반 방법론과 P(True) 등을 벤치마크하고, 의미 수준 및 검증 기반 방법이 토큰 수준보다 우수하며, 불확실성 추정의 효과성이 모델과 시나리오에 따라 달라진다는 주요 발견을 보고합니다.

audio-llmsuncertainty-estimationcross-modal
5일 전5
arXiv논문

DualFact+: 절차적 비디오 이해를 위한 다중모달 사실 검증 프레임워크

DualFact+는 절차적 비디오 캡셔닝의 사실성(factuality)을 평가하기 위해 설계된 이중 레이어 다중모달 프레임워크입니다. 이 프레임워크는 사실을 추상적인 개념적 사실과 비디오에 기반한 문맥적 사실로 분리하여 분석합니다. DualFact+는 텍스트 증거와 시각적 증거를 모두 활용하는 두 가지 모드(DualFact-T, DualFact-V)를 제공하며, 기존 모델들이 흔히 범하는 사실적 오류나 환각을 체계적으로 검증하고 인간의 판단과 높은 상관관계를 보여줍니다.

multimodalfactualityvideo-captioning
5일 전6
arXiv논문

OxyGent: Oxy 추상화를 통한 다중 에이전트 시스템의 모듈화, 관찰 가능성 및 진화 가능하게 만들기

OxyGent는 복잡한 다중 에이전트 시스템(MAS)의 배포 문제를 해결하기 위해 설계된 오픈소스 프레임워크입니다. 이 프레임워크는 에이전트, 도구, LLM 등을 플러그 가능한 원자적 구성 요소로 캡슐화하는 'Oxy 추상화'를 도입하여 모듈성, 관찰 가능성, 그리고 진화 가능성을 크게 향상시킵니다. OxyGent는 동적 계획을 통해 적응형 시각화를 제공하고, OxyBank를 통합하여 지속적인 시스템 진화를 지원합니다.

multi-agent-systemsllm-frameworkmodularization
5일 전2
arXiv논문

Prefill-Time Intervention for Mitigating Hallucination in Large Vision-Language Models

본 논문은 대형 시공간 언어 모델(LVLMs)의 신뢰성을 저해하는 환각 문제를 해결하기 위해 'Prefill-Time Intervention (PTI)'라는 새로운 패러다임을 제안합니다. 기존 연구들이 디코딩 단계에만 초점을 맞춰 오류 누적을 막지 못했던 한계를 극복하고, 초기 Key-Value(KV) 캐시를 모달리티 인식 방식으로 개선하여 환각의 근원적인 발생 가능성을 수정합니다. PTI는 시각적 객체 기반 키 유도와 배경 노이즈 필터링 값 분리를 통해 뛰어난 성능과 범용성을 입증했습니다.

llmsvision-languagehallucination
5일 전5
arXiv논문

LLM-ReSum: 자기평가 기반 LLM 반성적 요약 프레임워크

LLM의 생성 요약에 대한 신뢰성 있는 평가는 여전히 어려운 과제이며, 본 논문은 이를 해결하기 위해 자기평가 기반의 반성적 요약 프레임워크인 LLM-ReSum을 제안합니다. 광범위한 메타 평가 결과, 전통적인 지표(ROUGE 등)보다 작업 특화 신경 지표와 LLM 기반 평가자가 인간 판단과 더 높은 상관관계를 보였습니다. LLM-ReSum은 폐쇄적 피드백 루프 내에서 생성과 평가를 통합하여 사실 정확도 및 커버리지 측면에서 저품질 요약본을 크게 개선하는 성능을 입증했습니다.

llmsummarizationself-correction
5일 전9
arXiv논문

RADD: 다중 모드 지식 그래프 완성 위한 검색 증강 이산 확산

본 논문은 다중 모드 지식 그래프 완성(MMKGC) 모델에서 발생하는 검색과 의사결정 과정의 병목 현상을 해결하기 위해 RADD(Retrieval-Augmented Discrete Diffusion) 프레임워크를 제안합니다. 기존 방식이 단일 임베딩 스코어로 전역 검색과 로컬 세밀화 작업을 결합하는 한계를 지적하며, RADD는 이 두 과정을 분리하여 성능을 향상시킵니다. 구체적으로 관계 인식 리트리버가 후보군(쇼트리스트)을 생성하고, 조건부 확산 모델이 이를 재순위화하여 정밀도와 검색 능력을 모두 극대화합니다.

knowledge-graphmultimodaldiffusion-model
5일 전5
arXiv논문

CORAL: 문화적 정렬을 위한 다국어 RAG를 위한 적응형 검색 루프

CORAL(COntext-aware Retrieval with Agentic Loop)은 기존 다국어 RAG 시스템이 가진 문화적 맥락 및 지역적 불일치 문제를 해결하기 위해 제안된 적응형 검색 방법론입니다. 이 방법은 증거의 품질을 기반으로 리트리벌 코퍼스와 쿼리를 반복적으로 개선하는 루프를 포함합니다. 이를 통해 기존 mRAG 방식보다 더 높은 문화적 관련성을 갖춘 답변 생성이 가능하며, 저자원 언어 QA 벤치마크에서 상당한 성능 향상을 입증했습니다.

ragmultilingual-ragretrieval-augmented-generation
5일 전3
arXiv논문

소프트웨어 취약점 탐지를 위한 일반화 가능한 멀티모달 표현 학습

본 논문은 소프트웨어 취약점 탐지 성능을 높이기 위해 소스 코드와 주석이라는 두 가지 모드를 결합하는 멀티모달 학습 프레임워크인 MultiVul을 제안합니다. 기존 방법들이 단일 모드(코드만)에 의존하여 개발자의 의도 정보가 담긴 주석의 보완적 의미를 간과했던 한계를 극복하고자 합니다. MultiVul은 이중 유사도 학습 및 일관성 정규화를 통해 코드와 주석 표현을 효과적으로 정렬하며, 다양한 LLM(DeepSeek-Coder, Qwen2.5-Coder 등)에서 기존 방법 대비 높은 성능 향상을 입증했습니다.

software-securityvulnerability-detectionmultimodal-learning
5일 전5
arXiv논문

Skill Graphs 를 통한 확장 가능한 터미널 작업 합성으로 나아가기

본 논문은 자율적인 커맨드 라인 실행 능력을 가진 터미널 에이전트의 훈련 데이터 부족 문제를 해결하기 위해 SkillSynth라는 자동화 프레임워크를 제안합니다. SkillSynth는 시나리오 매개 기술 그래프(skill graph)를 구축하여, 다양한 명령어 기술을 연결하는 경로를 샘플링하고 이를 실제 실행 가능한 작업 인스턴스로 합성합니다. 이 방식을 통해 에이전트가 훈련 과정에서 경험해야 할 최소한의 실행 궤적 다양성을 명시적으로 제어할 수 있어, 터미널 기반 환경에서의 에이전트 성능 향상에 기여합니다.

terminal-agentsskill-graphtask-synthesis
5일 전3
arXiv논문

보안 평가를 위한 위협 지향적 디지털 트윈링

본 논문은 학습 기반 자율 플랫폼의 사이버보안 평가를 위한 '위협 지향적 디지털 트윈링(Threat-Oriented Digital Twinning)' 방법론을 제시합니다. 이 접근법은 감지, 자율성, 감독 제어 기능이 분리된 모듈형 트윈으로 구현되며, 스포핑, 리플레이, 적대적 ML 스트레스 등 다양한 위협 시나리오를 재현 가능한 테스트로 변환하여 분석할 수 있게 합니다. 특히 UAV 및 우주 시스템과 같은 제한적인 환경에서 신뢰성 있고 안전한 자율성을 연구하는 데 적용 가능한 연구 스캐폴드를 제공합니다.

cybersecuritydigital-twinautonomous-systems
5일 전5
arXiv논문

ADEMA: LLMAgents 를 활용한 장기적 지식 합성을 위한 지식 상태 오케스트레이션 아키텍처

ADEMA는 장기적이고 복잡한 LLM 작업에서 발생하는 지식 상태의 표류 및 증거 사슬 파단 문제를 해결하기 위해 제안된 지식 상태 오케스트레이션 아키텍처입니다. 이 아키텍처는 명시적인 인식 회계, 다중 평가자 거버넌스, 적응형 모드 전환, 그리고 체크포인트 재개 가능 지속성 등의 핵심 메커니즘을 결합합니다. ADEMA의 주요 목표는 단순히 에이전트를 관리하는 것을 넘어, 지식 생성 과정 자체를 구조화하고 추적 가능한 아티팩트 진행을 보장하여 장기적인 지식 합성을 가능하게 하는 것입니다.

llm-agentsknowledge-synthesisorchestration-architecture
5일 전5
arXiv논문

오류 민감도 프로파일 (ESP) 를 활용한 분류 모델의 민감도 측정

본 논문은 머신러닝 모델의 성능을 결정하는 학습 데이터 품질 문제를 다루며, 오류 민감도 프로파일(Error Sensitivity Profile, ESP)이라는 새로운 지표를 제안합니다. ESP는 단일 또는 여러 특징에 존재하는 오류가 모델 성능에 미치는 민감도를 정량화하여, 데이터 정제 노력을 가장 효과적인 오류 유형과 특징에 집중할 수 있도록 우선순위를 제공합니다.

machine-learningdata-qualityerror-sensitivity
5일 전4
arXiv논문

StratFormer: 불완전 정보 게임에서의 적응적 상대 모델링 및 활용

StratFormer는 불완전 정보 게임에서 상대를 동시에 모델링하고 이를 전략적으로 활용하는 트랜스포머 기반 메타 에이전트입니다. 이 모델은 두 단계 커리큘럼을 통해, 초기에는 GTO 정책에 따라 상대의 행동 패턴을 학습하며, 점차 각 상대별로 최적 응답(BR) 활용으로 전환됩니다. Leduc Hold'em과 같은 포커 게임 변형에서 테스트된 StratFormer는 기존 GTO 대비 평균적으로 상당한 수준의 활용 가능성 증가를 달성하여 높은 성능을 입증했습니다.

game-theorymeta-agenttransformer
5일 전1
arXiv논문

MAIC-UI: 생성형 UI 를 활용한 인터랙티브 교재 제작

MAIC-UI는 교과서, PPT, PDF 등 다양한 자료를 활용하여 인터랙티브 STEM 교재를 제작하고 빠르게 편집할 수 있는 제로 코드(zero-code) 작성 시스템입니다. 기존 도구들이 정적 콘텐츠 생성에 그치거나 긴 문서 처리 및 수정 과정에서 비효율성을 보였던 문제를 해결했습니다. 이 시스템은 다중 모달 이해를 통해 교수학적 엄밀성을 확보하고, 증분 생성을 활용한 빠른 편집 사이클을 제공하여 교육자들의 창의적인 흐름을 유지할 수 있도록 돕습니다.

interactive-learninggenerative-aiedtech
5일 전3
arXiv논문

심장의 가장자리: 우주비행사를 위한 스마트 헬스 센서에서 실시간 심박수 특징 추출을 위한 ULP FPGA 기반 CNN

본 기술 기사는 제한된 전력과 컴퓨팅 자원을 가진 웨어러블 헬스 센서, 특히 우주 환경에 적합한 초저전력(ULP) FPGA 기반 CNN 솔루션을 제시합니다. 이 시스템은 심장 신호(SCG) 특징을 실시간으로 추출하기 위해 양자화 인식 훈련과 심박형 배열 가속기를 결합했습니다. Lattice iCE40UP5K FPGA를 사용하여 구현된 결과, 높은 정확도(98%)와 낮은 전력 소비(8.55 mW), 빠른 추론 속도(95.5 ms)를 달성하여 장기 우주 임무 중 자율적인 건강 모니터링을 가능하게 합니다.

ulp-fpgacnnscg
5일 전3
arXiv논문

Luminol-AIDetect: 텍스트 셔플링 기반 혼란도 (Perplexity) 를 활용한 빠른 제로샷 기계 생성 텍스트 탐지

Luminol-AIDetect는 기계 생성 텍스트(MGT)를 탐지하기 위해 텍스트 셔플링 기반의 혼란도(Perplexity) 변화를 활용하는 새로운 제로샷 통계적 접근법입니다. 이 방법은 대규모 언어 모델이 가진 구조적 취약점을 이용해, 무작위 셔플링 시 발생하는 혼란도의 특징적인 분산 패턴을 분석합니다. 실험 결과, Luminol-AIDetect는 기존 방식보다 월등히 낮은 거짓 양성률(FPR)로 높은 성능과 효율성을 입증했습니다.

machine-generated-textperplexitynlp
5일 전1
arXiv논문

RESTestBench: NL 요구사항에서 생성된 LLM 기반 REST API 테스트 케이스의 효과성을 평가하기 위한 벤치마크

RESTestBench는 자연어(NL) 요구사항에서 생성된 LLM 기반 REST API 테스트 케이스의 효과성을 평가하기 위해 설계된 새로운 벤치마크입니다. 이 벤치마크는 정밀하고 모호한 두 가지 변형을 모두 포함하는 세 개의 REST 서비스를 사용하며, 요구사항 기반 변이 테스트(requirements-based mutation testing)라는 독창적인 지표를 도입하여 생성된 테스트 케이스의 고장 탐지 효과성을 측정합니다. 연구 결과에 따르면, LLM이 실제 시스템 하위 요소(SUT)와 상호작용하는 'refinement' 방식은 테스트 효과성 측면에서 항상 이점을 제공하지 않으며, 특히 모호한 요구사항에서는 오히려 불리할 수 있음을 보여줍니다.

rest-apillmtesting
5일 전4
arXiv논문

오류가 유익할 수 있을 때: 정책 경사 (Policy Gradient) 를 위한 불완전한 보상 분류

본 연구는 언어 모델 학습에서 흔히 사용되는 불완전한 대용 보상(Imperfect Proxy Rewards)의 한계를 다룹니다. 기존 방식은 모든 보상 오류를 유해하게 취급하지만, 본 논문은 참값으로부터의 편차가 항상 부정적이지 않음을 이론적으로 분석합니다. 특히 정책 경사 최적화 과정에서 발생하는 일부 보상 오류는 오히려 모델이 평균적인(mediocre) 성능에 머무르는 것을 방지하여 무해하거나 심지어 유익할 수 있음을 입증했습니다.

reinforcement-learninglanguage-modelspolicy-gradient
5일 전6
arXiv논문

한 명도 뒤처지지 않습니다: 적응형 신호등 제어를 위한 취약 도로 이용자 실시간 탐지 및 추적

본 기술 기사는 취약 도로 이용자(VRU)의 안전을 향상시키기 위한 실시간 적응형 교통 신호 시스템인 'No Pedestrian Left Behind (NPLB)'를 제안합니다. NPLB는 YOLOv12와 ByteTrack 추적 알고리즘을 사용하여 교차로에서 VRU를 모니터링하고, 필요할 때 보행자 신호 타이밍을 자동으로 연장하는 적응형 컨트롤러를 통합했습니다. 몬테 카를로 시뮬레이션 결과, 이 시스템은 VRU 안전성을 크게 향상시키고 고립률을 현저히 낮추는 효과를 입증했습니다.

adaptive-traffic-controlvru-detectionyolov12
5일 전1
arXiv논문

단편 영상 추천을 위한 행동 인식 생성 시퀀스 모델링

본 논문은 단편 영상 콘텐츠의 복잡한 사용자 선호도를 포착하기 위해 행동 인식 생성 시퀀스 모델링 패러다임을 제안합니다. 사용자의 소비가 시간적 과정이라는 점에 착안하여, Action-Aware Generative Sequence Network (A2Gen)을 개발했습니다. 이 모델은 Context-aware Attention Module (CAM), Hierarchical Sequence Encoder (HSE), 그리고 Action-seq Autoregressive Generator (AAG)를 통합하여 사용자 행동 시퀀스를 정교하게 학습하고 예측합니다. 실제 대규모 온라인 A/B 테스트에서 시청 시간, 상호작용률 등 주요 지표에서 유의미한 성능 개선을 입증하며 실질적인 서비스 가치를 제시했습니다.

recommendation-systemsequence-modelinggenerative-ai
5일 전5

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.