Insights

변화점 탐지를 통한 인간-LLM 공동 작성 텍스트 분할

LLM 발전으로 인해 인간과 LLM이 공동 작성한 텍스트에서 각 부분을 정확히 분리하는 것이 중요해졌습니다. 본 논문은 이러한 문제를 해결하기 위해, 텍스트를 인간 작성 부분과 LLM 작성 부분으로 분할하는 알고리즘을 제안합니다. 이 접근 방식은 시간계열 분석의 변화점 탐지(change point detection) 개념을 차용하여, 공동 작성 텍스트 내에서 출처가 바뀌는 지점을 효과적으로 식별하고 성능을 입증했습니다.

5월 6일7

당신이 생각하는 것은 당신이 보는 것: 시각 - 언어적 호기심을 통해 VLM 에이전트의 탐색 유도

본 연구는 VLM(Visual Language Model) 에이전트가 단순히 관측된 정보에 의존하는 것을 넘어, 능동적인 호기심 기반 탐색을 통해 내부 세계 모델을 개선할 수 있는 방법을 제시합니다. 제안된 GLANCE 프레임워크는 에이전트의 언어적 예측과 시각적 현실 간의 불일치를 활용하여 내재적 호기심 신호를 생성하고, 이를 강화 학습(RL) 과정에 통합합니다. 이 접근 방식은 에이전트가 내부 모델이 불확실한 영역을 능동적으로 탐색하도록 유도함으로써, 복잡하거나 희소 보상 환경에서의 일반화 성능을 크게 향상시킵니다.

5월 6일12

TRACE: 운영적 중요 분야에서 신뢰할 수 있는 에이전트 AI 시스템에 대한 계량학적 기반 공학 프레임워크

본 기술 기사는 운영적으로 중요한 분야를 위한 '신뢰할 수 있는 에이전트 AI' 개발을 목표로 하는 교차 도메인 공학 프레임워크인 TRACE를 소개합니다. TRACE는 네 가지 레이어의 참조 아키텍처, 고전 ML과 LLM 검증기 분리(L2a/L2b), 상태 기반 오케스트레이션 및 에스컬레이션 정책을 포함합니다. 특히 GUM/VIM/ISO 17025에 매핑된 계량적 신뢰 지표와 계산적 간결성 비율(CPR)이라는 새로운 설계 원칙을 도입하여, AI 시스템의 신뢰성과 투명성을 공학적으로 확보하는 방법을 제시합니다.

미션 지시, 군집 실행: 웹 오브 드론에서의 에이전트 강화 LLM 추론

본 논문은 사용자의 자연어 미션 목표를 받아 시스템이 자율적으로 실행하는 에이전트 강화 LLM 프레임워크를 제시하며, 이를 웹 오브 드론(Web of Drone) 환경에 적용했습니다. 이 프레임워크는 LLM 기반 에이전트 코어와 W3C WoT 표준을 결합하여 드론, 센서, 서비스를 표준화된 'Thing'으로 노출함으로써 코드 생성 없이도 구조화된 상호작용과 안전한 액추에이션을 가능하게 합니다. 실험 결과, 일반 목적 LLM만으로는 신뢰할 수 있는 군집 작업을 수행하기 어려우며, 미션 특화 계획 도구와 런타임 가드레일이 필수적임을 입증했습니다.

5월 6일15

ScrapMem: 광학 망각을 통한 에지 디바이스 상용 개인화 에이전트 메모리 프레임워크

ScrapMem은 자원이 제한된 엣지 디바이스에서 대규모 언어 모델(LLM) 에이전트의 장기 개인화 메모리 문제를 해결하기 위해 설계된 프레임워크입니다. 이 프레임워크는 '광학 망각(Optical Forgetting)'이라는 압축 메커니즘을 도입하여 오래된 기억의 해상도를 점진적으로 줄여 저장 비용을 획기적으로 낮춥니다. 또한, 주요 사건들을 인과-시간적 구조로 조직하는 Episodic Memory Graph (EM-Graph)를 구축하여 높은 성능과 뛰어난 메모리 효율성을 동시에 달성합니다.

Agentic-imodels: 에이전트 해석 가능성 도구를 자동 연구 루프로 진화시키는 방법

Agentic-imodels는 데이터 과학 분야에서 에이전트가 자체적으로 해석할 수 있는 도구를 진화시키도록 설계된 자동 연구 루프입니다. 기존 시스템들이 인간 중심의 통계 도구에 의존하는 것과 달리, 이 프레임워크는 에이전트가 직접 활용하고 개선할 수 있도록 최적화된 데이터 과학 도구를 개발합니다. 구체적으로, scikit-learn 호환 회귀기 라이브러리를 제공하며 예측 성능과 LLM 기반의 해석 가능성 지표를 동시에 향상시키는 것을 목표로 합니다.

5월 6일14

SOAR: 로보틱 모바일 fulfillment 시스템에서의 주문 할당 및 로봇 스케줄링 실시간 공동 최적화

본 논문은 로보틱 모바일 Fulfillment Systems (RMFS)의 효율성을 극대화하기 위해 주문 할당과 로봇 스케줄링을 실시간으로 공동 최적화하는 SOAR 프레임워크를 제안합니다. 기존 방법들이 직면했던 응답성 및 전역 최적성 간의 상충 관계 문제를 해결하고자 합니다. SOAR는 이 복잡한 시스템을 이벤트 기반 마르코프 결정 과정(MDP)으로 형식화하고, 심층 강화학습과 Heterogeneous Graph Transformer를 결합하여 비동기 환경에서 동시 스케줄링을 수행합니다.

기계적 양심: 기계 지능의 신뢰성 수학적 프레임워크

본 논문은 분산 협력 지능(DCI) 시스템의 구조적으로 피할 수 없는 위험 문제를 해결하기 위해 '기계적 양심(Mechanical Conscience, MC)'이라는 새로운 수학적 프레임워크를 제안합니다. MC는 단일 에이전트 및 다중 에이전트 DCI 환경 모두에서 행동 궤적 전체에 걸쳐 규범적인 허용 가능성을 보장하는 감시 필터 역할을 합니다. 이 프레임워크는 누적 편차를 최소화하여 시스템의 안전성과 신뢰성을 향상시키며, 해석 가능한 '양심 점수'와 같은 새로운 개념들을 도입합니다.

단순 정답만 맞다고 좋은 것은 아니다: 실행기 기반 보상과 함께 추론 플래너 훈련

본 논문은 단순히 최종 정답의 정확성만으로는 대규모 언어 모델(LLM)의 추론 과정의 품질이나 신뢰성을 충분히 반영할 수 없다는 문제를 지적하며, 이를 해결하기 위해 플래너-실행기 훈련 프레임워크인 TraceLift를 제안합니다. TraceLift는 LLM이 생성하는 추론을 소비 가능한 중간 산출물로 취급하고, 고정된 실행기를 통해 이 추론을 검증하여 '실행기 기반 보상'을 계산합니다. 이 보상은 단순히 정답 여부뿐만 아니라, 추론의 품질과 유용성을 측정하여 모델이 높은 품질의 중간 추형을 생성하도록 훈련시킵니다.

5월 6일20

MCJudgeBench: 다중 제약 지시 따르기 평가에서 제약 수준으로의 판사 평가 벤치마크

MCJudgeBench는 다중 제약 지시 따르기(Multi-constraint instruction following)에서 LLM의 판사 평가를 개선하기 위해 개발된 새로운 벤치마크입니다. 기존에는 전체 응답에 대한 판단만 내려졌으나, MCJudgeBench는 개별 제약 조건 수준에서의 상세한 라벨링을 제공합니다. 이 벤치마크는 정확성뿐 아니라 프롬프트 및 응답 변형 하의 '불일치성'까지 측정하여 LLM 판사의 신뢰성이 다차원적임을 입증하며, 강력한 성능이 항상 일관된 안정성을 보장하지 않음을 보여줍니다.

EvoLM: 외부 감독 없이 자체 진화하는 언어 모델

EvoLM은 외부 인간 주석이나 독점 API에 의존하지 않고 언어 모델이 자체적으로 평가 능력을 진화시키는 새로운 프레임워크입니다. 이 방법은 판례 생성기(case generator)를 통해 최적화된 판별적 기준을 만들고, 이를 기반으로 보상 신호를 구성하여 정책을 훈련합니다. EvoLM은 Qwen3-8B 모델과 OLMo3-Adapt 시리즈에서 GPT-4.1 및 기존 최고 성능의 보상 모델 대비 높은 성능 향상을 입증하며, 모델 자체의 평가 능력만으로도 강력한 자기 개선이 가능함을 보여줍니다.

5월 6일13

QKVShare: 에지 디바이스 멀티 에이전트 LLM 을 위한 양자화된 KV-Cache 손절

QKVShare는 엣지 디바이스 환경에서 멀티 에이전트 LLM을 위한 효율적인 KV-Cache 손절 프레임워크입니다. 이 프레임워크는 토큰 단위 혼합 정밀도 할당, 자체 포함 CacheCard 표현, 그리고 HuggingFace 호환 캐시 주입 경로를 결합하여 기존의 비용이 많이 드는 재-프리필 또는 전역 KV 전송 방식의 한계를 극복합니다. 실험 결과에 따르면, QKVShare는 특히 반복적인 손절 상황에서 적응형 양자화가 경쟁력을 유지하며, 깊은 홉과 높은 예산 설정에서 균일 양자화 대비 명확한 이점을 보여주며, 재-프리필 방식보다 낮은 지연 시간을 달성합니다.

맥락적 다목적 최적화: 프론티어 AI 시스템의 목표 재고

프론티어 AI 시스템은 명확하고 검증 가능한 목표가 있는 환경에서는 강력하지만, 목표가 모호하거나 맥락에 의존적인 개방형 환경에서는 신뢰성이 떨어지는 경향이 있습니다. 본 논문은 이러한 실패의 원인을 단순히 능력 부족이 아닌 '목표 선택의 실패'로 진단하며, 이를 '맥락적 다목적 최적화(Contextual Multi-Objective Optimization)' 문제로 형식화합니다. 제안된 프레임워크는 유용성, 안전성, 개인정보 보호 등 다양한 맥락 의존적 목표들을 고려하고, 어떤 목표가 활성화되어야 하는지, 그리고 이들 목표 간의 충돌을 어떻게 해결해야 하는지를 모델링하는 방법을 제시합니다.

Steer Like the LLM: 활성화 조작이 프롬프트 조작을 모방하는 방법

본 논문은 대규모 언어 모델(LLM)의 활성화 조작 기법이 기존의 프롬프트 기반 조작 방식과 성능 격차가 있다는 문제를 다룹니다. 연구진은 프롬프트 조작을 활성화 개입의 한 형태로 공식화하고, 이를 모방하도록 훈련된 Prompt Steering Replacement (PSR) 모델을 제안합니다. 실험 결과, PSR 모델은 다양한 언어 모델에 대해 기존 활성화 조작 방법보다 우수한 성능을 보였으며, 특히 일관성 완성 및 페르소나 유도 측면에서 프롬프팅과 비교해도 경쟁력 있는 결과를 입증했습니다.

5월 6일9

원자적 사실 검증이 암 치료 결정 지원에서 클리니컬 신뢰도를 높임: 무작위 통제 시험

본 연구는 인공지능(AI)의 치료 권고안에 대한 '원자적 사실 검증(Atomic Fact-Checking)' 방식이 임상 의사들의 신뢰도에 미치는 영향을 무작위 통제 시험을 통해 분석했습니다. AI가 제시한 권고를 소스 가이드라인 문서에 링크된 개별 검증 가능한 주장으로 분해하는 이 방법은, 기존의 설명 가능성(XAI) 접근법보다 훨씬 높은 임상적 신뢰도를 확보함을 입증했습니다. 실제로 의사들이 신뢰한다고 응답한 비율이 26.9%에서 66.5%로 크게 증가했습니다.

PHALAR: 학습된 음악 오디오 표현을 위한 위상량 (Phasors)

PHALAR는 오디오 서믹스에서 누락된 스템을 복원하는 '스템 리트리벌' 문제를 해결하기 위해 설계된 대조적 프레임워크입니다. 이 모델은 학습된 스펙트럼 풀링 레이어와 복소수 값 헤드를 사용하여 피치 및 위상 등변량성을 강제함으로써, 기존 최첨단 모델 대비 높은 정확도 향상을 달성했습니다. PHALAR는 여러 벤치마크에서 새로운 최고 성능을 기록했으며, 단순한 의미론적 유사도를 넘어 인간의 음악적 일관성과 높은 상관관계를 보입니다.

5월 6일12

마법 정보 기반 양자 아키텍처 탐색 (Magic-Informed Quantum Architecture Search)

본 논문은 양자 우위를 뒷받침하는 핵심 자원인 '마법(magic)' 정보를 활용하여 양자 아키텍처 탐색(QAS) 기법을 제안합니다. 알파고에서 영감을 받아, 그래프 신경망(GNN)과 몬테 카를로 트리 검색(MCTS)을 결합한 방식을 사용하여 후보 회로의 마법을 추정하고, 이를 통해 목표 목적에 맞는 고마법 또는 저마법 영역으로 탐색 과정을 효과적으로 유도합니다. 실험 결과는 이 방법이 다양한 양자 문제와 크기에서 일관되게 우수한 성능 향상을 보임을 입증했습니다.

Towards Open World Sound Event Detection

본 논문은 제한적인 데이터셋과 알려진 사건만을 가정하는 기존의 음향 사건 탐지(SED) 시스템의 한계를 극복하기 위해 오픈 월드 사운드 이벤트 탐지(OW-SED) 패러다임을 제안합니다. OW-SED는 새로운/미지의 음향 사건을 식별하고 점진적으로 학습할 수 있도록 설계되었으며, 이를 위해 1D Deformable 구조를 활용하여 시간적 특징에 적응적으로 집중하는 모델을 개발했습니다. 최종 프레임워크인 WOOT은 피처 분리(feature disentanglement)와 다양성 손실(diversity loss) 등의 기법을 통합하여 오픈 월드 환경에서의 탐지 성능을 크게 향상시켰습니다.

5월 6일15

상호작용 세계 모델 성능 평가 벤치마킹: iWorld-Bench 소개

본 논문은 AGI 달성에 필수적인 상호작용 능력을 평가하기 위한 종합 벤치마크인 'iWorld-Bench'를 소개합니다. 이 벤치마크는 거리 감지, 기억 등 실제 물리적 상호작용 관련 능력을 테스트할 수 있도록 설계되었으며, 다양한 환경과 날씨 조건의 대규모 비디오 클립을 기반으로 구축되었습니다. iWorld-Bench는 행동 생성 프레임워크와 6가지 작업 유형을 통해 모델의 시각적 생성, 궤도 추종, 기억 성능을 종합적으로 평가합니다.