Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

AgentWard: 자율형 AI 에이전트를 위한 라이프사이클 보안 아키텍처

본 논문은 스킬 로딩, 메모리 유지, 다단계 행동 계획 등 복잡한 기능을 수행하는 자율형 AI 에이전트의 런타임 보안 문제를 다룹니다. 제시된 AgentWard는 초기화부터 입력 처리, 메모리, 의사결정, 실행에 이르는 다섯 가지 라이프사이클 단계를 체계적으로 보호하는 심층 방어 아키텍처입니다. 이는 단계별 이질적인 컨트롤과 교차 계층 조정을 통합하여 위협 전파 경로를 따라 보안 취약점을 차단하고 핵심 자산을 보호할 수 있는 구체적인 청사진을 제공합니다.

4월 28일4

arXiv논문

고차원 실험 데이터로부터 역학의 위상 공간 학습을 위한 정보 병목 (Information Bottleneck)

본 논문은 고차원의 원시 관측치로부터 시스템의 숨겨진 역학적 상태 변수를 추론하기 위한 새로운 방법인 DySIB(Dynamical Symmetric Information Bottleneck)를 제안합니다. 이 방법은 예측 상호 정보량 최대화와 표현 복잡성 패널티를 결합하여 시계열 데이터의 저차원 잠재 공간을 학습하며, 관측치 재구성을 거치지 않는 것이 특징입니다. 물리 진자 실험 영상 데이터에 적용한 결과, DySIB는 시스템의 위상 공간과 일치하는 2차원의 해석 가능한 좌표(정준 각 및 각속도)를 성공적으로 복원하여 잠재 공간이 실제 역학적 정보를 담고 있음을 입증했습니다.

4월 28일4

arXiv논문

동의의 가격: 에이전트 금융 애플리케이션에서의 LLM 신학성 측정

본 연구는 금융 에이전트 애플리케이션에서 대규모 언어 모델(LLM)의 안전성과 견고성을 평가하는 데 초점을 맞추었습니다. 특히, LLM이 정답성보다 사용자 신념에 동조하려는 '신학성(sycophancy)'이라는 실패 모드를 측정했습니다. 연구 결과, 금융 에이전트 설정에서 모델은 사용자의 반박이나 모순에 대해 예상보다 높은 성능을 보였으나, 상충하는 선호도 정보를 통해 테스트했을 때는 대부분의 모델이 신학성을 드러내며 실패함을 발견했습니다.

4월 28일8

arXiv논문

LLM 을 활용한 다 파일 DSL 코드 생성: 산업 현장 사례 연구

본 연구는 LLM을 활용하여 다수의 파일과 복잡한 폴더 구조를 아우르는 도메인 특정 언어(DSL) 코드를 생성하고 수정하는 엔드투엔드 파이프라인을 개발했습니다. BMW 현장 사례 연구를 기반으로, Xtext 기반 DSL 아티팩트 생성을 목표로 코드 중심 LLM을 적응시켰습니다. 이 과정에서 DSL 폴더 계층 구조는 경로가 보존된 JSON 형태로 인코딩되어 저장소 규모의 단일 응답 생성과 교차 파일 의존성 학습이 가능하게 했습니다. 파인튜닝(QLoRA)을 적용한 모델들이 가장 높은 정확도와 구조적 충실도를 보여주었으며, 이는 LLM이 복잡한 산업 현장의 코드 생성 작업에 실질적인 유용성을 가짐을 입증했습니다.

4월 28일5

arXiv논문

현재 에이전트가 발견에서 응용으로의 격차를 좁힐 수 있을까? 마인크래프트를 통한 사례 연구

본 논문은 인과적 규칙성 발견을 실제 기능적 시스템 구축(응용)까지 연결하는 '발견에서 응용으로의 루프'를 평가하기 위해 마인크래프트 기반 벤치마크 'SciCrafter'를 소개합니다. 이 벤치마크는 최첨단 LLM 에이전트들을 테스트하여, 모든 모델이 일반 지식 응용 능력에서 큰 격차를 보이며 정체됨을 확인했습니다. 연구진은 이 능력을 네 가지 하위 능력으로 분해하고 진단함으로써, 현재 AI의 병목 현상이 '올바른 문제 제기' 단계로 이동하고 있음을 분석합니다.

4월 28일6

arXiv논문

LLM 기반 코드 생성에서의 결함 있는 작업 설명: 탐지 및 분석

본 논문은 대형 언어 모델(LLM)이 코드 생성 시 사용자가 제공하는 '작업 설명'의 결함에 취약하다는 문제를 다루고, 이를 해결하기 위해 경량 분류기인 SpecValidator를 개발했습니다. SpecValidator는 파라미터 효율적 미세 조정을 통해 Lexical Vagueness, Under-Specification, Syntax-Formatting 세 가지 유형의 작업 설명 결함을 자동으로 탐지합니다. 실험 결과, SpecValidator는 기존 대형 모델들(GPT-5-mini, Claude Sonnet 4)보다 훨씬 높은 성능을 보여주었으며, 이는 LLM 기반 코드 생성의 신뢰성을 높이는 데 중요한 기여를 합니다.

4월 28일11

arXiv논문

대규모 모델에 대한 자동 학습률 탐색을 통한 확장 가능한 하이퍼파라미터 발산 앙상블 학습

본 논문은 대규모 신경망 학습 시 GPU 복제본을 활용하여 효율적으로 하이퍼파라미터를 탐색하는 '하이퍼파라미터 발산 앙상블 학습(HDET)' 방법을 제안합니다. HDET는 팬아웃 단계에서 각 복제본이 독립적으로 다양한 하이퍼파라미터를 탐색하고, 컨버지 단계에서 파라미터를 평균화하여 결합합니다. 여기에 모멘텀 기반의 자동 학습률 컨트롤러를 추가함으로써, 별도의 스윕 없이도 최적화 품질과 일반화를 동시에 개선하는 적응형 학습률 일정을 생성할 수 있습니다.

4월 28일5

arXiv논문

여러 사고자로부터 배우는 사고 학습 (Learning to Think from Multiple Thinkers)

본 논문은 여러 명의 '사고자(thinkers)'가 제공하는 사슬 사고(Chain-of-Thought, CoT) 감독 하에 학습하는 방법을 연구한다. 기존 연구는 단일 사고자로부터의 CoT 감독을 사용하지만, 본 연구는 최종 결과만 감독받는 경우(CoT 부재)의 어려움을 다루며, 여러 사고자의 다양한 해결책을 활용할 수 있음을 보여준다. 특히, 목표 정확도 $\varepsilon$에 독립적인 소량의 CoT 데이터와 충분한 수동적 최종 결과 데이터를 사용하는 효율적인 활성 학습 알고리즘을 제안한다.

4월 28일6

arXiv논문

계획 존재 문제에 대한 불가결성 증명

본 기사는 주어진 목표와 초기 지식 상태, 그리고 일련의 지식 행동이 주어졌을 때, 해당 목표에 도달할 수 있는 행동 순열의 존재 여부를 묻는 '계획 존재 문제'를 다룹니다. 연구진은 특히 지식 행동의 전제 조건의 모달 깊이가 1 이하이고 후건이 없는 경우에도 이 문제가 불가결(undecidable)함을 증명했습니다.

4월 28일4

arXiv논문

안전한 이동성으로 가는 길: 오픈엔드드 비전-언어 데이터셋을 활용한 통합 교통 기반 모델

본 논문은 도시 규모의 안전하고 통합적인 지능형 교통 시스템(ITS) 구축에 필요한 오픈엔드 추론 능력을 강화하기 위해 대규모 오픈소스 비전-언어 데이터셋인 Land Transportation Dataset (LTD)을 제안합니다. LTD는 다양한 환경 조건에서 수집된 11.6K개의 고품질 VQA 쌍을 포함하며, 다중 객체 위치 지정, 카메라 선택, 그리고 복합적인 위험 분석 등 세 가지 보완적 작업을 통합합니다. 이를 기반으로 개발된 교통 기초 모델 UniVLT는 미시적 자율 주행(AD) 추론과 거시적 교통 분석을 단일 아키텍처에서 통합하여 다양한 도메인의 오픈엔드 추론 작업에서 최고 성능을 달성했습니다.

4월 27일4

arXiv논문

LLM 자기수정이 언제 도움이 되는가? 제어 이론적 마르코프 진단 및 Verify-First 개입

본 연구는 LLM의 반복적인 자기수정(self-correction) 과정을 사이버네틱 피드백 루프와 상태 마르코프 모델로 분석하여, 언제 자기수정이 유익하고 해로운지 진단하는 방법을 제시합니다. 핵심적으로, 자기수정을 무조건 수행하기보다 안정성 마진(EIR)과 같은 측정 가능한 오차 동역학에 기반한 제어 결정으로 접근해야 함을 주장합니다. 연구 결과, 특정 임계값(EIR <= 0.5%) 이하의 모델에서만 반복이 유익하며, 'Verify-first' 프롬프팅 기법이 이 임계값을 효과적으로 낮추고 성능 저하를 방지할 수 있음을 입증했습니다.

4월 27일9

arXiv논문

FETS 벤치마크: 에너지 시계열 예측에서 기초 모델이 데이터셋 특화 머신러닝을 능가합니다

에너지 시스템 계획 및 운영에 필수적인 정확한 에너지 시계열 예측은 기존에 데이터셋 특화된 작업으로 한정되어 왔습니다. 본 논문에서는 기초 모델(Foundation Models)을 에너지 시계열 예측에 적용하기 위한 FETS 벤치마크를 제시하고, 다양한 데이터셋과 설정에서 고전적 머신러닝 접근법과 비교했습니다. 그 결과, 기초 모델이 모든 환경에서 일관되게 우수한 성능을 보였으며, 특히 공변량 정보를 활용할 때 가장 강력한 잠재력을 입증했습니다.

4월 27일5

arXiv논문

사실의 쿼리에 대한 관련성을 결정하는 것은 얼마나 어려운가?

본 연구는 데이터베이스에서 주어진 사실(fact)이 부울 연결 쿼리(CQ)와 관련 있는지 여부를 결정하는 '쿼리 관련성' 문제의 복잡성을 분석했습니다. 기존에 이 문제는 쿼리 평가보다 더 어렵다는 것이 알려져 있었으나, 본 논문은 그 원인을 '자기 조인(self-joins)'에서 찾았습니다. 자기 조인의 발생을 제한하거나 금지할 경우, 쿼리 관련성의 복잡도가 쿼리 평가와 동일한 수준으로 낮아짐을 증명했습니다.

4월 27일5

arXiv논문

기술 (Skills) 에서 재능 (Talent) 으로: 이질적인 에이전트를 실용적 기업으로 조직화하기

본 기술 기사는 다중 에이전트 시스템의 한계를 극복하고 이를 실용적인 기업 조직 수준으로 격상시키는 프레임워크 'OneManCompany (OMC)'를 제안합니다. OMC는 스킬, 도구, 런타임 구성을 이동 가능한 'Talents'라는 정체성으로 통합하며, 타입화된 조직 인터페이스를 통해 이질적인 백엔드를 오케스트레이션합니다. 또한, 계획-실행-평가(E²R) 루프와 커뮤니티 기반의 Talent Market을 도입하여 시스템이 동적으로 자체 구성하고 지속적으로 개선할 수 있는 자기 조직화 AI 조직으로 진화하는 방법을 제시합니다.

4월 27일6

arXiv논문

ABPMS 프로세스 프레임의 하이브리드 성질과 자동화된 프로세스 발견에 대한 함의

본 논문은 AI 증강 비즈니스 프로세스 관리 시스템(ABPMS)에서 핵심적인 역할을 하는 '프로세스 프레임'을 개념화합니다. 전통적 모델의 한계를 극복하기 위해, 이 프로세스 프레임을 절차적(procedural) 요소와 선언적(declarative) 요소가 결합된 하이브리드 비즈니스 프로세스 표현으로 제안합니다. 특히, 절차적 모델에 선언적 패러다임의 '오픈 월드 가정'을 적용하여, 각 활동이 특정 범위 내에서만 제한되도록 하는 새로운 실행 의미론과 프로세스 발견 접근법의 기초를 제시합니다.

4월 27일5

arXiv논문

CGC: Fine-Grained Multi-Image Understanding 을 위한 Compositional Grounded Contrast

본 논문은 다중 모드 대형 언어 모델(MLLMs)이 직면하는 세밀한 다중 이미지 이해의 어려움(공간적 환각, 주의력 누출 등)을 해결하기 위한 저비용 프레임워크인 Compositional Grounded Contrast (CGC)를 제안합니다. CGC는 기존 단일 이미지 기반 주석을 활용하여 Inter-Image Contrast와 Intra-Image Contrast를 도입함으로써 의미론적으로 분리된 방해 요소 컨텍스트와 객체 일관성을 확보하는 구성적 다중 이미지 학습 인스턴스를 구축합니다. 또한, Think-before-Grounding 패러다임에 규칙 기반 공간 보상(Rule-Based Spatial Reward)을 추가하여 소스 이미지 귀속 및 구조화된 출력 유효성을 개선했으며, 다양한 벤치마크에서 우수한 성능 향상을 입증했습니다.

4월 27일6

arXiv논문

계층적 주행 VQA에서의 교차 단계 일관성: 명시적 베이스라인과 학습된 게이트드 컨텍스트 프로젝터

본 논문은 자율주행 그래프 시각 질문 답변(GVQA)에서 인지-예측-계획 단계 간의 컨텍스트 일관성을 확보하는 두 가지 상보적인 방법을 비교 연구합니다. 첫 번째 방법인 명시적 베이스라인은 추가 학습 없이 프롬프트 기반 조건화 전략을 사용하여 NLI 모순을 크게 줄이는 강력한 무학습 성능을 보여줍니다. 두 번째 방법인 게이트드 컨텍스트 프로젝터는 숨겨진 상태 벡터를 다음 단계 입력에 정규화된 방식으로 주입하여 계획 단계의 의미적 일관성을 통계적으로 유의미하게 개선합니다.

4월 27일5

arXiv논문

자연어에서 검증된 코드로: Dafny 기반 형식 검증을 통한 AI 보조 문제-코드 생성으로의 도약

본 연구는 대형 언어 모델(LLMs)이 생성한 코드가 가지는 정확성 문제를 형식 검증(formal verification)을 통해 해결하고자 합니다. 이를 위해 'NaturalLanguage2VerifiedCode (NL2VC)-60' 데이터셋을 구축하고, 계층적 프롬프팅 전략(tiered prompting strategy)을 사용하여 7개 오픈-웨이트 LLM의 성능을 평가했습니다. 그 결과, 단순한 자연어 입력만으로는 성공률이 낮았으나, 구조적인 서명 제공이나 검증기 피드백을 활용하는 자기 치유(self-healing) 프롬프팅 전략을 사용할 경우 모델의 성능이 극적으로 향상됨을 입증했습니다.

4월 27일5

arXiv논문

UniSonate: 텍스트 지시를 통한 음성, 음악 및 사운드 효과 생성을 위한 통합 모델

UniSonate는 텍스트 지시를 사용하여 음성, 음악 및 사운드 효과 등 이질적인 오디오 모달리티를 통합적으로 생성할 수 있는 새로운 흐름 매칭(flow-matching) 프레임워크입니다. 기존의 TTS, TTM, TTA와 같이 분산되어 있던 전문화된 모델들의 한계를 극복하기 위해 설계되었으며, 특히 비구조적인 환경 소리를 구조화된 시간 잠재 공간으로 투영하는 동적 토큰 주입 메커니즘을 도입했습니다. 이 접근법은 다양한 오디오 모달리티 간의 최적화를 통해 높은 성능과 구조적 일관성을 입증했습니다.

4월 27일4

arXiv논문

지지를 보존하지, 대응만 하지 말라: 오프라인 강화학습을 위한 동적 라우팅

본 논문은 오프라인 강화학습(Offline RL)의 한계를 극복하기 위해 '동적 라우팅' 기법을 도입한 단일 단계 액터 DROL을 제안합니다. 기존 방식들이 데이터셋이 지지하는 행동 영역을 벗어나지 않으면서도 성능 개선을 이루는 데 어려움을 겪었던 반면, DROL은 각 상태에서 여러 후보 행동을 샘플링하고 이 중 가장 적합한 '승리자'만을 업데이트하여 로컬 최적화를 가능하게 합니다. 이를 통해 단일 패스 추론의 효율성을 유지하면서도 미세한 지역 개선 능력을 확보했습니다.

4월 27일4

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드