본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2266필터 해제

arXiv논문

Vision-Language-Action 모델을 위한 백도어 기반 소유권 검증 방향성

Vision-Language-Action (VLA) 모델은 다중 모드 입력 기반의 엔드투엔드 의사결정 정책을 제공하여 범용 로봇 제어에 활용됩니다. VLA 모델의 공유 및 적응이 증가함에 따라, 안전한 배포와 소유권 보호가 중요해졌습니다. 본 논문에서는 VLA를 위해 특별히 설계된 백도어 기반 소유권 검증 프레임워크인 GuardVLA를 제시하며, 이는 비밀 메시지를 주입하여 모델에 은밀하고 무해한 워터마크를 삽입합니다.

5월 12일6
arXiv논문

CauSim: 점차 복잡해지는 인과 시뮬레이터를 통한 인과 추론 확장

본 기술 기사는 LLM이 여전히 어려움을 겪는 '인과 추론' 문제를 해결하기 위한 프레임워크 'CauSim'을 소개합니다. CauSim은 인과 시스템의 복잡성과 희소한 정답 데이터라는 근본적인 한계를 극복하고, 인과 추론을 확장 가능한 지도 학습 문제로 전환하는 것을 목표로 합니다. 이 프레임워크는 LLM에 의해 점진적으로 구축되는 '실행 가능한 구조적 인과 모델(SCMs)'이라는 복잡한 시뮬레이터를 구성하여 검증 가능성을 유지하며 시스템의 전역적인 복잡성까지 확장할 수 있게 합니다.

5월 12일5
arXiv논문

디지털 신분증 문서의 필드별 위변조 탐지 (Field-Localized Forgery Detection for Digital Identity

본 논문은 원격 온보딩 과정에서 사용되는 디지털 신원 확인 시스템의 취약점을 해결하기 위해 'FLiD'라는 경량 필드 국소화 프레임워크를 제안합니다. 기존 위변조 탐지 방법들이 자연 이미지 포렌식에 초점을 맞춘 반면, FLiD는 신분증 문서 내의 얼굴이나 텍스트와 같은 핵심 신원 영역을 개별적으로 목표로 합니다. 이 프레임워크는 객체 탐지기를 사용하여 중요한 필드를 국소화한 후, 해당 영역만을 분석하여 위변조 여부를 정확하게 판별합니다.

5월 12일5
arXiv논문

Constant-Target Energy Matching: 연속 및 이산 밀도 추정의 통합 프레임워크

본 기술 기사는 연속형, 이산형, 혼합 변수 도메인의 데이터 유형 전반에 걸쳐 공통된 통계 구조를 활용할 수 있는 통합 에너지 기반 밀도 추정 프레임워크인 Constant-Target Energy Matching (CTEM)을 제안합니다. 기존 방법론들이 연속 점수와 이산 확장을 별도의 목표 함수로 다루거나, 낮은 확률 상태 근처에서 불안정성을 보이는 문제를 해결하는 것이 목적입니다.

5월 12일4
arXiv논문

LLM 에이전트를 위한 토큰 경제학: 컴퓨팅과 경제학의 이중 관점 연구

LLM 에이전트가 발전함에 따라 토큰 소비가 급증하면서 계산적, 협업적, 보안 병목 현상이 심각한 문제로 대두되었습니다. 이 글은 이러한 문제를 해결하기 위해 '토큰 경제학(Token Economics)'이라는 통합적인 관점을 제시합니다. 컴퓨팅 과학과 경제학을 결합하여 토큰을 생산 요소, 교환 매개체, 계정 단위로 개념화함으로써, 출력 품질과 경제적 비용 사이의 근본적인 상충 관계를 다루는 포괄적인 프레임워크를 제공하는 것이 목표입니다.

5월 12일7
arXiv논문

언어 모델 해석 가능성을 위한 데이터 기반 회로 발견

본 기사는 언어 모델(LM)의 동작을 해석하기 위한 '회로 발견' 방법론의 한계를 지적합니다. 기존 방식은 작업이 단일 회로로 구현된다는 강력한 가정을 전제하고, 데이터셋이 인간의 의미를 완벽히 대표한다고 가정합니다. 연구진이 제안하는 DCD(Data-driven Circuit Discovery)는 이러한 가설 기반 접근 방식을 탈피하여, 데이터가 LM 내부 메커니즘적 구조 자체를 드러내도록 함으로써 모델 해석의 정확성과 포괄성을 높입니다.

5월 12일8
arXiv논문

내부 대 외부 비교: 다중 에이전트의 헌법 설계에서 숙고와 진화 비교

본 기사는 다중 에이전트 AI 시스템의 행동 규범(behavioral constitutions) 설계에 있어, 규칙이 내부적으로 숙고되어야 하는지 아니면 외부 환경 최적화를 통해 진화해야 하는지를 비교 분석합니다. 연구진은 세 가지 사회 환경(협력 그리드 월드, 반복 공공재 게임, 양자 거래 시장)에서 통제된 시뮬레이션을 수행했습니다. 그 결과, 집단 행동 설정에서는 내부 숙고 방식보다 외부 진화 방식이 더 우수한 성능을 보이는 것으로 나타났습니다.

5월 12일4
arXiv논문

MCP-Cosmos: 복잡한 작업 실행을 위한 World Model 증강 에이전트 (MCP Environments)

MCP-Cosmos는 대규모 언어 모델(LLMs)과 외부 도구 간의 인터페이스인 MCP 생태계에 World Model (WM)을 통합하여 에이전트의 예측적 작업 자동화를 가능하게 하는 프레임워크입니다. 이 프레임워크는 'Bring Your Own World Model' (BYOWM) 전략을 통해, 에이전트가 실제 실행 전에 잠재 공간에서 상태 전이를 시뮬레이션하고 계획을 개선할 수 있도록 합니다. 실험 결과, MCP-Cosmos는 도구 성공률 및 매개변수 정확도 등 핵심 성과 지표(KPI)를 크게 향상시키며, 새로운 평가 메트릭을 제공하여 에이전트 시스템의 신뢰성을 높였습니다.

5월 12일6
arXiv논문

BoostAPR: 실행 기반 강화학습을 통한 자동 프로그램 복구 향상

BoostAPR은 프로그램 복구를 위한 강화학습의 한계를 극복하기 위해 설계된 3단계 프레임워크입니다. 이 프레임워크는 지도 미세 조정을 통해 실행 검증 데모노스트레이션을 학습하고, 두 개의 보상 모델(시퀀스 레벨 평가자 및 라인 레벨 크레딧 할당기)을 훈련합니다. 특히, 라인 레벨 크레딧 할당기를 사용하여 코드 변경에 적합한 중간 수준의 세밀도로 보상을 재분배함으로써, 기존 강화학습 방식보다 훨씬 효과적으로 버그 수정 영역을 식별하고 프로그램 복구 성능을 크게 향상시킵니다.

5월 12일4
arXiv논문

전통적인 태거에서 LLM까지: 중세 로망스 언어의 품사 태깅 비교 연구

본 논문은 중세 오키탄어, 카탈루냐어, 프랑스어 등 세 가지 중세 로망스 언어에 대한 품사(POS) 태깅의 어려움을 다루며, 전통적인 규칙 기반/통계적 태거와 최신 LLM을 비교 평가합니다. 연구는 제로샷, 퓨샷 프롬프팅, 파인튜닝, 교차 언어 전이 학습 등 다양한 환경에서 실험한 결과, LLM 기반 접근 방식이 우수한 성능을 보였음을 입증했습니다. 특히 자원이 부족한 방언에 대한 교차 언어 전이 학습과 표적화된 이중 언어 훈련의 효과가 강조되며, 이는 역사적 NLP 연구를 위한 실질적인 지침을 제공합니다.

5월 12일6
arXiv논문

Self-Play를 넘어: 폐쇄 루프 교통 시뮬레이션의 연속 동작을 위한 계층적 추론

본 논문은 기존의 셀프-플레이 강화학습이 포착하지 못했던 인간 운전자의 사회적 인지 능력을 반영하기 위해 계층적 추론 아키텍처를 제안합니다. 이 프레임워크는 상위 레벨에서 스태켈베르크 스타일의 다중 에이전트 강화학습(MARL)을 사용하여 전략적 의도 명령을 생성하고, 이를 하위 레벨 연속 동작 모듈에 전달하여 물리적으로 일관되고 환경 반응적인 제어 시퀀스로 변환합니다. 또한, 분포 이동 문제를 해결하기 위해 MARL과 보조 복구 감독을 결합한 공동 훈련 방식을 도입했으며, SUMO 기반 테스트에서 높은 안전성과 효율성을 입증했습니다.

5월 12일5
arXiv논문

엔트로피 정규화된 Actor-Critic에서 혼합 정책 재검토

본 연구는 연속 행동 강화학습에서 사용되는 혼합 정책(Mixture policies)의 활용도를 높이는 것을 목표로 합니다. 기존에는 복잡성 대비 실제 이점이 불분명했던 혼합 정책에 대해, 저분산 리매개변수화 트릭이 부족하다는 근본적인 문제를 지적합니다. 이를 해결하기 위해 주변화된 리매개변수화(MRP) 추정기를 제안하며, 이것이 표준 우도비 접근 방식보다 낮은 분산을 제공함을 증명했습니다. 실험 결과, MRP 혼합 정책은 기존의 가우시안 정책과 동등하거나 더 나은 성능을 보여주며, 실용적인 강화학습 도구로 자리매김할 수 있음을 입증합니다.

5월 12일4
arXiv논문

FORTIS: 에이전트 스킬의 과도한 권한(Over-Privilege) 벤치마킹

본 논문은 LLM 에이전트가 사용하는 중간 스킬 계층이 종종 필요한 것보다 과도한 권한을 가지는 '과도한 권한(Over-Privilege)' 문제를 지적하며, 이를 평가하기 위한 벤치마크인 FORTIS를 제안합니다. FORTIS는 모델이 최소한의 충분한 스킬을 선택하는지, 그리고 그 스킬이 허용된 범위를 넘어서 행동하지 않는지를 두 단계로 검증합니다. 연구 결과, 최첨단 모델들조차도 작업에 필요한 것보다 더 높은 권한의 스킬과 도구를 사용하는 경향이 일반적이며, 이는 에이전트 시스템의 주요 취약점임을 보여줍니다.

5월 12일2
arXiv논문

CIVeX: 언어 에이전트의 인과 개입 검증 (Causal Intervention Verification)

본 논문은 언어 에이전트가 수행하는 행동이 실제로 인과적 효과를 갖는지 검증하는 '인과 개입 검증기(CIVeX)'를 제안합니다. 기존의 안전장치들은 단순히 스키마나 출처만 확인할 뿐, 상태 변경에 따른 진정한 인과적 영향을 보장하지 못하기 때문에, CIVeX는 구조적 인과 쿼리를 사용하여 행동을 분석하고 EXECUTE, REJECT, EXPERIMENT, ABSTAIN 네 가지 판결 중 하나를 반환합니다. 실험 결과, CIVeX는 중간 및 적대적 교란 상황에서 오탐지 실행(false executions)을 '제로'로 달성하며, 기존의 LLM 기반 검증기들보다 훨씬 높은 신뢰성과 정확도를 입증했습니다.

5월 12일3
arXiv논문

WorldSpeech: 전 세계의 다국어 음성 코퍼스

WorldSpeech는 전 세계의 다국어 음성 코퍼스를 제공하는 데이터셋으로, 자동 음성 인식(ASR) 모델 학습에 필요한 정렬된 오디오-스크립트 데이터를 수집했습니다. 의회 회의록, 국제 방송 등 다양한 공공 출처에서 76개 언어에 걸쳐 총 65k시간의 방대한 양의 데이터를 구성했습니다. 이 코퍼스를 활용하여 기존 ASR 모델을 파인튜닝했을 때, 유형론적으로 다양한 11개 언어에서 평균 상대 단어 오류율(WER) 감소율 63.5%라는 높은 성능 향상을 입증했습니다.

5월 12일4
arXiv논문

예측 병목 구조는 인과 구조를 발견하지 못한다 (하지만 실제로는 무엇을 하는가)

Mamba와 같은 다음 단계 예측에 초점을 맞춘 상태 공간 모델이 Granger-인과 구조를 복구할 수 있다는 초기 주장이 여러 벤치마크 테스트를 거쳐 반증되었습니다. 연구진은 표준화된 합성 생성기, 다양한 개입 시나리오($do(X=c)$, 노이즈 등), 그리고 통제군을 포함하는 재사용 가능한 '반증 벤치마크' 프로토콜을 개발했습니다. 이 벤치마크를 통해, 단순한 선형 병목 구조가 동등하거나 더 나은 성능을 보였으며, 조정된 Lasso와 같은 고전적인 방법론이 Mamba의 예측 능력을 능가하는 것으로 나타났습니다.

5월 12일2
arXiv논문

Agentic MIP 연구: 가속화된 제약 조건 핸들러 생성

본 논문은 혼합 정수 계획법(MIP) 연구의 복잡하고 시간이 많이 소요되는 과정을 혁신적으로 단축하는 에이전트 기반 프레임워크를 제안합니다. 이 프레임워크는 LLM 에이전트를 솔버 인식 하니스에 통합하여, 전역 제약 조건으로부터 MIP 해결을 가속화하는 SCIP 플러그인(제약 조건 핸들러)을 자동으로 생성하고 검증합니다. 이를 통해 연구자는 복잡한 알고리즘적 개선 사항을 체계적으로 탐색하고, 솔버 개발 프로세스를 자동화할 수 있게 됩니다.

5월 12일5
arXiv논문

언어 모델에서 출현하는 의미 역할 이해

본 기사는 대규모 언어 모델(LLM)에서 '의미 역할 이해'와 같은 복잡한 언어 구조가 어떻게 나타나는지(emerges)를 탐구합니다. 이러한 현상을 이해하는 것은 LLM이 데이터로부터 어떤 종류의 지식을 학습하고, 실제 시스템 구현에 얼마나 많은 인간의 감독이나 레이블링 작업이 필요한지를 해석하는 데 매우 중요합니다.

5월 12일4
arXiv논문

RigidFormer: 트랜스포머를 이용한 강체 역학 학습

RigidFormer는 다중 객체 강체 역학 시뮬레이션의 어려움(불연속적 접촉, 오차 누적 등)을 해결하기 위해 제안된 트랜스포머 기반 모델입니다. 이 모델은 메시 프리 표현으로부터 고충실도 강체 역학을 효율적으로 학습하며, 객체 수준에서 추론하고 압축된 앵커를 통해 각 객체를 전진시킵니다. 특히 Anchor-based RoPE와 미분 가능한 Kabsch 정렬을 사용하여 기하학적 일관성과 강성을 유지하면서 높은 성능과 일반화 능력을 보여줍니다.

5월 12일1
arXiv논문

확률적 상식(Probabilistic Commonsense)을 활용한 추론 (Abductive Reasoning)

본 기사는 대규모 언어 모델(LLMs)의 추론 능력 향상에 초점을 맞추고 있으며, 형식 논리 솔버가 갖지 못한 상식적인 세계 지식을 통합하는 방법을 다룹니다. 기존 연구들이 보편적 합의를 가정했던 것과 달리, 본 접근 방식은 개인마다 다를 수 있는 확률적 상식(Probabilistic Commonsense)을 활용하여 추론 과정을 개선합니다.

5월 12일4

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.