본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 323필터 해제

arXiv논문

Claw-Eval-Live: 진화하는 현실 세계 워크플로우를 위한 라이브 에이전트 벤치마크

Claw-Eval-Live는 LLM 에이전트를 진화하는 현실 세계 워크플로우에 맞춰 평가하기 위해 설계된 라이브 벤치마크입니다. 기존의 정적인 벤치마크가 가진 한계를 극복하고, 공개된 워크플로우 수요 신호를 통해 지속적으로 업데이트되는 '리프레시 가능한' 구조를 갖추고 있습니다. 이 벤치마크는 실행 트레이스, 감사 로그 등 상세한 증거 기록을 요구하며, 실제 작업 완료 여부를 엄격하게 검증하여 에이전트의 실질적인 자동화 능력을 측정합니다. 실험 결과에 따르면, 신뢰할 수 있는 워크플로우 자동화는 여전히 어려운 과제이며, 선두 모델조차도 모든 작업을 성공적으로 처리하지 못했습니다. 특히 HR 및 관리와 같은 복잡한 다중 시스템 비즈니스 워크플로우에서 지속적인 병목 현상이 발견되었으며, 이는 에이전트 평가가 단순한 성능 지표를 넘어 실제 외부 수요 변화에 대응하고 검증 가능한 행동을 측정해야 함을 시사합니다.

llm-agentsbenchmarkingworkflow-automation
3일 전3
arXiv논문

규범성과 생산주의: 장애인주의적 지능인가? 청각장애인을 위한 AI 제스처어 번역 도구에 대한 디그로우스 분석

본 기사는 청각장애인을 위한 AI 제스처어 번역 도구에 대한 비판적 분석을 제공합니다. 이러한 AI 시스템은 종종 편향되고, 청각장애인 커뮤니티의 입력 없이 구축되어 있으며, 제스처어를 표준화하고 수치화하는 방식으로 작동합니다. 결과적으로 이 기술들은 의사소통의 복잡한 문화적, 의미론적 측면을 무시하고, 청각장애인을 생산성과 효율성의 목표에 종속시키는 '장애인주의적 지능'으로 기능하여 오히려 소외와 고립을 초래한다는 점을 주장합니다.

aigestionsign-languagedisability-studies
3일 전4
arXiv논문

비정형 회상에서 스키마 기반 기억으로: 반복적 스키마 인식 추출을 통한 신뢰할 수 있는 AI 기억

본 논문은 기존의 텍스트 임베딩 및 검색(retrieval) 방식의 AI 기억 시스템의 한계를 지적하며, 신뢰할 수 있는 외부 AI 기억은 스키마 기반으로 설계되어야 한다고 주장합니다. 저자들은 객체 감지, 필드 추출 등을 포함하는 '반복적 스키마 인식 쓰기 경로'를 제안하여, 단순한 검색이 아닌 검증된 기록 시스템처럼 작동하도록 아키텍처를 개선했습니다. 이 새로운 접근 방식은 구조화된 데이터 추출 및 엔드투엔드 기억 벤치마크에서 기존의 최첨단(SOTA) 방법론들을 크게 능가하는 높은 성능을 입증했습니다.

ai-memoryschema-groundingknowledge-graph
3일 전7
arXiv논문

프로덕션 텍스트-투-SQL 시스템의 SQL 정확도 평가: 에이전트 독립적 접근

본 기사는 실제 운영 환경(프로덕션)에서 사용되는 텍스트-투-SQL(T2SQL) 시스템의 정확도를 평가하는 새로운 프레임워크 'Stef'를 제안합니다. 기존 평가는 정답 쿼리나 데이터베이스 스키마에 의존하여 현장 적용이 어렵다는 한계가 있었습니다. Stef는 이러한 외부 의존성 없이 자연어 입력만으로 작동하며, 복합 지표와 견고한 정규화 처리를 통해 해석 가능한 정확도 점수를 제공함으로써 T2SQL 에이전트의 지속적인 모니터링 및 개선을 가능하게 합니다.

text-to-sqlevaluation-frameworknlp
3일 전3
arXiv논문

RHyVE: 강화학습용 LLM 생성 보상 가설에 대한 능력 기반 검증 및 학습 단계별 배포

본 논문은 LLM이 생성한 보상이 단순히 신뢰할 수 있는 학습 목표가 아님을 지적하며, 생성된 보상을 현재 정책의 능력과 학습 단계에 따라 유용성이 달라지는 '보상 가설'로 간주합니다. 이를 해결하기 위해, 소규모 보상 가설 집합을 짧은 시간 동안 검증하고 비교하는 능력 기반 및 학습 단계별 배포 프로토콜인 RHyVE를 제안했습니다. 실험 결과, 낮은 능력 수준에서는 보상 순위가 불안정하지만 특정 임계값 이후에는 유용성이 있으며, RHyVE는 희소 조작 작업에서 정점 성능과 유지 성능을 개선하는 것으로 나타났습니다.

reinforcement-learningllmreward-shaping
3일 전4
arXiv논문

Intern-Atlas: AI 과학자를 위한 연구 인프라로서의 방법론 진화 그래프

Intern-Atlas는 기존의 문서 중심 연구 인프라가 포착하지 못했던, 연구 방법론 간의 진화적 관계와 계보(lineage)를 시각화하는 새로운 그래프 구조입니다. 이 시스템은 방대한 양의 논문에서 방법론 엔티티를 자동으로 식별하고, 그들 사이의 연속적인 혁신 과정을 의미론적 엣지로 연결하여 '방법론 진화 그래프'를 구축합니다. 또한, 시간 흐름에 따른 방법론의 진행을 추적하는 자기 주도적 시간적 트리 검색 알고리즘을 제안하며, 이를 통해 자동화된 과학적 발견 및 아이디어 평가의 기초 데이터 레이어를 제공합니다.

methodology-evolutionknowledge-graphscientific-discovery
3일 전4
arXiv논문

환상에서 정교화까지: 신뢰할 수 있는 멀티모달 회로-베릴로그 코드 생성을 위한 접근

본 논문은 회로도와 같은 복잡하고 안전성이 중요한 시각적 도메인 전문 언어를 RTL(레지스터 전송 수준) 코드로 변환하는 과정에서 발생하는 'Mirage'라는 심각한 신뢰성 문제를 지적합니다. 이 현상은 MLLM이 실제 시각 정보를 무시하고 모듈 헤더의 식별자 의미론에 의존하여 표준 템플릿을 검색함으로써 발생하며, AI 코드 생성의 근본적인 취약점을 드러냅니다. 연구진은 이를 해결하기 위해 식별자 익명화와 D-ORPO(Decision-Focused ORPO)를 활용하여 훈련된 VeriGround 모델을 제안했으며, 이 모델은 낮은 파라미터 크기에도 불구하고 진정한 시각적 정교화를 입증하며 높은 성능과 신뢰성을 보여주었습니다.

multimodalcircuit-designrtl-code
3일 전4
arXiv논문

PhyCo: 생성형 모션 학습을 위한 제어 가능한 물리 사전 지식 학습

PhyCo는 기존 비디오 확산 모델이 겪는 물리적 불일치 문제를 해결하기 위해 설계된 새로운 프레임워크입니다. 이 접근법은 대규모의 물리 시뮬레이션 데이터셋, 물리 속성 맵 기반의 ControlNet을 사용한 미세 조정, 그리고 VLM(비전-언어 모델) 가이드 보상 최적화를 결합합니다. 이를 통해 추론 과정에서 복잡한 시뮬레이터 없이도 마찰력이나 탄성 같은 물리적 속성의 변화를 제어하며 높은 수준의 물리적 일관성을 갖춘 생성형 비디오를 생성할 수 있습니다.

video-generationdiffusion-modelsphysical-simulation
3일 전2
arXiv논문

장기적 생산성 시뮬레이션을 위한 대규모 합성 컴퓨터

본 논문은 현실적인 장기적 생산성 작업을 시뮬레이션하기 위해 'Synthetic Computers at Scale'이라는 확장 가능한 방법론을 제안합니다. 이 방법론은 실제 폴더 구조와 다양한 콘텐츠가 풍부한 아티팩트를 갖춘 합성 컴퓨터 환경을 생성하고, 사용자 특화의 복잡한 목표를 가진 에이전트들이 장기간에 걸쳐 상호작용하며 작업을 수행하도록 합니다. 이를 통해 방대한 양의 현실적이고 풍부한 경험 학습 신호를 확보할 수 있으며, 이는 에이전트 성능 개선 및 강화학습(RL) 연구를 위한 강력한 기반을 제공합니다.

synthetic-dataagent-simulationreinforcement-learning
3일 전4
arXiv논문

PRISM: 블랙박스 온폴리시 디스틸레이션을 통한 다중모달 강화학습 사전 정렬

본 논문은 대규모 다중모달 모델(LMMs)의 사후 학습 과정에서 발생하는 분포적 드리프트 문제를 해결하기 위해 PRISM이라는 세 단계 파이프라인을 제안합니다. PRISM은 SFT와 RLVR 사이에 온폴리시 디스틸레이션(OPD) 기반의 명시적인 분포 정렬 단계를 삽입하여, 모델이 감독 분포를 유지하면서도 성능 저하 없이 강화학습(RL)을 수행하도록 돕습니다. 이 방법론은 다양한 다중모달 벤치마크에서 기존 RL 알고리즘 대비 일관되게 높은 성능 향상을 입증했습니다.

multimodalreinforcement-learningdistillation
3일 전1
arXiv논문

잠재적 적대적 탐지: 다중 턴 공격 탐지를 위한 LLM 활성화의 적응적 탐색

본 연구는 다중 턴 프롬프트 주입 공격이 모델의 잔류 스트림에 남기는 '적대적 불안정성(adversarial restlessness)'이라는 활성화 수준의 서명을 탐지하는 방법을 제안합니다. 기존 텍스트 기반 방어 기법으로는 놓치기 쉬운 은밀한 다중 턴 공격을 포착하기 위해, 이 연구는 대화 경로를 따라 변화하는 5개의 스칼라 궤적 특성을 활용하여 높은 탐지율(최대 93.8%)을 달성했습니다. 또한, 효과적인 방어를 위해서는 다양한 공격 분포를 포함한 다중 소스 학습과 세부 단계별 라벨링이 필수적임을 입증합니다.

adversarial_detectionllm_securityactivation_signatures
3일 전2
arXiv논문

LAPITHS: AI 성과에 대한 이론적 근거를 가진 해석을 위한 프레임워크로 Centaur(s) 다스리기

LAPITHS는 '인간 유사성'에 대한 해석을 위한 이론적 근거 기반의 분석 프레임워크입니다. 이 프레임워크는 CENTAUR와 같은 최신 AI 모델이 제시하는 인공 통합 인지 모델 주장이 충분한 이론적 또는 경험적 정당성을 갖추지 못했음을 보여주는 데 사용됩니다. LAPITHS는 현재 AI 연구에서 흔히 발생하는, 트랜스포머 기반 언어 모델의 높은 성능을 인간 수준의 인지 능력으로 오해하는 행동주의적 경향에 대한 원칙적인 기준점을 제공하며, '최소 인지 그리드'와 '행동적 비교'라는 두 가지 정량적 평가를 통해 AI 주장의 근거를 엄격하게 검증합니다.

ai-interpretabilitylanguage-modelscognitive-plausibility
3일 전2
arXiv논문

MM-StanceDet: 검색 강화 다중 모달 다중 에이전트 태도 감지

MM-StanceDet는 텍스트와 이미지가 상충되는 신호를 포함하는 복잡한 공론장 상황에서 태도 감지(MSD)의 어려움을 해결하기 위해 제안된 새로운 프레임워크입니다. 이 방법은 검색 강화(Retrieval Augmentation), 전문화된 다중 모달 분석 에이전트, 추론 기반 토론 단계, 그리고 자기 성찰을 통합한 다중 에이전트 아키텍처를 특징으로 합니다. 실험 결과에 따르면 MM-StanceDet는 기존의 한계를 극복하고 복잡한 태도 감지 문제에서 최신 성능을 달성했습니다.

multimodal-stance-detectionmulti-agent-systemretrieval-augmentation
3일 전2
arXiv논문

시각 재교정 및 엔티티 재구성을 통한 훈련 불요 터널 결함 검사 및 공학적 해석

본 논문은 터널 검사 분야의 어려움을 해결하기 위해 'TunnelMIND'라는 훈련 불요(training-free) 프레임워크를 제안합니다. 기존 모델들이 제공하는 거친 결함 제안을 넘어, TunnelMIND는 시각적 일관성 재교정 과정을 통해 신뢰도 높은 결함 위치 정보를 얻습니다. 최종적으로 이 정보는 범주, 위치, 기하학 등 구조화된 엔티티로 재구성되어 공학 보고서 작성 및 전문가 검색 기반 설명에 활용될 수 있습니다.

tunnel-inspectiontraining-freevisual-recalibration
3일 전1
arXiv논문

베이지안 추론, 게임 이론, 열역학을 통합하는 집단적 변분 원리

본 논문은 베이지안 추론, 게임 이론, 그리고 열역학을 통합하는 '게임 이론적 자유 에너지 원리(Game-Theoretic Free Energy Principle)'라는 새로운 프레임워크를 제시합니다. 이 프레임워크는 중앙 집중식 조정 없이 작동하는 다중 에이전트 시스템의 집단 지성을 설명하며, 개별 에이전트가 로컬 자유 에너지 최소화를 수행할 때 암묵적으로 확률적 게임을 구현함을 보여줍니다. 또한, 이는 협력 게임 클래스를 베이지안 추론과 전략적 상호작용 사이를 연결하는 변분 표현으로 확장하여, 복잡한 시스템의 균형 상태에 대한 통합적인 이해를 제공합니다.

free-energy-principlegame-theoryvariational-inference
3일 전4
arXiv논문

강화학습을 활용한 GUI 에이전트: 디지털 거주자를 향한 여정

GUI 에이전트는 시각적 인터페이스 상호작용의 유망한 분야이지만, 지도 학습만으로는 장기적인 작업 수행이나 환경 변화에 대응하기 어렵습니다. 따라서 본 연구는 강화학습(RL)을 활용하여 GUI 에이전트를 발전시키는 포괄적인 개요를 제시하며, 이를 '디지털 거주자'로 진화시킬 로드맵을 제안합니다. 주요 방법론으로 오프라인/온라인 RL 및 하이브리드 전략을 분류하고, 세계 모델 기반 훈련과 복합 보상 구조의 중요성을 강조합니다.

reinforcement-learninggui-agentsautomation
3일 전4
arXiv논문

LLM을 ASP 프로그래머로 활용하기: 자기수정이 비모순적 추론을 가능하게 함

본 논문은 대규모 언어 모델(LLMs)의 추론 한계점(높은 비용, 모순 발생 등)을 극복하기 위해 자연어를 안정적 모델 의미론 기반의 비모순적 형식주의인 Answer Set Programming (ASP)으로 변환하는 'LLM+ASP' 프레임워크를 제안합니다. 이 프레임워크는 수작업 지식 엔지니어링 없이도 다양한 추론 작업에 적용 가능하며, 구조화된 피드백을 통한 자동 자기수정 루프를 핵심 메커니즘으로 활용합니다. 실험 결과, ASP 기반 접근법은 LLM이 기본 규칙과 예외를 자연스럽게 표현하게 하여 기존의 SMT 기반 방법보다 비모순적 추론에서 우수한 성능을 보였으며, 반복적인 자기수정이 지식 모듈의 필요성을 대체함을 입증했습니다.

llmanswer set programmingasp
3일 전0
arXiv논문

언어 모델이 기호적 성찰과 모듈형 최적화를 통해 기계 링크지 설계 개선

본 논문은 언어 모델(LLM)이 기계 링크지(mechanical linkage) 설계를 개선하는 새로운 방법을 제시하며, LLM 에이전트가 이산 토폴로지를 탐색하고 수치 최적화기가 연속 매개변수를 피팅합니다. 특히 '기호적 리프팅 연산자'를 통해 시뮬레이터 궤적을 질적 설명자로 변환하여 모델의 해석 가능성을 높였습니다. 실험 결과, 모듈형 LLM 아키텍처는 기존 방식 대비 기하학적 오차와 구조적 결함을 크게 줄이며, 과잉/불충분 구속과 같은 설계 문제를 정확히 진단하고 근거 기반 수정안을 제안할 수 있음을 입증했습니다.

llmmechanical-designsymbolic-reasoning
3일 전4
arXiv논문

TransVLM: 임의의 컷 전환을 탐지하기 위한 비전-언어 프레임워크 및 벤치마크

본 논문은 기존 샷 경계 탐지(SBD)의 한계를 극복하고, 전환의 연속적인 시간적 구분을 명시적으로 포착하는 '샷 전환 탐지(STD)' 작업을 공식화했습니다. 이를 위해 광유동을 운동 사전 지식으로 통합한 비전-언어 모델 프레임워크인 TransVLM을 제안합니다. TransVLM은 색상 및 운동 정보를 직접 처리하여 시간적 인식을 크게 향상시키며, 합성 데이터 엔진과 포괄적인 벤치마크를 통해 높은 성능을 입증했습니다.

video-processingshot-transition-detectionvision-language-models
3일 전4
arXiv논문

D3-Gym: 데이터 주도 발견을 위한 실세계 검증 가능 환경 구축

본 기술 기사는 과학적 데이터 주도 발견(Data-Driven Discovery)을 위한 검증 가능한 환경 데이터셋인 D3-Gym을 소개합니다. D3-Gym은 네 가지 학문 분야의 239개 실세계 과학 저장소에서 유래한 565개의 작업을 포함하며, 자연어 지시문, 실행 가능 환경, 입력 데이터셋 등 포괄적인 요소를 제공하여 모델 학습에 최적화되어 있습니다. 이 환경을 활용하여 학습된 에이전트는 Qwen3-32B와 같은 대규모 언어 모델에서 상당한 성능 향상을 보여주었으며, 이는 과학 분야에서의 AI 에이전트 발전에 중요한 진전을 의미합니다.

data-driven-discoveryai-agentsscientific-computing
3일 전4

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.