본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터arXiv cs.AI2771건

arXivAI 번역논문

AI 라이프사이클 거버넌스에서 감사 가능한 신뢰성 수준을 위한 방법론

본 논문은 AI 시스템의 거버넌스 측면에서 감사 가능한 신뢰성 수준을 확보하기 위한 경량 방법론을 제안합니다. 이 방법론은 형식적 프레임워크와 라이프사이클 거버넌스 절차 두 가지 구성 요소로 이루어져 있습니다. 이를 통해 AI의 변화를 시간 흐름에 따라 문서화하고 모니터링할 수 있는 증거 기반을 제공합니다.

arXivAI 번역논문

다중 에이전트 시스템은 언제 도움이 되는가? 정보 병목(Information Bottleneck) 관점

본 논문은 다중 에이전트 시스템(MAS)과 단일 에이전트 시스템(SAS)의 차이를 정보 병목 관점에서 분석했습니다. MAS가 경계가 있는 중계 메시지를 사용하는 반면, SAS는 전체 컨텍스트를 공유한다는 점에 주목합니다. 연구 결과, MAS의 이점은 압축으로 인한 정보 손실보다 중복 컨텍스트 감소로 얻는 효율성 개선이 클 때 발생함을 보여줍니다.

arXivAI 번역논문

능동적 관찰을 위한 시험 (An Exam for Active Observers)

본 논문은 인간의 능동적 관찰 능력과 MLLMs의 시각 인지 능력을 비교하며, 현재 모델들이 이 부분에서 취약함을 지적합니다. 'ActiveVision'이라는 새로운 벤치마크를 제시하여, 단일 정적 설명이 아닌 반복적인 시각적 추론을 요구하는 17개 과제로 구성했습니다. 평가 결과, GPT-5.5와 Claude Fable 5 등 최신 모델들이 이 능동 관찰 테스트에서 현저히 낮은 성능을 보였습니다.

arXivAI 번역논문

ToolSciVer: 시각적 도구 증강 강화학습을 통한 멀티모달 과학 주장 검증

본 논문은 멀티모달 과학 주장을 검증하기 위한 새로운 프레임워크 ToolSciVer를 제안합니다. ToolSciVer는 VLM에 표/차트 파싱, 영역 확대 등 세 가지 시각적 도구를 장착하여 복잡한 과학 자료에서 명시적인 증거를 추출합니다. 이 프레임워크는 GRPO 기반의 정책 학습을 통해 높은 정확도를 달성했습니다.

arXivAI 번역논문

Muon은 에이전트 기반 강화학습(RL)에 어떤 도움이 되는가?

본 논문은 Muon을 사용하여 에이전트 기반 강화학습(RL)의 희소 보상 환경에 적용한 연구 결과를 제시합니다. Qwen2.5-0.5B-Instruct 모델과 ALFWorld에서 GiGPO 및 GraphGPO 등의 정책 최적화기를 활용하여, Muon이 AdamW 대비 높은 성능 향상을 보여주었음을 입증했습니다.

arXivAI 번역논문

자율주행차 취약점에 대한 구조화된 위협 정보 생성을 위한 오픈 가중치 LLM 평가

본 연구는 자율주행차(CAV)의 취약점 정보를 구조화된 위협 정보 표현(STIX)으로 변환하는 오픈 가중치 LLM을 평가했습니다. CAV 관련 CVE를 STIX, CWE, MITRE ATT&CK에 매핑한 데이터셋을 구축하고 다양한 LLM을 테스트하여 높은 성능을 확인했습니다. 이는 AI가 교통 보안 분야의 위협 인텔리전스 자동화 및 방어 우선순위 지정에 기여할 수 있음을 보여줍니다.

arXivAI 번역논문

Symbal: 모델 생성 캡션의 체계적 불일치 감지

본 연구는 멀티모달 대규모 언어 모델(MLLMs)이 이미지 캡션 생성 시 발생하는 '체계적 불일치'를 감지하는 방법을 제시합니다. Symbal 시스템은 구조화된 설정을 활용하여 상용 기반 모델로 이러한 오류를 식별하고 자연어로 요약하며, SymbalBench라는 대규모 벤치마크를 통해 그 성능을 입증했습니다.

arXivAI 번역논문

단어는 안전하지만 행동은 위험할 때: 텍스트 안전성을 넘어선 은닉 상태 리스크 공간에서의 물리적 위험 탐지

LLM 기반 에이전트가 실제 물리 세계에서 발생시킬 수 있는 위험(PD)과 단순 텍스트 콘텐츠 위험(CD)을 분리하여 탐지하는 연구를 제시합니다. 제안된 PRISM 모델은 은닉 상태 분석을 통해, 명시적 유해 키워드 없이도 물리적 위험 상황을 높은 정확도로 식별할 수 있음을 입증했습니다.

arXivAI 번역논문

SearchOS-V1: 견고한 개방 영역 정보 탐색 에이전트 협업을 향하여

SearchOS는 복잡한 웹 검색 및 정보 탐색 과정에서 에이전트들이 겪는 상태 추적 및 비효율적인 루프 문제를 해결하는 시스템 레벨의 다중 에이전트 프레임워크입니다. 이 시스템은 개방 영역 정보를 관계형 스키마 완성 문제로 공식화하고, Search-Oriented Context Management (SOCM)를 통해 진행 상황을 명시적으로 관리합니다. 또한, 재사용 가능한 계층적 스킬 시스템과 파이프라인 병렬 스케줄링으로 검색의 효율성과 완전성을 극대화했습니다.

arXivAI 번역논문

성공률을 넘어: 비용 인지형 공격 및 방어 보안 에이전트 평가

본 논문은 기존의 보안 에이전트 평가 방식이 실제 운영 환경의 비용 문제를 간과한다고 지적하며, '비용-성공률 관점'을 도입했습니다. 공격적인 Cybench와 방어적인 Splunk BOTS v1 챌린지를 통해 추론 및 도구 사용에 따른 비용 효율성을 분석합니다. 연구 결과는 레드팀과 블루팀 작업의 스케일링 영역이 다름을 보여주며, 경제적 효율성 측정의 중요성을 강조합니다.

arXivAI 번역논문

SceneBind: 비전, 오디오, 언어 전반에 걸친 무엇과 어디의 결합

SceneBind는 비전, 오디오, 언어의 세 가지 모달리티에 걸쳐 의미론적 이해와 3D 공간적 이해를 결합한 범모달 표현을 제시합니다. 이는 기존 모델이 부족했던 명시적인 공간 구조를 포착하여 객체 수준의 의미론과 공간 속성을 통합했습니다. 이를 통해 크로스모달 장면 검색 및 객체 접지 성능을 향상시키는 새로운 매칭 방식도 제안되었습니다.

arXivAI 번역논문

AutoSynthesis: 자동 메타 분석을 위한 에이전트 시스템

AutoSynthesis는 자연어 연구 질문을 받아 자동 메타 분석을 수행하는 종단 간 다중 에이전트 시스템입니다. 이 시스템은 문헌 검색, 적격성 평가, 정량적 통계 추출 및 표준화된 효과 크기 계산까지 전 과정을 자동화합니다. 그 결과, 전문가가 수행한 수동 메타 분석과 높은 일치도를 보여주며 근거 기반 의사결정을 지원할 잠재력을 입증했습니다.

arXivAI 번역논문

teLLMe Why (Ain't Nothing but a Jam): 도시 주행 데이터의 탐색적 인과 분석

teLLMe는 도시 주행 데이터셋에서 탐색적 인과 분석을 수행하는 시스템입니다. 이 시스템은 구조화된 이벤트 테이블 기반으로, 인과 구조 학습(causal structure learning) 및 PC 알고리즘 등을 결합하여 복잡한 교통 현상의 인과 관계를 파악합니다. 자연어 질문을 구조화된 쿼리로 변환하고 '인과 카드'를 제공함으로써 가설 생성에 도움을 줍니다.

arXivAI 번역논문

Atari Pong의 World Model을 위한 개념 기반 공간 정규화 (Concept-Guided Spatial Regularization)

본 논문은 Atari Pong의 5가지 시각적 World Model 에이전트(DreamerV3 등)를 분석하고, 이들의 성능 저하 원인을 진단했습니다. 기존 모델들은 공의 사라짐이나 잘못된 움직임 같은 명확한 실패 사례를 보였습니다. 이에 따라 작업에 중요한 개념을 모델링하는 '개념 기반 공간 정규화(CGSReg)' 기법을 제안하여 World Model의 안정성을 개선함을 입증했습니다.

arXivAI 번역논문

휴머노이드 로봇을 위한 기초 모델의 스케일링 거동

본 연구는 휴머노이드 로봇의 제어에 필요한 행동 기초 모델(BFM)의 스케일링 방법을 제시합니다. 학습 패러다임, 데이터 전략, 그리고 Humanoid Transformer 아키텍처 세 가지 핵심 요소를 조정하여 성능 향상을 입증했습니다. 이 접근 방식은 시뮬레이션 및 실제 환경에서 기존 대비 제어 충실도와 작업 일반화 측면에서 큰 개선을 보였습니다.

arXivAI 번역논문

연구의 산업화: AI 주도 과학과 그 결과

AI가 과학 연구의 주체로 참여하며 '연구의 산업화'를 가속화하고 있습니다. 이는 지식과 판단이 개인에게서 자동화된 파이프라인 모델로 전환됨을 의미합니다. 본 글은 AI 주도 과학이 제기하는 세대 전수 약화, 이론 불투명성, 피어 평가 붕괴 등 광범위한 구조적 질문들을 고찰합니다.

arXivAI 번역논문

과학적 시각화 리터러시를 위한 멀티모달 대규모 언어 모델 벤치마킹

본 연구는 멀티모달 대규모 언어 모델(MLLMs)의 과학적 시각화(SciVis) 리터러시를 평가하기 위한 표준화된 벤치마크 테스트를 개발했습니다. 총 49개 항목으로 구성된 이 테스트는 6개의 MLLMs를 비교했으며, Gemini가 전반적으로 가장 강력한 성능을 보였습니다. MLLMs의 성능은 시각화 기법과 작업 유형에 따라 매우 불균일하며, 특히 정량적 추정이나 복잡한 해석에서 어려움을 겪었습니다.

arXivAI 번역논문

T^2MLR: 시간적 중간 레이어 순환을 갖춘 트랜스포머

T2MLR은 이전 토큰의 중간 레이어 표현을 현재 위치 초기 레이어에 융합하는 트랜스포머 기반 잠재적 추론 아키텍처입니다. 이는 자기회귀 디코딩의 한계를 극복하고, 적은 오버헤드로도 시간 경과에 따른 중간 계산 상태를 지속시킵니다. 기존 모델에 순환 경로만 추가하여 미세 조정하는 것만으로도 수학적 추론 능력을 크게 향상시키는 것이 가능합니다.

arXivAI 번역논문

MedFailBench: 의료 AI 안전 경계 검사를 위한 임상의가 구축한 오픈 소스 벤치마크

MedFailBench는 기존 의료 AI 벤치마크가 정답 여부만 측정하는 한계를 극복하기 위해 임상의가 구축한 오픈 소스 안전성 검사 도구입니다. 이 벤치마크는 오류를 심각도와 구체적인 '안전 게이트' 유형별로 라벨링하여 의료 AI의 취약점을 깊이 있게 분석할 수 있도록 합니다.

arXivAI 번역논문

Plover: 계획 중심 상호작용을 통한 GUI 에이전트 제어

본 논문은 복잡한 GUI 환경에서 자율 에이전트의 제어 및 계획 수립 문제를 해결하기 위해 Plover라는 시스템을 제안합니다. Plover는 작업 계획과 재계획 과정을 외부화하여, 사용자가 시스템 동작을 검사하고 수정할 수 있는 '계획 중심' 아키텍처를 구현했습니다. 이를 통해 GUI 자동화 에이전트의 투명성과 제어 가능성을 크게 향상시켰습니다.

이전7 / 139전체 139페이지 중 7페이지다음