© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2012건필터 해제

유머 스타일이 웃음을 유발하고 주제가 수용성을 결정한다: 이중 언어 개인 및 정치 로봇 전달 AI 개그 평가

본 연구는 로봇이 전달하는 AI 생성 개그를 평가하며, 유머 스타일과 주제가 청중의 인지에 미치는 영향을 탐구했습니다. 그 결과, 공격적 및 친화적 유머 유형이 재미에 긍정적인 영향을 주었으며, 정치적 내용보다 개인 관련 개그가 적절성 측면에서 더 선호됨을 발견했습니다.

MOSAIC: 파킨슨병 보행 평가를 위한 모달리티별 적응형 증분 지속 학습

본 논문은 파킨슨병 보행 평가를 위해 다양한 센서 모달리티가 점진적으로 추가되는 환경에 적응하는 지속 학습 프레임워크인 MOSAIC를 제안합니다. 이 프레임워크는 신뢰성 문제와 통계적 변화, 가소성 감소 문제를 해결하기 위한 세 가지 핵심 요소를 포함합니다.

다른 레이어, 다른 다양체: 트랜스포머 최적화에서의 모듈별 가중치 공간 기하학

본 연구는 트랜스포머의 가중치 공간 기하학에서 모듈별 다양체 제약 조건의 비대칭성을 탐구했습니다. 어텐션 블록에는 Stiefel 기하학, MLP 블록에는 DGram 기하학을 할당하는 것이 가장 좋은 성능을 보였습니다. 이는 트랜스포머 최적화가 균일하지 않고 모듈별로 이루어져야 함을 시사합니다.

Once-for-All: 평형 상태 추정 기반의 확장 가능한 동시 예측

본 글은 Equilibrium State Estimation (ESE)이라는 새로운 패러다임을 제시합니다. ESE는 상호작용하는 여러 시스템의 개별적이고 협력적인 예측이 필요할 때 사용되며, 기존 방식보다 정확하고 훨씬 빠르다는 것을 입증했습니다. 특히 통화 환율 및 COVID-19 모델링 등 다양한 실제 데이터셋에서 뛰어난 성능과 확장성을 보여줍니다.

IterCAD: 시각적 근거 기반 CAD 생성 및 편집을 위한 반복형 멀티모달 에이전트

본 논문은 CAD 생성 및 편집의 한계를 극복하기 위해 'IterCAD'라는 통합 멀티모달 에이전트 프레임워크를 제안합니다. IterCAD는 다중 턴 상호작용을 통해 드로잉/텍스트 기반 코드 생성과 반복적인 편집 작업을 지원하며, 폐쇄 루프(closed-loop)의 CAD 작업 방식을 구현했습니다.

자기회귀 정책을 이용한 실시간 실행

본 논문은 비동기 추론 기반의 실시간 실행 가능성을 탐구하며, 대규모 Vision-Language-Action 모델 배포에 중요함을 강조합니다. 기존 연구가 확산 정책에 집중한 것과 달리, 토큰화 지평 조정 및 제약 디코딩을 통해 자기회귀 정책이 실시간 실행을 달성할 수 있음을 입증했습니다.

불확실성 인식 하이브리드 검색을 통한 장문 RAG

본 논문은 RAG의 핵심 문제인 청크 세분성 불확실성을 다루는 새로운 하이브리드 검색 프레임워크 UMG-RAG를 제안합니다. UMG-RAG는 기존 밀집형 및 희소형 리트리버를 활용하여 쿼리별 신뢰도를 추정하고, 이를 통해 여러 세분성의 증거들을 효과적으로 융합합니다. 또한, 부모 승격 변형인 UMGP-RAG도 도입하여 검색 품질을 향상시킵니다.

LabVLA: 과학 실험실 환경에서 비전-언어-행동 모델 접지하기

본 논문은 과학 실험실 환경에 특화된 Vision-Language-Action (VLA) 모델인 LabVLA를 제안합니다. 기존 VLA 모델이 가정용 시연에 국한된 한계를 극복하기 위해, RoboGenesis라는 데이터 엔진을 구축하고 두 단계의 훈련(액션 토큰 사전 학습 및 흐름 매칭 사후 훈련)을 거쳤습니다. 이로써 LabVLA는 과학 실험실 워크플로우에서 높은 성공률을 입증했습니다.

EvTexture++: 비디오 초해상도를 위한 이벤트 기반 텍스처 강화

본 논문은 비디오 초해상도(VSR)에서 텍스처 복구에 초점을 맞춘 이벤트 기반 프레임워크인 EvTexture++를 제안합니다. 이 프레임워크는 이벤트 신호의 고주파 시공간 디테일을 활용하여 텍스처 복구를 개선하며, 반복적인 모듈을 통해 점진적이고 상세한 고해상도 출력을 제공합니다. 또한 시간적 일관성 강화를 위해 이벤트 가이드 텍스처 인식 흐름을 추정하는 모듈도 도입했습니다.

ArogyaSutra: 인도 언어 기반 멀티모달 의료 추론을 위한 다중 에이전트 프레임워크

본 논문은 다국어 및 저자원 시나리오에서의 의료 추론 성능 한계를 극복하기 위해 개발되었습니다. 연구진은 영어와 7개 인도 언어를 포함하는 대규모 멀티모달 데이터셋 ArogyaBodha를 구축했습니다. 이를 기반으로, 단계별 추론과 이중 메모리를 통합한 다중 에이전트 프레임워크인 ArogyaSutra를 제안합니다.

집계된 신뢰도 신호를 사용한 다중 에이전트 프로토콜

본 논문은 다중 에이전트 시스템의 출력에 대한 신뢰도를 생성하고 평가하는 세 가지 새로운 프로토콜을 제안합니다. 기존 연구와 달리, 이 방법들은 원시 신뢰도 신호를 변환한 후 소프트 투표나 베이지안 융합 같은 확률적 방법을 통해 단일 집계된 신뢰도를 만듭니다. 이는 개별 에이전트나 표준 토론 방식보다 높은 판별력과 안정적인 정확도를 보여줍니다.

다중 에이전트 오케스트레이션을 위한 보상 모델링

본 논문은 다중 에이전트 시스템(MAS)의 오케스트레이션을 위한 새로운 자기 지도 학습 프레임워크인 OrchRM을 제안합니다. OrchRM은 인간 주석 없이도 중간 아티팩트를 활용하여 보상 모델 훈련에 필요한 승리-패배 쌍을 구성합니다. 이는 기존 방식 대비 효율성과 성능 면에서 큰 개선을 가져와, MAS 테스트 및 오케스트레이터 훈련의 확장성을 높입니다.

작업 교환성(Task Exchangeability)을 통한 합성 데이터의 유효 추론

본 논문은 과학 연구에서 합성 데이터의 활용 증가 추세와 그 잠재적 위험성을 다룹니다. 특히, 합성 데이터가 편향되거나 노이즈를 가질 수 있다는 우려에 대응하여, '작업 교환성(task exchangeability)'이라는 새로운 통계적 원칙을 제안합니다. 이 원칙은 연구자가 현재 관심 있는 작업이 과거의 실제 작업들과 수학적으로 교환 가능해야 함을 요구하며, 이를 통해 유효한 추론 방법을 개발했습니다.

SkMTEB: 슬로바키아어 대규모 텍스트 임베딩 벤치마크 및 모델 적응

슬로바키아어를 위한 포괄적인 MTEB 스타일 텍스트 임베딩 벤치마크인 SkMTEB가 공개되었습니다. 이 벤치마크와 함께, 연구진은 Multilingual E5 모델에 어휘 트리밍 및 파인튜닝을 적용하여 로컬 배포가 가능한 슬로바키아어 전용 임베딩 모델(e5-sk-small/large)을 개발했습니다. 이는 자원이 부족한 언어의 임베딩 성능 향상에 기여할 것으로 기대됩니다.

Mana: 관절형 도구의 정교한 조작

본 논문은 정교 로봇공학의 난제인 관절형 도구 조작 문제를 해결하기 위해 Mana(Manipulation Animator)라는 범용 시뮬레이션-실제(sim-to-real) 프레임워크를 제시합니다. 애니메이션 기법에서 영감을 받은 Mana는 파지 키프레임을 모션 플래닝 및 강화학습을 통해 정교한 조작 궤적으로 변환하는 통합 파이프라인을 사용합니다.

자율 변분 양자 회로 설계를 위한 LLM 시스템

본 논문은 LLM을 활용하여 양자 회로 설계를 자동화하는 자율 에이전트 프레임워크를 제안합니다. 이 시스템은 탐색, 생성, 검증 등 7가지 구성 요소가 통합된 폐쇄 루프 워크플로우를 통해 작동합니다. 평가 결과, 생성된 특징 맵과 안자츠 모두 기존 방법론을 능가하는 성능을 보여주며, LLM 기반 에이전트가 과학적 최적화에 활용될 수 있음을 입증했습니다.

PolyFlow: 제약 조건 임베딩 및 투영 없는 업데이트를 통한 안전하고 효율적인 다면체 제약 흐름 매칭

본 논문은 안전성이 중요한 물리 시스템에 적용하기 어려운 흐름 기반 생성 모델의 한계를 극복하고자 PolyFlow를 제안합니다. PolyFlow는 다면체 제약 조건을 모델과 흐름 역학에 직접 임베딩하는 프레임워크로, 투영 없는 아키텍처와 이산 시간 흐름 공식화를 도입했습니다. 이를 통해 계산 오버헤드 없이 엄격한 제약 조건 만족을 보장하며 높은 효율성을 달성합니다.

규제된 프로세스 자동화를 위한 신경-기호 에이전트: 과제와 연구 의제

본 논문은 LLM 기반 에이전트가 규제 산업의 품질 관리 프로세스를 자동화하는 과정에서, 기존의 외부 모니터링 방식으로는 부족하다고 지적합니다. 대신, 도메인에 내재된 기호적 구조(규정, 컴플라이언스 제약 등)를 에이전트 의사결정의 핵심 아키텍처 구성 요소로 활용해야 한다고 주장합니다.

OmniDirector: 교차 쌍 데이터 없이 일반적인 다중 샷 카메라 클로닝

본 논문은 교차 쌍 데이터 없이도 일반적인 다중 샷 카메라 클로닝을 수행하는 OmniDirector라는 프레임워크를 제안합니다. 이 프레임워크는 카메라 움직임을 그리드 모션 비디오로 인코딩하여, 캐릭터, 액션, 카메라에 대한 감독 수준의 통합적 제어를 제공합니다. 이를 통해 높은 성능과 뛰어난 제어 가능성을 입증했습니다.

메타데이터 기반 분류에서의 평가 주권: 약지도 정보 시스템을 위한 다중 트랙 프레임워크

본 논문은 기계 학습 평가가 중립적이지 않으며, 레이블 생성 프로세스에 의해 조건화됨을 지적합니다. 따라서 분류 성능 향상 대신, 서로 다른 '레이블 권한 체제' 하에서의 성능 측정 타당성을 조사하는 다중 트랙 평가 프레임워크를 제안합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.