본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2204필터 해제

arXiv논문

고이동성 시나리오를 위한 3D Gaussian 기반 지연-빔 채널 사전 정보 학습 프레임워크 GeoGS-CE

고이동성 환경에서 희소한 파일럿만으로 정확한 채널 추정을 수행하기 위해 3D Gaussian 표현을 활용한 GeoGS-CE 프레임워크를 제안합니다. 이 프레임워크는 오프라인에서 장면의 기하학적 구조를 3D Gaussian으로 모델링하고, 온라인에서 이를 지연-빔 전력 스펙트럼 사전 정보로 활용하여 채널 응답을 정밀하게 재구성합니다. 시뮬레이션 결과, 기존 방식 대비 고속철도와 같은 고이동성 시나리오에서 탁월한 채널 추정 성능을 입증했습니다.

5월 18일0
arXiv논문

Q-Learning의 부호 분리 유한 시간 오차 분석

본 논문은 일정한 스텝 크기를 사용하는 Q-learning의 오차를 양수와 음수 부분으로 분리하여 유한 시간 동안의 오차 범위를 분석합니다. 분석 결과, Bellman maximum 연산으로 인해 발생하는 비대칭성으로 인해 양수 오차는 전파되기 쉬운 반면 음수 오차는 제어되는 특성을 보입니다. 이를 통해 결정론적 및 확률적 환경 모두에서 Q-learning의 오차 역학에 대한 유한 시간 경계값을 제시합니다.

5월 18일1
arXiv논문

GenShield: AI 생성 이미지의 통합 탐지 및 아티팩트 수정 프레임워크

GenShield는 AI 생성 이미지(AIGI)를 탐지하는 동시에 발견된 아티팩트를 수정하여 사실적인 외관을 복원하는 통합 자기회귀 프레임워크입니다. 진단과 복원을 하나의 폐쇄 루프 내에서 수행하며, 시각적 사고 사슬(Visual Chain-of-Thought) 기반의 커리큘럼 학습을 통해 설명 가능한 다단계 수정을 지원합니다.

5월 18일1
arXiv논문

이진 도덕성 이론(TDM)의 대수적 설명과 AI 정책 설계 적용

이 논문은 의도적 행위자와 취약한 대상 간의 관계를 다루는 이진 도덕성 이론(TDM)을 구조적 인과 모델링(SCM)을 통해 대수적으로 공식화합니다. TDM의 확장성 문제를 해결하기 위한 노드 붕괴 및 순차적 처리 메커니즘을 제시하며, 이를 AI 정책 설계와 뉴로심볼릭 AI 시스템에 적용하는 구체적인 방안을 제안합니다.

5월 18일1
arXiv논문

ShopGym: 이커머스 웹 에이전트의 현실적 시뮬레이션 및 확장 가능한 벤치마킹을 위한 통합 프레임워크

ShopGym은 이커머스 웹 에이전트의 성능을 현실적이면서도 제어 가능한 환경에서 평가하기 위해 개발된 통합 프레임워크입니다. 실제 상점의 구조를 독립적인 샌드박스로 변환하는 ShopArena와 다양한 벤치마크 작업을 생성하는 ShopGuru를 통해 재현 가능하고 확장 가능한 평가 환경을 제공합니다.

5월 18일0
arXiv논문

멀티모달 모델의 모달리티 경쟁 해결을 위한 2차 고차 다단계 분산 보정 기법

본 연구는 자기회귀적 다음 토큰 학습 방식이 유발하는 모달리티 경쟁 및 불안정성을 해결하기 위해 2차 고차 다단계 분산 보정 기법을 제안합니다. 특히, SOAP 기반의 2차 최적화 프레임워크인 ML-FOP-SOAP를 통해 멀티모달 정렬의 안정적인 기반을 마련했습니다. 이 방법은 피셔-직교 투영과 계층적 폴딩 전략을 결합하여 모달리티 충돌을 효과적으로 억제하며, 대규모 배치 환경에서 샘플 효율성 및 학습 속도를 크게 개선하는 강력한 최적화 도구임을 입증했습니다.

5월 18일0
arXiv논문

LLM 에이전트의 논문 활용을 위한 조정 규약 paper.json 제안

LLM 에이전트가 학술 논문을 분석할 때 발생하는 세부 주장 인용 오류, 범위 확장, 그림 명령 추출 실패 등의 문제를 해결하기 위해 'paper.json' 규약을 제안합니다. 이 규약은 안정적인 주장 및 정의 ID 제공, 명시적인 미주장 목록, 정확한 그림 셸 명령 등을 포함하며, 인간이 1시간 이내에 수기로 작성할 수 있는 최소한의 준수성을 목표로 합니다.

5월 18일0
arXiv논문

효율적인 시각-언어-행동(VLA) 정책 증류를 위한 오프라인 시맨틱 가이드 방식

VLA-AD는 대규모 VLA 모델의 높은 추론 비용 문제를 해결하기 위해 VLM을 오프라인 시맨틱 감독관으로 활용하는 증류 프레임워크입니다. 작업 단계 앵커와 다중 프레임 동작 설명을 통해 고수준 시맨틱 가이드를 제공함으로써, 경량화된 학생 모델이 교사 모델의 성능을 거의 그대로 유지하면서도 훨씬 빠른 추론 속도를 갖도록 합니다. 이를 통해 실시간 로봇 제어에 적합한 효율적이고 강건한 정책 생성이 가능함을 입증했습니다.

5월 18일1
arXiv논문

AI 시대를 위한 데이터센터 전력 공급 계층 설계

AI 가속기 수요 증가로 인해 데이터센터의 랙 전력 밀도가 급격히 상승함에 따라, 전력 활용도를 최적화하는 설계의 중요성이 커지고 있습니다. 본 연구는 전력 유휴 상태(strand power) 문제를 해결하기 위해 Microsoft Azure의 운영 데이터와 예측 모델을 결합한 데이터센터 전력 공급 설계 평가 프레임워크를 제안합니다. 이를 통해 전력 밀도 상승이 배포 가능 용량과 자본 지출, 성능에 미치는 영향을 정량적으로 분석합니다.

5월 18일0
arXiv논문

IVGT: 포즈 정보가 없는 다중 뷰 이미지로부터 연속적 기하 구조를 모델링하는 암시적 시각 기하 Transformer

IVGT는 카메라 포즈 정보가 없는 다중 뷰 이미지로부터 일관된 3D 기하 구조와 외관을 재구성하는 암시적 시각 기하 Transformer 모델입니다. 정준 좌표계 내에서 연속적인 신경 장면 표현을 학습하여 임의의 3D 위치에서 SDF 값과 색상을 예측하며, 이를 통해 연속적인 표면 기하 구조를 직접 추출할 수 있습니다. 다양한 데이터셋 공동 최적화를 통해 메쉬 재구성, 새로운 시점 합성, 카메라 포즈 추정 등 여러 작업에서 뛰어난 일반화 성능을 보여줍니다.

5월 18일0
arXiv논문

자율적 LLM 가이드 트리 검색을 활용한 다중 병원체 전향적 질병 예측

본 연구는 전문가의 수동 모델 큐레이션 없이 LLM 가이드 트리 검색을 통해 질병 예측 소프트웨어를 자율적으로 생성, 평가 및 최적화하는 시스템을 제안합니다. 이 시스템은 인플루엔자, COVID-19, RSV 등 다양한 병원체에 대해 CDC의 표준 앙상블과 대등하거나 이를 능가하는 예측 성능을 보여주었습니다. 특히 데이터가 부족한 상황에서도 효과적이며, 역학 이론을 투명한 코드로 자동 변환하여 모델링의 병목 현상을 해결합니다.

5월 18일1
arXiv논문

GraphFlow: 신뢰할 수 있는 에이전트 기반 AI 자동화를 가능하게 하는 형식 검증 가능한 시각적 워크플로우 아키텍처

GraphFlow는 에이전트 기반 AI 자동화 워크플로우의 신뢰성 문제를 해결하기 위해 설계된 시각적 워크플로우 아키텍처입니다. 이 시스템은 워크플로우 다이어그램을 실행 가능한 명세로 취급하여, 컴파일 시점에 계약(contracts)에 대한 증명 검사를 수행하고 재사용 가능한 자동화 결과물을 생성합니다. 런타임에는 이벤트 로그와 강제된 경계 설정을 통해 내구성 있는 실행과 엄격한 감사가 가능하며, 이를 통해 미션 크리티컬 프로세스의 신뢰성을 크게 향상시킵니다.

5월 15일2
arXiv논문

Sat3DGen: 단일 위성 이미지로부터의 포괄적인 거리 수준 3D 장면 생성

본 논문은 단일 위성 이미지로부터 거리 수준(street-level)의 포괄적이고 정확한 3D 장면을 생성하는 Sat3DGen 방법론을 제안합니다. 기존 모델들이 기하학적 충실도와 의미론적 다양성 사이에서 트레이드오프를 보이는 문제를 해결하기 위해, Sat3DGen은 새로운 기하학적 제약 조건과 투영 시점 학습 전략을 통합하여 '기하학 우선(geometry-first)' 패러다임을 강화했습니다. 이 방법론은 3D 정확도와 사진 실사성 모두에서 기존 최고 성능 모델 대비 비약적인 발전을 보여주었으며, 다양한 다운스트림 애플리케이션에 활용 가능함을 입증했습니다.

5월 15일2
arXiv논문

MicroscopyMatching: 다양한 조건에서의 현미경 이미지 분석을 위한 즉시 사용 가능한 프레임워크를 향하여

현미경 이미지를 이용한 생물학적 객체 분석은 중요하지만, 수동 작업은 비효율적이며 기존 딥러닝 기반 자동화 방식들은 다양한 실험 환경 설정에 적응하기 어려워 실질적인 활용성이 떨어지는 문제가 있었습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 다양한 현미경 이미지 분석 설정 전반에서 세그멘테이션, 추적, 계수 등 주요 작업을 안정적으로 수행할 수 있는 최초의 즉시 사용 가능한 프레임워크인 MicroscopyMatching을 제안합니다. 이 프레임워크는 모든 분석 작업을 통합된 매칭 문제로 재정의하고, 사전 학습된 잠재 확산 모델(Latent Diffusion Models)의 강력한 매칭 능력을 활용하여 문제를 효과적으로 해결합니다.

5월 15일1
arXiv논문

MHSA: Steered Attention을 통해 환각을 완화하는 LVLM을 위한 경량 프레임워크

MHSA(Mitigating Hallucinations via Steered Attention)는 대규모 시각-언어 모델(LVLMs)이 겪는 환각 문제를 완화하기 위해 제안된 경량 프레임워크입니다. 이 프레임워크는 LVLM의 교차 모달 어텐션 패턴을 학습하여 교정함으로써, 기존의 어텐션을 수정 없이 효과적으로 대체합니다. MHSA는 판별적 및 생성적 환각 모두를 완화하며, 모델의 신뢰성을 높이는 새로운 접근 방식을 제시합니다.

5월 15일1
arXiv논문

Viverra: 보증(Guarantees)을 포함한 Text-to-Code

Viverra는 Text-to-Code 과정에서 발생하는 코드 정확성 보증의 한계를 해결하기 위해 개발된 시스템입니다. 이 시스템은 자연어 작업 설명이 주어졌을 때, LLM이 안전성 및 정확성 속성을 나타내는 후보 어설션(candidate assertions)과 함께 C 프로그램을 합성하도록 유도합니다. 이후 Viverra는 경계 모델 검사기 포트폴리오를 사용하여 이러한 어설션을 구성적이고 최선의 노력 방식으로 검증하며, 이는 코드 이해와 신뢰도를 높이는 데 기여합니다.

5월 15일2
arXiv논문

멀티 로스 (Multi-Loss) 딥러닝을 사용하여 CT 베이스라인으로부터 난소암의 선행 화학요법 반응 예측하기

본 연구는 조영 증강 CT 이미지를 활용하여 난소암 환자의 선행 화학요법 반응을 예측하는 비침습적 딥러닝 프레임워크를 제안합니다. 이 모델은 자동 도출된 병변 마스크와 사전 학습된 이미지 인코더, 어텐션 기반 모듈을 결합하여 CT 슬라이스 표현을 볼륨 임베딩으로 통합합니다. 연구 결과, 개발된 아키텍처는 테스트 코호트에서 유의미한 예측 성능(ROC-AUC 0.73)을 보여주었으며, 이는 영상 기반 난소암 치료 전략 수립에 기여할 잠재력을 시사합니다.

5월 15일1
arXiv논문

자기 조직화 (Self-Organisation)를 가이드하기 위한 발달적 스캐폴딩 (Developmental Scaffoldings) 학습

본 연구는 자연계 시스템에서 복잡한 구조가 생성되는 '자기 조직화(self-organisation)' 과정에 초점을 맞추고, 이 과정이 초기 조건으로 오프로딩되는 정보의 역할을 탐구합니다. 이를 위해 자기 조직화 규칙과 사전 패턴을 공동 학습하는 새로운 모델을 제안하며, 신경 세포 자동자(NCA)와 SIREN을 결합하여 구현했습니다. 연구 결과, 사전 패턴과 자기 조직화 과정을 함께 학습시키는 것이 강건성, 인코딩 용량, 대칭성 깨짐 측면에서 개선 효과를 가져오며, 초기 조건이 단순히 목표 근사를 넘어 발달 역학에 편향(bias)을 주는 비자명한 관계가 있음을 보여줍니다.

5월 15일1
arXiv논문

EntityBench: 엔티티 일관성을 갖춘 장거리 멀티샷 비디오 생성을 향하여

본 논문은 장거리 멀티샷 비디오 생성의 핵심 과제인 엔티티 일관성 문제를 해결하기 위해 EntityBench라는 새로운 벤치마크를 제안합니다. 이 벤치마크는 실제 서사 미디어에서 유도된 140개 에피소드(2,491개 샷)로 구성되어 있으며, 다양한 재출현 간격과 명시적인 엔티티 스케줄을 제공합니다. 또한, 샷 내부 품질, 프롬프트 준수 정렬, 샷 간 일관성을 분리 평가하는 세 가지 기둥의 평가 스위트와 충실도 게이트를 포함하여 평가의 정확도를 높였습니다. 제안된 메모리 증강 생성 시스템인 EntityMem은 엔티티별 시각적 참조를 메모리 뱅크에 저장함으로써, 재출현 거리가 멀어지더라도 높은 캐릭터 일관성을 유지하는 성능을 입증했습니다.

5월 15일1
arXiv논문

기하학적 일관성을 위한 정량적 비디오 월드 모델 평가

본 논문은 생성형 비디오 모델의 핵심 과제인 물리적 타당성 및 기하학적 일관성을 정량적으로 평가하기 위한 새로운 프레임워크 PDI-Bench를 제안합니다. 기존의 주관적이거나 진단 능력이 부족했던 평가 방식과 달리, PDI는 세그멘테이션 및 포인트 트래킹을 통해 객체 중심 관측치를 얻고 이를 3D 월드 공간 좌표로 변환하여 기하학적 실패를 측정합니다. 이 프레임워크는 스케일-깊이 정렬, 3D 움직임 일관성, 3D 구조적 강성 세 가지 차원의 투영 기하학 잔차를 계산하며, 이를 통해 기존 지표로는 포착하기 어려웠던 물리적으로 근거 있는 실패 모드를 진단할 수 있습니다.

5월 15일2

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.