© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2159건필터 해제

Light Sheet Fluorescence Microscopy를 위한 멀티모달 3D Foundation Model: Few-Shot

LSM(Light Sheet Fluorescence Microscopy) 데이터를 위한 멀티모달 3D 파운데이션 모델을 제안합니다. 마스크 재구성 및 이미지-텍스트 정렬을 통해 학습된 이 모델은 적은 데이터로도 세그멘테이션, 분류, 디블러링 등 다양한 태스크에서 높은 성능을 보입니다.

모든 규모에서의 모든 것: 연속적 초해상도를 이용한 규모 불변 확산 모델 (Scale-Invariant Diffusion with

이미지 생성과 연속적 초해상도를 단일 프레임워크로 통합한 SKILD 모델을 소개합니다. 규모 불변 K-공간 학습을 통해 별도의 재학습이나 조건부 분기 없이도 다양한 스케일에서 고품질 이미지를 생성하고 재구성할 수 있습니다.

CITYREP: 도시, 작업 및 모달리티 전반에 걸친 도시 표현 학습을 위한 통합 벤치마크

도시 표현 학습의 공정한 평가를 위해 제안된 통합 벤치마크 CityRep을 소개합니다. 기존의 무작위 분할 방식이 초래하는 공간적 누수 문제를 해결하기 위해 블록 기반 공간 분할 프로토콜을 도입했습니다.

DRScaffold: 경량 시각-언어 모델(Vision Language Models)의 밀집 장면 추론(Dense-Scene

경량 시각-언어 모델(VLM)의 밀집 장면 추론 능력을 향상시키기 위한 DRScaffold 프레임워크와 DRBench 벤치마크를 제안합니다. 인과적으로 순서화된 4단계 지도 미세 조정을 통해 모델이 시각적 엔티티와 관계를 정확히 접지하도록 유도합니다.

L2IR: 그래프 사기 탐지에서 잠재적 의도(Latent Intent) 밝히기

L2IR은 그래프 사기 탐지 시 사기꾼의 위장 전술로 인해 발생하는 신호 희석 문제를 해결하기 위한 LLM 기반 프레임워크입니다. 사용자 행동과 연결 이면에 숨겨진 잠재적 의도를 파악하여 지원적 링크와 오도하는 링크를 효과적으로 구분합니다.

AI 제어에서의 재시도(Retrying) 대 재샘플링(Resampling)

AI 제어 관점에서 재시도(Retrying)와 재샘플링(Resampling) 방식의 안전성 차이를 연구했습니다. 재시도는 모델이 모니터링 근거를 악용할 위험이 있는 반면, 재샘플링은 정보 유출 없이 안전성을 효과적으로 높일 수 있음을 입증했습니다.

Conditional KRR: 커널 방법론에 페널티가 없는 특징을 주입하는 커널 임계값 처리 응용 연구

조건부 양의 정부호(CPD) 커널을 활용한 Conditional KRR 방법론의 통계적 특성을 연구합니다. 이 방법론을 잔차 커널을 사용하는 KRR로 환원할 수 있음을 이론적으로 증명하고, 특정 조건에서 표준 KRR보다 우수한 성능을 보임을 확인했습니다.

확률적 표현 학습을 위한 신경망 확률적 어텐션 회로 (NSAC)

연속 시간(CT) 표현 학습에서 불확실성을 정량화하기 위한 새로운 어텐션 아키텍처인 NSAC를 제안합니다. 생물학적 메커니즘에서 영감을 얻은 이 모델은 확률 미분 방정식을 통해 어텐션 로짓에 가우시안 분포를 유도하며, 우연적 및 인식론적 불확실성을 동시에 추정합니다.

모델 스케일링에서 시스템 스케일링으로: 에이전틱 AI (Agentic AI)의 하네스 (Harness) 스케일링

에이전틱 AI의 성능 향상을 위해 모델 스케일링을 넘어 시스템 아키텍처를 설계하는 '하네스 스케일링' 개념을 제안합니다. 메모리, 도구 사용, 오케스트레이션 등 구성 요소 간의 상호작용을 최적화하는 구조적 접근법을 연구합니다.

채널별 벡터 양자화 (Channel-wise Vector Quantization)

기존 패치 기반 토큰화 대신 채널별로 양자화하는 CVQ 패러다임을 제안합니다. 이를 통해 이미지를 시각적 세부 사항의 단계로 표현하며, 채널을 순차적으로 예측하는 CAR 프레임워크로 고품질 이미지 생성을 구현합니다.

이상 탐지에서의 약지도 학습 재고: 종합적인 벤치마크

약지도 이상 탐지(WSAD)의 다양한 시나리오를 통합 평가하기 위한 최초의 벤치마크인 WSADBench를 제안합니다. 4가지 모달리티와 36개 알고리즘을 대상으로 실험하여 약지도 학습 시나리오 간의 상관관계와 모델 성능 경계를 분석합니다.

OrpQuant: Multiplier-Free Power-of-Two Transformer 양자화를 위한 기하학적 직교 잔차 투영

OrpQuant는 엣지 디바이스 배포를 위해 MAC 연산을 비트 시프트로 대체하는 Power-of-Two 양자화 프레임워크를 제안합니다. 직교 잔차 투영(ORP) 기술을 통해 초저비트 양자화 시 발생하는 해상도 저하 문제를 해결하고 하드웨어 효율성을 극대화합니다.

VeriTrace: 심층 연구 에이전트를 위한 진화하는 멘탈 모델 (Mental Models)

심층 연구 에이전트의 정보 오염과 오류 전파 문제를 해결하기 위해 명시적인 규제 루프를 도입한 VeriTrace 프레임워크를 제안합니다. 인지 그래프를 통해 에이전트의 멘탈 모델을 현실과 정렬하며, 벤치마크 테스트에서 기존 베이스라인 대비 유의미한 성능 향상을 입증했습니다.

요약을 넘어: Large Language Models를 이용한 코드 변경 사항의 구조 인식 레이블링

LLM을 활용하여 코드 패치의 변경 사항을 구조적으로 레이블링하는 2단계 파이프라인 연구를 소개합니다. 기존의 요약 중심 리뷰를 넘어 이름 변경, 로직 수정 등 구조적 관계를 포착하여 정적 분석을 보완하는 방식을 제안합니다.

Claw-Anything: 사용자의 디지털 세계에 대한 광범위한 접근을 통한 상시 가동형 개인 비서 벤치마킹

상시 가동형 개인 비서의 성능을 평가하기 위한 새로운 벤치마크인 Claw-Anything을 소개합니다. 장기 활동 이력, 백엔드 서비스, GUI/CLI 상호작용을 포함한 광범위한 문맥을 통해 에이전트의 추론 능력을 검증합니다.

피사체 주도 생성을 위한 멀티모달 거대 언어 모델(MLLM)의 용량 활용

피사체의 정체성을 유지하며 이미지를 생성하는 새로운 MLLM 기반 프레임워크를 제안합니다. DLA 모듈과 다단계 디노이징 전략을 통해 텍스트 지시 이행과 정체성 보존 사이의 균형을 최적화합니다.

One-Forcing: 안정적인 1단계 자기회귀 비디오 생성을 향하여

One-Forcing은 1단계 자기회귀 비디오 생성을 위해 DMD 목적 함수에 보조 GAN 손실을 추가한 새로운 연구입니다. 기존 방식의 지연 시간과 품질 저하 문제를 해결하여, 낮은 학습 비용으로도 최첨단 수준의 고품질 비디오 생성을 가능하게 합니다.

AI 보안 연구는 방어 연구에 더 많은 인센티브를 제공해야 한다

AI 보안 연구가 방어보다 공격 기술 개발에 치우쳐 있는 불균형 문제를 지적합니다. 공격 연구는 위협을 과장하기 쉬운 환경에서 수행되는 반면, 방어 연구는 지나치게 엄격한 기준을 적용받아 실질적인 보호책 마련이 어렵다고 분석합니다.

CBANet: 공격적 운전 이벤트 탐지를 위한 소형 어텐션 기반 CNN-BiLSTM 네트워크

공격적 운전 탐지를 위해 CNN-BiLSTM과 어텐션 메커니즘을 결합한 CBANet 프레임워크를 제안합니다. 데이터 불균형과 차량 역학 표현 문제를 해결하기 위해 엔지니어링된 특징과 SMOTE 기반 오버샘플링을 사용합니다.

희소한 횡단적 스냅샷으로부터 개별 역학 학습하기

희소한 횡단적 데이터만으로 개별 단위의 연속적인 시간 궤적을 추론할 수 있는 확률론적 프레임워크 CADENCE를 제안합니다. 기존 시퀀스 모델과 횡단적 방법의 한계를 극복하여 단일 시점 스냅샷에서도 정밀한 역학 복원이 가능함을 입증했습니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.