© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2012건필터 해제

VISTA: GUI Grounding을 위한 뷰 일관성 기반 자기 검증 학습

VISTA는 GUI Grounding 성능 향상을 위해 뷰 일관성 기반의 자기 검증 학습 프레임워크를 제안합니다. 동일한 GUI 인스턴스의 다양한 뷰를 활용하여 GRPO 학습의 효율성을 높이고, 자기 검증 앵커를 통해 좌표 생성의 안정성을 확보합니다.

이종 철도 시스템에서 장애 인지형 동적 경로 최적화를 위한 시계열 계획 프레임워크

이종 철도 시스템의 복잡한 경로 최적화와 장애 대응을 위한 시계열 계획(Temporal planning) 프레임워크를 제안합니다. PDDL 2.1을 활용해 궤도 호환성 및 확률적 장애를 모델링하며, 자동화된 운영 계획 생성을 통해 안전성을 높입니다.

CARE: 과학 실험에서의 증거에 대한 감사 가능한 검토를 통한 LLM 생성 정책 제어

과학 실험 최적화를 위해 LLM의 창의성과 기존 최적화 도구의 안정성을 결합한 CARE 시스템을 제안합니다. 증거 기반의 감사 가능한 검토 과정을 통해 LLM이 생성한 정책을 검증하며, 벤치마크 테스트에서 기존 방식보다 뛰어난 성능 향상을 입증했습니다.

AudioDER: 사후 학습(Post-Training)을 위한 대규모 오디오-언어 모델용 중복 제거 강화 추론 데이터셋

대규모 오디오-언어 모델(LALMs)의 추론 능력을 향상시키기 위해 중복을 제거하고 사고 사슬(CoT)을 포함한 새로운 데이터셋 AudioDER를 제안합니다. 음향 유사도 기반의 중복 제거와 Qwen3-30B를 활용한 데이터 구축을 통해 모델의 성능을 효과적으로 개선합니다.

모바일 헬스를 위한 다중 시계열 행동 예측용 딥러닝 아키텍처 비교 연구

웨어러블 및 스마트폰 데이터를 활용한 다중 시계열 행동 예측을 위해 6개의 딥러닝 아키텍처와 2개의 파운데이션 모델을 비교 연구했습니다. PatchTST가 우수한 성능을 보였으며, TimesFM과 같은 파운데이션 모델의 제로샷 성능과 개인화 미세 조정의 효과를 검증했습니다.

잠재 모델링을 위한 민감도 형성 (Sensitivity Shaping for Latent Modeling)

생성적 역학 모델에서 OOD 전이를 신뢰성 있게 탐지하기 위한 새로운 정규화 방법을 제안합니다. 제어 입력 변화에 대한 국소적 민감도를 촉진하여, 실제 예측 오차가 큼에도 OOD 신호가 억제되는 문제를 해결합니다.

잠재 공간의 달빛: 베토벤 Op. 27 No. 2와 머신러닝 메커니즘 사이의 카이랄성(Chirality) 및 구조적 대응 관계

베토벤의 월광 소나타 악장 구조와 머신러닝 아키텍처 간의 구조적 대응 관계를 계산적으로 분석한 연구입니다. 음악적 특징을 엔트로피, 임베딩, 메모리 아키텍처 관점에서 해석하고, 역 소니피케이션을 통해 정보의 카이랄성을 정량화했습니다.

전문가 기반 생존 기계: 다중 임상 코호트에서의 층화 및 해석 가능성 개선

환자 하위 그룹 간의 차이를 반영하기 위해 전문가 혼합(MoE) 프레임워크를 활용한 새로운 생존 예측 모델 AdaCSM을 제안합니다. 이 모델은 라우팅 기반 전문가 메커니즘을 통해 환자를 전문화된 예측기에 동적으로 할당하여 예측 성능과 해석 가능성을 높였습니다.

검증기가 나빠질 때: 자기 개선형 VLM이 새로운 작업에서 퇴보할 수 있는 이유

자기 개선형 VLM 학습 시 검증기의 품질이 작업별로 상이하여 모델 성능이 오히려 퇴보할 수 있음을 분석한 연구입니다. 검증기의 루브릭 정확도가 낮을 경우 DPO 학습이 오답을 강화하는 현상을 기계론적으로 설명합니다.

MiniMax Sparse Attention

MiniMax는 초장기 컨텍스트 처리를 위한 새로운 블록 단위 희소 어텐션 기술인 MSA를 발표했습니다. GQA를 기반으로 설계된 MSA는 연산량을 획기적으로 줄이면서도 높은 성능과 GPU 실행 효율성을 유지합니다.

TextHOI-3D: 이산적 다중 뷰 생성 및 공동 메쉬 최적화를 통한 텍스트 기반 3D 손-물체 상호작용

TextHOI-3D는 텍스트를 기반으로 손과 물체의 3D 상호작용 메쉬를 생성하는 새로운 프레임워크를 제안합니다. VQ 토큰 공간과 CLIP 기반 자기회귀 모델을 활용하여 다중 뷰 시각 토큰을 생성하고, 이를 통해 기하학적으로 정교한 3D 메쉬를 복원합니다.

재구성 왜곡에 대한 강건성을 위한 특징 정렬 음성 워터마킹 (Feature-Aligned Speech Watermarking)

음성 재구성 모델에 의한 워터마크 억제를 방지하기 위해 특징 정렬(Feature-Aligned) 방식을 제안합니다. 워터마크를 음성 특징 분포와 정렬하여 인지 불가능성을 유지하면서도 재구성 왜곡에 대한 강건성을 높였습니다.

의학 연구 분석을 위한 기술 증강 AI 에이전트: NSCLC 전사체 바이오마커 과업에서의 탐색적 다중 모델 인간 평가

의학 연구 분석을 위해 기술 증강(skill-augmented) AI 에이전트와 기존 AI의 성능을 비교 평가한 연구입니다. NSCLC 바이오마커 과업을 통해 에이전트 방식이 더 높은 품질의 분석 결과를 생성하는 경향을 확인했으나, 확증적 결론을 위해서는 더 대규모의 검증이 필요함을 시사합니다.

LASA: 오픈 어휘(Open-Vocabulary) 장면 스케치 시맨틱 세그멘테이션을 위한 약지도 학습 방법론

LASA는 스케치 이미지의 시맨틱 세그멘테이션을 위해 제안된 약지도 학습 방법론입니다. Vision Transformer의 레이어별 어텐션 맵을 집계하여 구조적 정보를 활용함으로써, 질감과 색상이 부족한 스케치에서도 높은 정확도를 구현합니다.

AI 지원 포커스 그룹 설계: 역할 및 양식 플레이북

생성형 AI를 활용하여 포커스 그룹 인터뷰의 효율성을 높이는 방법론적 플레이북을 제안합니다. AI의 역할(도구, 공동 호스트, 호스트)과 양식(텍스트, 음성, 체화된 양식)에 따른 상호작용 방식과 방법론적 위험을 분석합니다.

파라미터 클러스터링을 이용한 음성 파운데이션 모델의 데이터 프리 및 트레이닝 프리 압축 연구

k-means 클러스터링을 활용하여 음성 파운데이션 모델을 데이터와 트레이닝 없이 압축하는 새로운 연구를 제시합니다. HuBERT 및 Whisper 모델 실험 결과, 기존 방식 대비 현저히 낮은 단어 오류율(WER)을 기록하며 압축 성능을 입증했습니다.

StatefulDiscovery: 개방형 과학적 발견에서의 증거 교정 기반 주장 형성

에이전트가 과학적 발견 과정에서 과잉 해석을 피하고 증거에 기반해 주장을 형성할 수 있도록 돕는 StatefulDiscovery 프레임워크를 소개합니다. 조사 상태를 외재화하여 프런티어 선택과 증거 획득을 조정함으로써 더 신뢰할 수 있는 발견을 가능하게 합니다.

동적 멀티모달 인컨텍스트 러닝을 위한 태스크 인지 구조화 메모리 (Task-Aware Structured Memory)

멀티모달 거대 언어 모델(MLLM)의 인컨텍스트 러닝 효율성을 높이기 위한 새로운 프레임워크 TASM을 제안합니다. TASM은 태스크 벡터 가이드 압축과 의미 인지적 토큰 병합을 통해 KV 캐시 비용을 줄이면서도 모델의 성능과 적응성을 유지합니다.

끝까지 이어지는 에이전트: 기저층부터 프로덕션까지 커스텀 AI 에이전트를 구축하기 위한 방법론

커스텀 AI 에이전트를 기저층부터 프로덕션 단계까지 엔드 투 엔드로 구축하기 위한 'Agents All the Way Down' 방법론을 제시합니다. 특정 프레임워크에 의존하지 않고 LLM을 도구와 시스템으로 프레임화하여 지속 가능한 에이전트를 만드는 과정을 다룹니다.

AV2 2026 시나리오 마이닝 챌린지를 위한 AutoMine 솔루션

자율 주행 로그에서 가치 있는 시나리오를 추출하는 AutoMine 방법론을 제안합니다. LLM과 VLM을 활용한 자기 개선 기술과 의미 보존형 프롬프트 증강을 통해 데이터 기반 평가의 효율성을 높였습니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.