Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation

ActCam은 비디오 생성 과정에서 캐릭터의 동작과 카메라 궤적을 동시에 정밀하게 제어할 수 있는 Zero-Shot 방법을 제시합니다. 이 모델은 사전 학습된 이미지-비디오 확산 모델을 기반으로 하며, 장면 깊이와 캐릭터 포즈 조건을 입력받아 기하학적으로 일관된 비디오를 생성합니다. ActCam의 독특한 두 단계 조건부 스케줄링 프로세스는 초기 분해소에서 장면 구조를 강제하고, 이후 고주파수 세부 사항을 정교화하여 카메라 준수도와 동작 충실도를 크게 향상시킵니다.

5월 8일8

arXiv논문

Uno-Orchestra: 선택적 위임 기반 효율적인 에이전트 라우팅

Uno-Orchestra는 기존 LLM 다중 에이전트 시스템의 한계인 경직된 오케스트레이션 문제를 해결하기 위해 개발되었습니다. 이 프레임워크는 작업을 선택적으로 분해하고, 각 서브태스크를 허용 가능한 (모델, 원시) 쌍으로 전송합니다. 특히, 작업 분해와 워커(모델) 선택이라는 두 가지 결정을 실제 워커 상호작용 기반의 커티드 RL 궤적에서 공동 최적화하여 높은 정확도와 효율성을 동시에 달성했습니다.

5월 7일4

arXiv논문

확산 모델의 환각을 드러내는 로컬 내재 차원

본 논문은 확산 모델이 구조적 환각(hallucinations)을 일으키는 현상을 '모델 유도 다양체 상의 불안정성'으로 해석하고, 이를 완화하기 위한 새로운 접근 방식을 제안한다. 연구진은 이러한 불안정성의 근본 원인이 로컬 내재 차원(LID)에 있음을 밝혀내고, 이를 수정하는 메커니즘인 '본질 냉각(Intrinsic Quenching: IQ)'을 개발했다. IQ는 다양한 벤치마크에서 기존의 환각 감소 기법보다 우수한 성능을 보여주며, 특히 의료 영상 분야에서 해부학적 일관성을 유지하는 데 유용할 것으로 기대된다.

5월 7일9

arXiv논문

위치: 임베디드 AI 는 프라이버시 - 유틸리티 트레이드오프를 필요로 함

본 논문은 임베디드 AI(EAI) 시스템이 실제 환경에 적용되면서 발생하는 심각한 프라이버시 문제를 다룹니다. 기존 EAI 솔루션들은 각 구성 요소를 독립적으로 최적화하는 경향이 있어, 전체 라이프 사이클에서 발생할 수 있는 통합적인 프라이버시 위기를 간과하고 있습니다. 이를 해결하기 위해 저자들은 '안전한 프라이버시 통합(SPINE)'이라는 새로운 프레임워크를 제안하며, 프라이버시를 시스템 전반의 구조적 제약으로 다루어 EAI의 안전성과 기능성을 동시에 확보하는 방법을 제시합니다.

5월 7일10

arXiv논문

AoA 기반 실외 위치 추정: 대규모 및 소규모 학습 데이터셋을 위한 적응적 학습 전략 종합 프레임워크

본 논문은 5G/6G 환경에서 AoA(Angle of Arrival) 기반 실외 위치 추정의 정확도를 높이기 위한 적응적 학습 프레임워크를 제안합니다. 이 프레임워크는 데이터셋 크기에 따라 두 가지 전략을 제공하는데, 대규모 데이터가 있을 경우 계층적 오프라인 학습을 통해 고성능을 달성하고, 소규모 데이터만 있는 경우에는 온라인/점진적 학습(Few-Shot Learning 포함)을 활용하여 실시간으로 정확도를 개선할 수 있습니다. 이를 통해 대규모 데이터셋 구축의 어려움을 완화하며 높은 견고성을 확보합니다.

5월 7일6

arXiv논문

전기차 충전 수요의 초기 예측을 위한 연방 학습

본 연구는 전기차(EV) 충전 세션 초기의 제한된 정보만을 사용하여 총 에너지 수요를 정확하게 예측하는 방법을 제시합니다. 특히, 사용자 의도와 초기 행동 패턴을 포착하기 위해 메타데이터와 초기 충전 측정을 결합한 데이터셋을 구축했습니다. 또한, 연방 학습(FL) 환경에서 데이터를 분산 유지하면서 중앙 집중식 수준의 높은 예측 성능을 달성할 수 있음을 입증하여, 프라이버시를 보호하는 확장 가능한 충전 수요 예측 솔루션을 제공합니다.

5월 7일8

arXiv논문

목표된 목표 외의 정보량 있는 재료 데이터셋 구축

본 논문은 재료 과학 분야의 데이터 수집 비용 문제를 해결하기 위해, 목표 속성의 정보량을 최대화하면서도 미사용(비목표) 속성들의 성능을 보존하는 데이터셋 구축 프레임워크를 제안합니다. 이 접근법은 '다양성 인식 선택(diversity-aware selection)' 기법을 활용하여 재료 공간의 광범위한 커버리지를 확보합니다. 실험 결과에 따르면, 이 프레임워크는 무작위 샘플링 대비 목표 속성과 비목표 속성 모두에서 예측 성능을 크게 향상시키며, 데이터셋 구축 과정 전반에 걸쳐 편향 없는 고품질 데이터를 유지할 수 있음을 입증했습니다.

5월 7일11

arXiv논문

델타 기반 신경망 구조 생성: 코드 디프스를 통한 LLM 미세 조정

본 연구는 대규모 언어 모델(LLMs)을 활용하여 신경망 구조를 생성하는 기존 방식의 높은 계산 비용과 긴 코드 길이 문제를 해결하기 위해 '델타 코드 생성' 방식을 제안합니다. 이 방법은 전체 모델 코드를 처음부터 생성하는 대신, 기본 아키텍처에 대한 컴팩트한 통합 디프스(deltas)만을 생성하여 효율성을 극대화합니다. 연구진은 다양한 데이터셋과 여러 LLM을 사용하여 평가했으며, DeepSeek-Coder, Qwen2.5-Coder, Mistral 등 모든 모델이 기존의 전체 생성 기준선 및 동시 접근법보다 월등히 높은 성능(예: CIFAR-10 1 에포크 정확도)을 달성했음을 입증했습니다.

5월 7일9

arXiv논문

트랜스포머 보안 추론의 셔플링 방어에 대한 (불-)보안성

본 논문은 트랜스포머 모델의 암호학적 안전한 추론 과정에서 사용되는 '셔플링 방어(shuffling defense)'가 주장하는 것만큼 견고하지 않음을 보여줍니다. 연구진은 공통 순열과 다르게 섞인 활성화 값을 정렬하여 모델 가중치를 추출하는 새로운 공격 방법을 제안했습니다. Pythia-70m 및 GPT-2 실험을 통해, 이 공격이 매우 낮은 오차 범위에서도 성공적으로 작동하며 실제 환경에서 민감한 모델 정보를 복원할 수 있음을 입증했습니다.

5월 7일9

arXiv논문

Strat-Reasoner: 멀티 에이전트 게임에서 LLM 의 전략적 추론 강화

본 논문은 대규모 언어 모델(LLMs)이 다른 에이전트의 상호작용에 의해 결과가 결정되는 멀티 에이전트 게임 환경에서 전략적 추론 능력을 강화하는 새로운 RL 기반 프레임워크인 Strat-Reasoner를 제안합니다. 이 프레임워크는 에이전트의 추론 과정이 다른 에이전트의 추론 과정을 통합하는 반복적인 추론 패러다임을 도입했습니다. 또한, 중앙 집중식 CoT 비교 모듈을 사용하여 중간 추론 단계에 효과적인 보상 신호를 제공하고, 그룹 상대적 RL 접근법을 통해 LLM 정책 최적화를 수행하여 다양한 멀티 에이전트 게임에서 평균 22.1%의 성능 향상을 입증했습니다.

5월 7일9

arXiv논문

Curated AI beats frontier LLMs at pharma asset discovery

본 기사는 제약 자산 발견 분야에서 범용 LLM과 전문화된 AI 플랫폼을 비교 평가한 결과를 제시합니다. 연구진은 웹 검색 기능을 갖춘 네 가지 최첨단 LLM(Claude Opus 4.7, GPT 5.5, Gemini 3.1 Pro, Perplexity sonar-pro)과 자체 개발한 'Gosset' 플랫폼을 사용하여 10개의 니치 종양학/면역학 표적에 대한 약물 자산 주석 검색 성능을 비교했습니다. 그 결과, Gosset은 최첨단 시스템보다 쿼리당 검증된 약물 수를 3.2배 더 많이 반환하며 압도적인 성능 우위를 보였습니다. 이는 전문적으로 큐레이션된 인덱스를 활용하는 것이 일반 웹 검색 기반의 LLM보다 훨씬 효과적임을 시사합니다.

5월 7일18

arXiv논문

Zero-Shot 논리 규칙 유도용 기초 모델: Neural Rule Inducer (NRI)

Neural Rule Inducer (NRI)는 데이터에서 해석 가능한 논리 규칙을 학습하는 Zero-Shot 기반의 기초 모델입니다. 기존 ILP 방법들이 특정 술어에 묶여 재학습이 필요했던 한계를 극복하고, 클래스 조건부 확률 등 도메인 무관 통계적 속성을 사용하여 리터럴을 표현합니다. NRI는 병렬 슬롯 디코더와 곱 T-노름 완화 기법을 통해 논리 합의 순열 불변성을 유지하며, 규칙 복원 및 Zero-Shot 전이 성능에서 우수한 결과를 보여줍니다.

5월 7일6

arXiv논문

다중 에이전트 과학 아이디어 생성을 위한 학습 가능한 수정 및 커밋을 갖춘 진화하는 아이디어 그래프

본 기술 기사는 LLM 기반 다중 에이전트 시스템을 활용하여 과학 아이디어를 생성하는 새로운 프레임워크인 '진화하는 아이디어 그래프(Evolving Idea Graphs, EIG)'를 소개합니다. 기존의 텍스트 기반 접근 방식과 달리, EIG는 아이디어를 노드(과학적 주장)와 엣지(관계)로 구성된 그래프 구조로 표현하여, 아이디어 발전 과정에서 발생하는 약점이나 해결되지 않은 부분을 명확하게 추적할 수 있게 합니다. 이 프레임워크는 학습된 수정 및 커밋 컨트롤러를 통해 에이전트가 그래프를 체계적으로 개선하고 최종 제안서 형태로 완성하는 과정을 안내하며, 기존 벤치마크에서 높은 성능을 입증했습니다.

5월 7일13

arXiv논문

단세포 RNA-seq 데이터 기반 유전자 조절 네트워크 추론에서 인과적 방법은 언제 실패하는가? 상관관계 기반 방법의 진단 연구

본 논문은 단일 세포 RNA-seq 데이터 기반 유전자 조절 네트워크(GRN) 추론에서 인과적 방법이 상관관계 기반 방법보다 항상 우월하다는 기존의 가정을 재검토한다. 연구진은 드롭아웃, 잠재적 혼란 변수 등 7가지 생물학적 병리학적 요인을 분리하여 통제된 진단 프레임워크를 구축하고, 다양한 추론 방법들이 이러한 요인에 따라 어떻게 성능이 저하되는지 체계적으로 분석했다. 그 결과, 인과적 방법은 깨끗한 환경에서는 우수하지만, 드롭아웃이나 잠재적 혼란 변수 같은 특정 병리학적 조건 하에서는 그 장점이 중립화될 수 있음을 밝혀냈다.

5월 7일6

arXiv논문

DART: 종합적인 로프 상태 감시를 위한 비전-언어 기반 모델

DART(Damage Assessment via Rope Transformer)는 합성 섬유 로프(SFRs)의 상태 모니터링(CM)을 위한 비전-언어 기반 통합 모델입니다. 이 모델은 Vision Transformer와 Llama-3.2를 결합하고, Joint-Embedding Predictive Architecture (JEPA)를 크로스 모달 도메인으로 확장하여 다중 작업 아키텍처를 구현했습니다. DART는 손상 분류, 연속적 심각도 회귀, 그리고 few-shot 인식 등 다양한 로프 검사 작업을 단일 백본에서 수행할 수 있어, 기존의 분류기 기반 시스템을 뛰어넘는 일반적인 CM 솔루션을 제공합니다.

5월 7일9

arXiv논문

협업 로봇 군집을 위한 모듈형 강화학습

본 논문은 공통 목표를 공유하지만 상호작용 범위가 제한적인 협업 로봇 군집을 위한 다중 에이전트 강화학습(MARL) 문제를 다룹니다. 기존의 접근 방식은 모든 가능한 조합적 상태를 표현해야 하므로 메모리 한계에 직면합니다. 이에 본 논문은 상태 공간 상호작용을 효율적으로 표현하기 위해 모듈형(분해된) 표현 방식을 제안하며, 각 특징을 독립적으로 학습하고 결과를 집계하여 이 문제를 해결하는 방법을 제시했습니다.

5월 7일8

arXiv논문

EP-GRPO: 결과적 진행에 기반한 엔트로피·진행 정렬 그룹 상대 정책 최적화 및 암시적 프로세스 안내

본 논문은 LLM 추론의 한 방법인 그룹 상대 정책 최적화(GRPO)가 겪는 세 가지 주요 문제점(균일한 토큰 수준, 균일한 극성, 제로 분산 붕괴)을 분석하고 이를 해결하기 위한 새로운 프레임워크인 엔트로피·진행 정렬 GRPO(EP-GRPO)를 제안합니다. EP-GRPO는 엔트로피 게이트드 조절을 통해 높은 정보적 가치를 가진 결정 전환점을 강조하며, 결과 기반의 방향성 피드백과 누적 엔트로피 매핑을 통합하여 학습 효율성과 정확도를 크게 향상시킵니다.

5월 7일13

arXiv논문

이동량 재형성 최적 전송 (ReshapeOT) 을 통한 분포 이동을 신뢰할 수 있는 모델링

본 논문은 분포 이동을 모델링하는 최적 전송(Optimal Transport, OT) 프레임워크를 개선한 '이동량 재형성 최적 전송(ReshapeOT)' 방법을 제안합니다. ReshapeOT는 관찰된 샘플 이동량을 추가 지식원으로 활용하여 기본 거리를 재구성함으로써, 기존의 유클리드 거리 대신 마할라노비 거리와 같은 더 정교한 메트릭을 사용합니다. 이 방법은 계산 효율적이며 다양한 OT 솔버에 쉽게 통합될 수 있으며, 합성 및 실제 데이터에서 전송 신뢰성을 크게 향상시키는 것으로 입증되었습니다.

5월 7일11

arXiv논문

기술 신조어: 기술 기반 지속 학습을 위한 방향

본 기사는 LLM의 능력을 새로운 기술에 맞춰 확장하는 어려움을 다루며, 기존 파인튜닝 방식의 한계(재기억 위험)와 컨텍스트 기반 접근법의 제한성을 지적합니다. 이를 해결하기 위해 '기술 신조어(skill neologisms)'라는 개념을 제안하는데, 이는 모델 가중치 업데이트 없이 특정 기술 능력을 선택적으로 확장하는 방법입니다. 연구 결과, 이 신조어가 사전 학습된 LLM에 통합되어 다양한 기술과 조합 가능하며, 심지어 제로샷으로도 기능을 수행할 수 있음을 입증했습니다.

5월 7일11

arXiv논문

왜 심층 신경망에서 기하학적 연속성이 나타나는가: 잔여 연결과 회전 대칭성 파괴

본 기사는 심층 신경망의 가중치 행렬이 가지는 '기하학적 연속성' 현상의 원인을 탐구합니다. 연구 결과, 이 연속성은 잔여 연결(residual connections)을 통한 층 간 기울기 일관성과 대칭성을 파괴하는 비선형성(symmetry-breaking nonlinearities)의 조합에 의해 발생함을 밝혀냈습니다. 특히, 활성화 함수와 정규화가 각각 주된 특이값 방향과 여러 방향으로 연속성을 집중시키거나 분산시키는 등 서로 다른 역할을 수행하며, 트랜스포머 구조에서 각 투영 메커니즘(Q, K, Gate, Up vs O, Down)의 역할 차이를 분석했습니다.

5월 7일8

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드