Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

PACD-Net: SMBG로부터의 혈당 조절 추정을 위한 의사 증강 대조 증류 (Pseudo-Augmented Contrastive

PACD-Net은 자가 혈당 측정(SMBG)의 희소하고 불규칙한 데이터 문제를 해결하기 위해 제안된 자기 지도 대조 지식 증류 프레임워크입니다. Pseudo-SMBG를 교사 신호로 활용하고 다중 뷰 대조 학습을 통해 표현 일관성을 확보하며, Swin Transformer-CNN 하이브리드 구조를 사용하여 혈당 조절 지표(TIR, TBR, TAR)를 정확하게 추정합니다.

5월 21일0

arXiv논문

악마는 조건수(Condition Numbers)에 있다: 왜 GLU 구조가 비-GLU 구조보다 더 나은가?

본 연구는 GLU(Gated Linear Units) 구조가 기존 비-GLU 구조보다 우수한 성능을 보이는 근본적인 원인을 NTK(Neural Tangent Kernel) 관점에서 분석합니다. 분석 결과, GLU는 NTK 스펙트럼을 재구성하여 더 작은 조건수와 조밀한 고윳값 분포를 유도함으로써 학습 수렴 속도를 가속화하는 것으로 나타났습니다. 또한, GLU의 주요 이점은 일반화 성능 향상보다는 최적화 과정의 효율성에 있음을 실험적으로 입증했습니다.

5월 21일0

arXiv논문

사전 조건화된 언어 모델 옵티마이저의 확률적 업데이트 편향 수정

본 연구는 사전 조건화된 옵티마이저(Preconditioned optimizers) 학습 시 발생하는 두 가지 유한 샘플 편향, 즉 그래디언트-사전 조건화 결합 편향과 비선형 역산 과정에서의 편향을 분석합니다. 이를 해결하기 위해 교차 적합 사전 조건화와 분산 수정 역산 기술을 결합한 단일 배치 편향 수정 프레임워크를 제안합니다. 실험 결과, AdamW, Sophia, Shampoo 등의 옵티마이저에서 Qwen2.5-0.5B 모델의 사전 학습 손실을 유의미하게 감소시킴을 확인했습니다.

5월 21일0

arXiv논문

조합적 보상 하에서의 Flow 모델을 위한 충돌 인식 가산 가이드 (Conflict-Aware Additive Guidance)

본 연구는 여러 제약 조건을 동시에 적용할 때 발생하는 Flow 모델의 매니폴드 외 이탈(off-manifold drift) 문제를 해결하기 위한 '충돌 인식 가산 가이드(Conflict-Aware Additive Guidance, $g^{car}$)'를 제안합니다. 기존 방식이 그래디언트 불일치로 인해 생성 품질이 저하되는 문제를 동적 탐지 및 교정 메커니즘을 통해 극복하였으며, 이미지 편집 및 생성적 의사결정 등 다양한 도메인에서 우수한 성능을 입증했습니다.

5월 21일0

arXiv논문

Tunable MAGMAX: 지속적 학습 (CL)을 위한 선호도 인식 모델 병합 (Preference-Aware Model Merging)

Tunable MAGMAX는 지속적 학습(CL) 과정에서 발생하는 파괴적 망각을 완화하면서, 사용자의 선호도에 따라 태스크별 성능을 조절할 수 있는 새로운 모델 병합 프레임워크입니다. 선호도 벡터를 도입하여 각 태스크 벡터의 기여도를 제어하며, 소량의 데이터를 통해 이 벡터를 자동으로 구축함으로써 다양한 배포 환경에 유연하게 적응할 수 있습니다.

5월 21일0

arXiv논문

DPO와 RLHF의 조건부 동등성: 암묵적 가정, 실패 모드 및 증명 가능한 정렬

본 논문은 DPO와 RLHF 사이의 이론적 동등성이 특정 암묵적 가정 하에서만 성립하는 조건부적 관계임을 증명합니다. RLHF-최적 정책이 인간의 선호도를 반드시 따를 것이라는 가정이 깨질 경우, DPO는 인간의 선호가 아닌 참조 정책 대비 상대적 이점만을 최적화하는 병리적 수렴 문제를 겪을 수 있습니다. 이를 해결하기 위해 저자들은 제약 조건을 추가하여 증명 가능한 정렬을 제공하는 CPO(Constrained Preference Optimization)를 제안합니다.

5월 21일0

arXiv논문

ArchSIBench: 시각-언어 모델(VLMs)의 건축적 공간 지능 벤치마킹

ArchSIBench는 시각-언어 모델(VLMs)의 고차원적인 건축적 공간 인지 능력을 평가하기 위해 제안된 새로운 벤치마크입니다. 인지, 추론, 내비게이션 등 5가지 차원과 17개의 하위 작업을 통해 기존의 기초적인 공간 인지 평가를 넘어 레이아웃 및 기능적 구획 이해를 측정합니다. 실험 결과, 최신 모델들도 공간 변형 및 구성 추론 측면에서는 전문가 수준에 미치지 못하는 한계를 보였습니다.

5월 21일0

arXiv논문

USV: 사용자 생성 숏폼 비디오 이해를 향하여

본 논문은 사용자 생성(UGC) 숏폼 비디오의 고수준 의미론적 이해를 위한 새로운 데이터셋인 USV를 제안합니다. USV는 별도의 수동 검증 없이 수집된 약 224K개의 비디오를 포함하며, 기존의 인스턴스 수준 인식을 넘어 주제 인식 및 비디오-텍스트 검색 태스크를 지원합니다. 이를 위해 MMF-Net과 VTCL이라는 두 가지 통합 베이스라인 모델을 함께 제시합니다.

5월 21일0

arXiv논문

VISTA: EgoVis 2026의 Ego4D 단기 객체 상호작용 예측(STA) 챌린지를 위한 기술 보고서

VISTA는 EgoVis 2026의 Ego4D 단기 객체 상호작용 예측(STA) 챌린지에서 1위를 달성한 기술 보고서입니다. V-JEPA 2.1의 시계열 문맥과 Faster R-CNN의 공간 탐지 능력을 결합하여, 1인칭 시점 비디오에서 미래의 객체 상호작용을 정밀하게 예측합니다.

5월 21일0

arXiv논문

검증 가능한 보상을 활용한 강화학습을 위한 다단계 우도비 교정 (Multi-Step Likelihood-Ratio Correction)

본 연구는 LLM의 추론 능력 향상을 위한 RLVR(Reinforcement Learning with Verifiable Rewards) 과정에서 발생하는 PPO 대리 목적 함수의 구조적 편향 문제를 해결하고자 합니다. $N$-step forward trace를 도입한 NFPO 알고리즘을 통해 PPO와 정확한 정책 경사 사이의 간극을 메우고, 편향-분산 트레이드오프를 효과적으로 제어합니다. 실험 결과, NFPO는 표준 PPO보다 더 타이트한 정책 개선 경계를 생성하며 추론 벤치마크에서 일관된 성능 향상을 입증했습니다.

5월 21일0

arXiv논문

범용 에이전트를 위한 설계 기반의 거버넌스 (Governance by Construction)

기업용 에이전트의 안전한 배포를 위해 모델 미세 조정 없이도 정책을 강제할 수 있는 '설계 기반의 거버넌스(Governance by Construction)' 아키텍처를 제안합니다. CUGA 정책 시스템은 모듈형 Policy-as-code 레이어를 통해 에이전트의 계획, 도구 호출, 인간 개입, 출력 등 실행 파이프라인 전반에 걸쳐 예측 가능하고 감사 가능한 동작을 보장합니다.

5월 21일0

arXiv논문

분산 LLM 에이전트 워크플로의 런타임 검증을 위한 인과적 과거 논리 (Causal Past Logic)

비동기 실행 환경의 분산 LLM 에이전트 워크플로를 위해 인과적 과거 논리(Causal Past Logic, CPL)를 도입하여 런타임 검증을 수행합니다. ZipperGen 프레임워크를 확장하여 가드(Guard)가 다른 라이프라인의 인과적으로 보이는 이벤트를 검사할 수 있도록 하며, 이를 통해 런타임 검증을 사후 점검이 아닌 조정 언어의 핵심 요소로 통합합니다.

5월 21일0

arXiv논문

망각 없이 올바른 시각적 증거 찾기: 계층 간 시각적 어텐션 불일치를 통한 LVLM의 환각 완화

본 연구는 LVLM이 생성 과정에서 시각적 증거에 대한 주의를 점진적으로 망각하여 환각을 일으킨다는 점을 발견하고, 이를 해결하기 위한 ILVAD(Inter-Layer Visual Attention Discrepancy) 방법을 제안합니다. 계층 간 시각적 어텐션 불일치를 활용해 시각적 증거를 강화하는 돌출 맵(saliency map)을 형성하며, 별도의 학습이 필요 없는 플러그 앤 플레이 방식으로 환각을 완화합니다.

5월 21일0

arXiv논문

DySink: 자기회귀적 장기 비디오 생성을 위한 동적 프레임 싱크 (Dynamic Frame Sinks)

DySink는 자기회귀적 장기 비디오 생성 시 발생하는 '싱크 붕괴(sink collapse)' 현상을 해결하기 위해 제안된 검색 기반 프레임워크입니다. 기존의 고정된 초기 프레임 싱크 방식 대신, 시각적으로 관련성이 높은 과거 프레임을 동적으로 선택하여 메모리 효율성과 시간적 품질을 동시에 향상시킵니다.

5월 21일0

arXiv논문

가짜 이미지 탐지를 위한 딥러닝 모델의 비교 평가

본 연구는 GAN 기반의 정교한 이미지 조작에 대응하기 위해 VGG16, ResNet50, EfficientNetB0, XceptionNet 등 네 가지 CNN 아키텍처의 가짜 이미지 탐지 성능을 비교 평가했습니다. 실험 결과 VGG16이 91%로 가장 높은 정확도를 보였으며, 데이터 불균형과 과적합 문제를 해결하기 위한 데이터 증강 및 공정성 기반 학습의 중요성을 제시했습니다.

5월 21일0

arXiv논문

역기구학 (Inverse Kinematics)을 통한 주행 VLA의 그라운딩 (Grounding) 구현

기존 주행 VLA 모델이 시각적 정보를 무시하고 자차 상태와 텍스트에만 의존하는 문제를 역기구학(Inverse Kinematics) 관점에서 재정의하고 해결책을 제시합니다. 미래 시각 상태 예측 목적 함수와 시각 정보 중심의 역기구학 네트워크를 도입하여, 0.5B 규모의 작은 모델로도 7B~8B 규모의 대형 모델과 대등한 궤적 계획 성능을 달성했습니다.

5월 21일0

arXiv논문

누적 명제 의존 논리(Cumulative Propositional Dependence Logics)의 함의(Entailment) 복잡성에 대하여

본 논문은 누적 명제 의존 논리(cumulative propositional dependence logic)와 팀 의미론을 기반으로 한 누적 명제 논리의 함의(entailment) 복잡성을 분석합니다. System C로 특징지어지는 누적 논리의 특성을 바탕으로, 관계 모델(relational models)을 통한 함의 문제의 복잡성 결과를 확립하고 증명하는 데 중점을 둡니다.

5월 21일0

arXiv논문

AutoRPA: LLM 기반 상호작용을 통한 코드 합성 기반의 효율적인 GUI 자동화

AutoRPA는 LLM 에이전트의 ReAct 방식이 가진 비효율성을 해결하기 위해, 에이전트의 의사결정 로직을 견고한 RPA 함수로 자동 증류하는 프레임워크입니다. 번역기-빌더 파이프라인과 하이브리드 복구 전략을 통해 반복적인 GUI 작업을 위한 코드를 합성하며, 기존 방식 대비 토큰 사용량을 최대 96%까지 절감합니다.

5월 21일0

arXiv논문

스펙트럼 회귀 분석을 통한 Trojan이 삽입된 DNN 탐지

본 논문은 미세 조정(Fine-tuning) 과정에서 삽입될 수 있는 Trojan(트로이 목마) 공격을 탐지하기 위한 새로운 프레임워크인 MIST를 제안합니다. MIST는 트리거를 직접 찾는 대신 활성화 전 스펙트럼(Pre-activation spectra)의 변화를 분석하여, 정상적인 모델의 진화 경로에서 벗어나는 업데이트를 회귀 분석을 통해 식별합니다.

5월 21일0

arXiv논문

페르소나 스캐폴딩 기반 적대적 사고 사슬 (Adversarial Chain-of-Thought) VLM 검증을 통한 수동적 건설 현장 안전

본 논문은 건설 현장의 수동적 안전 모니터링 파이프라인을 제시하며, POV 바디캠 및 고정식 카메라 비디오를 처리합니다. 이 시스템은 YOLO11과 SAM 3로 PPE 및 위험 탐지를 수행하고, Qwen3-VL-8B-Instruct에 페르소나 스캐폴딩 기반의 적대적 사고 사슬(adversarial chain-of-thought) 프로토콜을 적용하여 규정 준수 검증 및 환각 제어를 강화합니다. 특히 방법론적 배우 프레임워크를 활용한 3단계 프롬프트 설계는 기존 단일 패스 방식 대비 정밀도를 크게 향상시켰습니다.

5월 20일2

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드