Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AI 2012건필터 해제
PhantomBench: 언어 모델의 비존재적 위협에 대한 벤치마킹
언어 모델의 환각 현상을 측정하기 위해 6만 개 이상의 비존재 용어를 활용한 대규모 벤치마크 PhantomBench를 제안합니다. 21개 모델을 평가한 결과, 최첨단 모델조차 비존재 개념에 대해 답변을 자제하지 못하는 높은 환각률을 보였습니다.
기자들에 의해 설계되었지만, 독자를 위한 것인가? 뉴스에서의 AI 공개 및 투명성 재고
뉴스룸의 생성형 AI 도입 과정에서 발생하는 투명성 공개 방식의 문제점을 분석합니다. 현재의 단순 라벨링이나 과도한 상세 공개가 오히려 독자의 신뢰를 저하시키는 '투명성 딜레마'를 유발함을 지적합니다.
TRACE: 효율적인 에이전트 강화학습 (Agentic Reinforcement Learning)을 위한 통합 롤아웃 예산 할당 프레임워크
TRACE는 에이전트 강화학습의 효율성을 높이기 위해 롤아웃 예산을 프롬프트와 턴 단위 접두사에 동적으로 할당하는 프레임워크입니다. 트리 구조의 롤아웃을 통해 보상 대비를 강화하고 정책 업데이트 신호를 증폭시켜 모델의 추론 성능을 향상시킵니다.
Monte Carlo Pass Search: 축구에서의 3D 반사실적 패스 평가를 위한 궤적 생성 활용
축구 패스 평가를 위해 Monte Carlo Tree Search(MCTS) 개념을 도입한 MCPS 프레임워크를 제안합니다. 3D 트래킹 데이터를 기반으로 반사실적 패스 궤적을 생성하고, 가치 모델을 통해 패스의 잠재적 가치를 분포 형태로 평가합니다.
합성 사후 학습 데이터 큐레이션에서의 출처 기반 게이팅 및 적응형 복구
합성 사후 학습 데이터 큐레이션에서 소스 근거 기반의 게이팅과 적응형 복구 전략의 효과를 연구했습니다. 연구 결과, 정확한 출처 기반 필터링과 실패 진단 및 타겟팅된 재생성을 결합한 복구 방식이 데이터 수율과 품질을 유의미하게 향상시킴을 확인했습니다.
잠재 확산 모델 (Latent Diffusion Model) 파라미터화를 이용한 지하 유동 데이터 동화: 앙상블 칼만
Latent Diffusion Model(LDM)을 활용하여 지하 유동 데이터 동화 시 발생하는 차원 축소와 비선형성 문제를 연구합니다. ESMDA와 MCMC/SMC 알고리즘을 비교하여, LDM 잠재 공간에서의 몬테카를로 샘플링이 지질학적 실재성을 유지하면서도 더 높은 불확실성 감소 효과를 제공함을 입증합니다.
ABC-Bench: 생물 보안을 위한 에이전트 기반 생물학적 역량 벤치마크
LLM 에이전트의 생물 보안 위험을 측정하기 위한 새로운 벤치마크인 ABC-Bench를 소개합니다. 이 벤치마크는 DNA 설계 및 로봇 제어 등 이중 용도 과업을 통해 에이전트의 역량을 평가하며, 실험을 통해 실제 로봇 작동 성공을 검증했습니다.
ReasonAlloc: 추론 모델을 위한 계층적 디코딩 시간 KV 캐시 예산 할당
ReasonAlloc은 긴 사고 사슬(CoT)을 사용하는 LLM의 KV 캐시 병목 현상을 해결하기 위한 새로운 훈련 불필요(Training-free) 프레임워크입니다. 레이어별 사전 할당과 실시간 헤드별 재할당을 통해 추론 성능을 유지하면서도 효율적인 메모리 관리를 가능하게 합니다.
LLM 자동화 서사의 결함
LLM의 성능 평가가 학습 데이터에 포함된 콘텐츠에 의존하고 오류의 크기를 간과하고 있음을 지적합니다. 새로운 벤치마킹 방식을 통해 LLM의 응답 분산과 오류 크기를 측정한 결과, 인간 전문가가 LLM보다 더 높은 성능과 낮은 변동성을 보임을 입증했습니다.
자기 증류 (Self-Distillation)에서 피드백 정렬 (Feedback Alignment)의 역할
자기 증류(Self-distillation) 과정에서 피드백 정렬의 중요성을 연구한 논문입니다. 단계별 비평(Step-aligned critique)이 이진 보상이나 참조 솔루션보다 모델 성능 향상에 훨씬 효과적임을 입증했습니다.
타겟 분포 설계를 통한 지도 미세 조정(SFT)의 통합적 관점
SFT를 단순한 토큰 최대화가 아닌 타겟 분포 설계 관점으로 재해석한 연구입니다. Q-target 프레임워크를 통해 관찰된 토큰의 의존도와 확률 질량 할당을 분석하며, 제안된 Target-SFT 방식은 다양한 추론 데이터셋에서 우수한 성능을 입증했습니다.
EEVEE: 실세계 자가 개선 에이전트를 위한 테스트 시간 프롬프트 학습을 향하여
EEVEE는 실세계의 이질적인 작업 스트림을 처리하기 위해 제안된 최초의 멀티 데이터셋 테스트 시간 프롬프트 학습 프레임워크입니다. 라우터와 프롬프트의 공동 진화 전략을 통해 데이터셋 간 간섭을 완화하고 다양한 도메인에서의 강건성을 확보합니다.
Piper: 프로그래밍 가능한 분산 학습 시스템
Piper는 분산 학습 전략을 런타임 구현에서 분리하여 사용자가 선언적으로 제어할 수 있는 새로운 학습 시스템입니다. 중간 표현(IR)을 통해 글로벌 학습 DAG를 생성하고 장치별 실행 계획을 컴파일하여, 복잡한 병렬성 전략을 유연하게 적용할 수 있습니다.
UniDexTok: 실제 데이터를 활용한 통합된 다지형 손 토크나이저 (Unified Dexterous Hand Tokenizer)
다양한 하드웨어 구조를 가진 다지형 손의 데이터를 통합하기 위한 UniDexTok을 제안합니다. 리타겟팅 없이도 이질적인 로봇 손의 상태를 공유된 22-DoF 시맨틱 인터페이스로 매핑하여 높은 재구성 정확도를 달성했습니다.
생산 라인 내 네트워크 케이블(패치 코드)의 와이어 색상 순서 검증을 위한 YOLOv12 모델 활용
네트워크 케이블 생산 공정에서 와이어 색상 순서를 검증하기 위해 YOLOv12 모델을 활용한 지능형 시스템을 제안합니다. 현미경 이미지 2,500장을 활용해 학습한 결과, 98%의 정밀도로 정확한 와이어 탐지 및 실시간 검증 성능을 입증했습니다.
분할과 협력: 교차 에이전트 학습 신호를 이용한 역할 분해형 다중 에이전트 LLM 학습
단일 모델이 검색과 생성을 동시에 수행할 때 발생하는 신용 할당 및 정책 충돌 문제를 해결하기 위해 DAC 프레임워크를 제안합니다. 검색기와 생성기를 분리하여 역할별 학습 신호를 교환함으로써 다단계 추론 성능을 향상시킵니다.
LLM 학습에서의 데이터, 메모리 및 연산 효율성 통합: 서베이
LLM 학습 시 데이터, 메모리, 연산 효율성을 개별 기술이 아닌 통합된 제약 시스템 관점에서 분석한 서베이 논문입니다. 데이터 선택, 메모리 관리, 연산 예산 할당이 상호작용하며 최적의 성능을 결정함을 강조합니다.
이벤트 기반 강화학습 (Event-Driven Reinforcement Learning)을 통한 반도체 제조 공정의 장기 제어
반도체 제조 공정의 복잡한 의사결정을 최적화하기 위해 이벤트 기반 강화학습(Event-Driven RL) 프레임워크를 제안합니다. 이 모델은 이산적 이벤트를 기반으로 시스템을 정식화하여 지연된 피드백과 장기적 요구 사항 문제를 해결합니다.
훈련 중 제로 분산 쿼리 재활용을 통한 에이전트 검색용 효과적인 강화학습 (Reinforcement Learning)
LLM 검색 에이전트 훈련 시 GRPO 알고리즘에서 발생하는 제로 분산(zero-variance) 문제를 해결하기 위한 쿼리 재활용 기술을 제안합니다. 제로 분산 그룹을 폐기하는 대신 가변 풀에 저장하여 재샘플링함으로써 훈련 효율을 극대화합니다. 이를 통해 1.7B 모델로 7B 모델 수준의 멀티홉 QA 성능을 달성했습니다.
++nnU-Net: Prefix 기반 데이터 증강을 통한 nnU-Net의 확장
++nnU-Net은 의료 영상 분할 성능을 높이기 위해 이미지 등록(image registration) 기반의 새로운 데이터 증강 모듈을 제안합니다. 2단계 등록 프로세스를 통해 새로운 워핑 이미지를 생성하며, 기존 nnU-Net 대비 최대 22%의 성능 향상을 입증했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.