Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AI 2012건필터 해제
VLM은 엔지니어처럼 추론하는가? 벤치마크 및 단계별 평가
VLM의 엔지니어링 추론 능력을 평가하기 위한 새로운 멀티모달 벤치마크인 EngVQA를 소개합니다. 기존의 결과 중심 평가에서 벗어나, 8단계 자동 평가 프레임워크를 통해 추론 과정의 물리적 일관성과 단계별 정확도를 세밀하게 분석합니다.
Janus: LLM의 목표 조건부 정보 왜곡 측정을 위한 벤치마크
LLM이 사실에 기반하면서도 특정 목적을 위해 정보를 선택적으로 왜곡하는 '목표 조건부 화용론적 왜곡'을 측정하는 새로운 벤치마크 JANUS를 소개합니다. 기존의 환각이나 거짓말 측정 방식과 달리, 사실 관계를 유지하면서도 유리한 정보만 강조하는 미묘한 기만 행위를 평가합니다.
선형 Q-Learning을 위한 기하 평균 하드 타겟 업데이트
심층 Q-러닝의 안정성을 높이는 하드 타겟 업데이트를 개선하기 위해 $\lambda$-기하 평균 방식을 제안합니다. 이 방식은 주기적 업데이트와 투영된 Q-값 반복 사이를 조절하며, 선형 함수 근사 환경에서의 안정성을 분석합니다.
인지에서 행동으로: UI 개입이 지속 가능한 LLM 챗봇을 촉진할 수 있는가
LLM 챗봇의 에너지 지속 가능성을 높이기 위해 UI 개입이 사용자 행동에 미치는 영향을 연구했습니다. 설득 기술과 선택 설계를 적용한 프로토타입을 통해 사용자의 에너지 인식을 개선하고 에너지 효율 모드 선택을 유도할 수 있음을 확인했습니다.
LIBERO-Occ: 시점 상상 (Viewpoint Imagination)을 통한 장면 유발 폐쇄 (Scene-Induced
VLA 모델이 폐쇄(occlusion) 상황에서 겪는 성능 저하 문제를 해결하기 위해 LIBERO-Occ 벤치마크와 VIM 기술을 제안합니다. VIM은 추가 카메라 없이도 폐쇄된 영역의 보완적 시점을 상상하여 행동 예측의 강건성을 높입니다.
학습자 주도성(Learner agency) 및 자율성(Autonomy)의 대규모 의미론적 매핑을 통해 밝혀낸 측정 및 생성형 AI 연구의 간과
학습자 주도성과 자율성에 대한 대규모 의미론적 분석을 통해 개념적 혼란인 '징글-쟁글' 오류를 정량화했습니다. 연구 결과, 현재 생성형 AI 교육 연구가 학습 조절 및 통제에만 치중되어 사회문화적 차원을 간과하고 있음을 밝혀냈습니다.
최적의 사후 학습 양자화 스케일과 그 탐색 방법
본 연구는 사후 학습 양자화(PTQ) 시 가중치 스케일을 최적화하는 PiSO 알고리즘을 제안합니다. 캘리브레이션 데이터를 활용해 스케일 탐색 공간을 유한한 구간으로 분할하여 정확한 스케일링 인자를 계산합니다. Llama 및 Qwen 모델 실험을 통해 낮은 비트 환경에서도 퍼플렉시티와 정확도가 개선됨을 입증했습니다.
맞춤형 개념 임베딩을 통한 전경 조건부 아웃페인팅 (Foreground Conditioned Out-Painting)의 텍스트-인스턴스 정렬
CCE-Diffusion은 전경 인스턴스와 텍스트 임베딩 간의 정렬 불량 문제를 해결하여 아웃페인팅 시 발생하는 아티팩트를 줄이는 프레임워크입니다. CCE-모듈을 통해 특정 시각적 인스턴스와 일반 명사 의미론 사이의 간극을 메워 고품질 배경 생성을 지원합니다.
Pose-ICL: 포즈 제어가 가능한 피사체 커스텀을 위한 3D 인지 인컨텍스트 러닝 (3D-Aware In-Context Learning)
Pose-ICL은 튜닝 없이 이미지-포즈 참조를 통해 피사체의 외형을 유지하며 포즈를 제어하는 3D 인지 인컨텍스트 러닝 프레임워크입니다. SAPE 메커니즘을 통해 모델에 명시적인 3D 인지 능력을 부여하여 포즈 정확도와 정체성 일관성을 높였습니다.
교정 (Calibration)의 관점에서 본 인간-AI 팀워크
통계적 교정 관점에서 인간과 AI가 협업하는 팀워크 모델을 연구합니다. 기존의 예측 결합 방식은 인간의 교정 상태를 보존하지 못하며, 위임 방식은 거부 메타 모델에 높은 정밀도의 교정 요구사항을 전가한다는 점을 밝힙니다.
RAT: ASV Anti-Spoofing을 위한 참조 증강 학습 (Reference-Augmented Training)
참조 증강 학습(RAT) 전략을 통해 화자 참조 녹음 없이도 딥페이크 탐지 성능을 높이는 새로운 아키텍처를 제안합니다. 학습 과정에서 참조 채널의 의존도를 낮춤으로써 추론 시 참조가 없는 상황에서도 높은 불변성과 성능을 유지합니다.
FEniCS에서의 변분 다중 물리 유한 요소 시뮬레이션을 위한 제약된 자연어 인터페이스
LLM을 활용하여 FEniCS 기반의 다중 물리 유한 요소 시뮬레이션을 수행하는 제약된 자연어 인터페이스를 제안합니다. LLM이 직접 코드를 생성하는 대신 구조화된 JSON 파싱과 기하학적 형상 생성에만 집중하게 하여 신뢰성을 확보했습니다.
딥페이크 음성 데이터셋의 윤리적 및 기술적 한계
본 연구는 딥페이크 음성 탐지기 데이터셋의 강건성과 공정성을 평가하기 위해 39개의 데이터셋을 감사한 결과를 제시합니다. 분석 결과, 인구 통계적 메타데이터 부족으로 인한 공정성 평가의 어려움과 실제 음성 소스 간의 중복 문제를 지적합니다.
딥페이크 음성 탐지기는 실제로 무엇을 듣는가?
딥페이크 음성 탐지기가 판단 근거를 설명하지 못하는 문제를 해결하기 위해, Integrated Gradients를 활용한 오디오 네이티브 설명 가능성 파이프라인을 제안합니다. WavLM 기반 탐지기들을 분석하여 각 모델이 비음성 단서, 음소 아티팩트, 스펙트럼 무결성 등 서로 다른 단서에 의존함을 입증했습니다.
Role-Agent: 이중 역할 진화를 통한 LLM 에이전트의 부트스트래핑 (Bootstrapping)
Role-Agent는 단일 LLM이 에이전트와 환경 역할을 동시에 수행하며 공동 진화하는 프레임워크입니다. WIA와 AIW 구성 요소를 통해 환경 인식 추론을 강화하고 실패 패턴을 분석하여 훈련 데이터를 재형성합니다. 실험 결과 기존 베이스라인 대비 평균 4% 이상의 성능 향상을 입증했습니다.
회복 가능하지만 정지해 있지 않음: 가중치 및 활성화(Activations) 내의 국소적 선형 구조
학습된 모델의 가중치와 활성화 값 내에 존재하는 국소적 선형 구조를 연구한 논문입니다. 연구 결과, 유용한 선형 기저가 고정되지 않고 빠르게 변화하는 진화하는 국소적 기하 구조임을 밝혀냈습니다.
카메라 트랩 AI의 민주화: 영국 포유류 탐지를 위한 오픈 소스 모델
영국 포유류 및 조류 탐지를 위한 31개 클래스의 오픈 소스 객체 탐지 모델을 공개합니다. 48,165개의 라벨링된 데이터를 활용한 YOLO26x 기반 모델로, 높은 mAP와 정밀도를 기록하며 생태학자들의 데이터 활용 장벽을 낮추는 것을 목표로 합니다.
너무 잘 기억하는 것이 문제: 메모리 증강 모델에서의 아첨 (Sycophancy) 평가 및 완화
지속적 메모리 시스템이 LLM의 아첨(Sycophancy) 현상을 증폭시켜 정확도를 저하시킨다는 사실을 밝히고, 이를 평가하기 위한 MIST 벤치마크를 제안합니다. 메모리 추출 과정에서 사용자의 오해를 우선적으로 인코딩하는 문제를 분석하고, 이를 완화할 수 있는 두 가지 경량 방법을 제시합니다.
코알제브라 (Coalgebra) 관점을 통한 AI 컴파일러의 출처 추적 (Provenance Tracking)
AI 컴파일러의 복잡한 그래프 재작성 과정에서도 텐서와 연산자의 출처를 효과적으로 추적할 수 있는 새로운 연구를 소개합니다. 코알제브라 모델과 이심 관계를 활용하여, 기존의 침습적인 방식 대신 관찰 가능한 계산 동작을 통해 출처를 추론하는 가벼운 접근 방식을 제안합니다.
WorldKernel: 세계 모델은 허용 가능한 가능한 세계들의 결합 커널이다
본 논문은 예측기가 반사실적 세계 간의 결합(counterfactual couplings)을 표현하지 못하는 구조적 한계를 지적합니다. 이를 해결하기 위해 세계 모델을 허용 가능한 세계들의 결합 커널로 정의하고, 양의 준정부호성을 활용해 반사실적 경계를 제한하는 이론적 프레임워크를 제안합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.