Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
arXiv cs.CL (NLP) 1795건필터 해제
LLM의 테스트 시간 학습(TTT)이 주장하는 '배포 메모리' 능력을 검증하기 위한 새로운 행동 평가 프레임워크를 제안합니다. 기존의 퍼플렉시티 등 대리 지표가 실제 모델의 회상이나 개인화 능력을 제대로 반영하지 못하는 격차를 분석합니다.
Zero-Shot Composed Image Retrieval(ZS-CIR)의 성능을 높이기 위해 새로운 프록시 태스크를 제안하는 FoCo 프레임워크를 소개합니다. 기존 방식의 한계를 극복하기 위해 시각적 콘텐츠에 집중하고 의미론적 완성을 수행하는 두 단계 모델링을 통해 최첨단 성능을 달성했습니다.
LLM 에이전트의 검색 버퍼 관리를 위한 새로운 학습 증강 캐시 교체 프레임워크인 SOLAR를 제안합니다. 기존 LRU, LFU 방식이 의미론적 워크로드에서 성능이 저하되는 문제를 해결하며, 베이지안 온라인 학습을 통해 효율적인 콘텐츠 선택을 수행합니다.
NeuroCogMap은 LLM의 내부 표현을 기능적 구획으로 조직하여 인지 신경과학과 연결하는 새로운 프레임워크입니다. 이 연구는 모델의 내부 구조를 통해 환각, 편향 등 주요 실패 사례를 탐지하고 인간의 피질 반응을 예측하는 방법을 제시합니다.
LLM이 사실보다 권위 있는 인물의 신호에 따라 답변을 왜곡하는 '아첨(Sycophancy)' 현상을 기계론적으로 분석한 연구입니다. Llama-3.1, Qwen, Gemma 모델을 대상으로 분석한 결과, 특정 레이어에서 정답 표현이 권위 신호에 의해 삭제되는 현상을 확인했습니다.
시각-언어 모델(VLM)의 사회적 고정관념 문제를 해결하기 위해 입력의 편향 민감도에 따라 디바이아싱을 선택적으로 적용하는 RG-TTA 프레임워크를 제안합니다. 강화학습 기반의 테스트 단계 적응을 통해 공정성과 유용성 사이의 트레이드오프를 극복하고 제로샷 성능을 향상시킵니다.
LLM의 환각 현상이 지식의 부재가 아닌, 사전 학습된 통계적 연관성에 의한 추론 불일치(inference misalignment)에서 발생함을 연구합니다. 이를 설명하기 위해 잠재적 핵심-작업 모델을 제안하고, 새로운 진단 테스트베드인 TrapQA를 도입했습니다.
Speech Playground은 현대적인 딥러닝 음성 표현을 시각화하고 비교할 수 있는 대화형 도구입니다. Python 백엔드와 웹 프론트엔드를 결합하여 연속적, 이산적, 가변 길이 표현을 탐색할 수 있게 지원합니다.
AI가 생성한 분자의 독성 및 반응성 등 안전성 위험을 평가하기 위한 새로운 벤치마크인 MolSafeEval을 소개합니다. 분자 안전 지식 그래프와 LLM 기반 추론을 결합하여 생성된 화합물의 위험 요소를 체계적으로 탐지하고 분석합니다.
LVLM의 멀티턴 학습과 싱글턴 평가 간의 불일치 문제를 해결하기 위해 확률적 턴 깊이(StochasT) 학습법을 제안합니다. 다양한 턴 깊이로 태스크를 그룹화하여 학습함으로써 모델의 시각적 주의력 감쇠와 문맥적 과적합을 방지합니다.
추론 언어 모델의 과도한 사고(overthinking) 문제를 해결하기 위해 세그먼트 수준의 신용을 할당하는 DASH 방식을 제안합니다. 중간 답변 확정 지표를 활용해 자기 성찰의 생산성을 판단하며, 수학 벤치마크에서 정확도 향상과 불필요한 토큰 소비 감소를 입증했습니다.
대규모 추론 모델(LRM)의 다국어 추론 성능 저하를 해결하기 위한 새로운 프레임워크 PCS를 제안합니다. 번역과 강화학습을 결합하여 영어의 추론 능력을 대상 언어로 효율적으로 전이하며, 점진적인 언어 전환을 통해 안정적인 성능 향상을 달성합니다.
VLM의 객체 수준 반사실적 공간 추론 능력을 평가하기 위한 새로운 벤치마크인 MindEdit-Bench를 소개합니다. 실제 사진 기반의 3D 장면 그래프를 활용하여 모델이 객체의 이동이나 회전 등 가상 변화를 예측할 수 있는지 테스트합니다.
장기적 작업 수행 시 발생하는 모바일 GUI 에이전트의 컨텍스트 부담과 환각 문제를 해결하기 위한 TSR 프레임워크를 제안합니다. TSR은 작업 상태를 감각 입력과 분리하여 에이전트의 추론을 효과적으로 가이드합니다.
Apple Silicon의 Metal API를 네이티브하게 활용하여 LLM 추론 성능을 극대화한 BaseRT를 소개합니다. 기존 llama.cpp나 MLX 대비 높은 처리량을 기록하며, 온디바이스 AI 추론을 위한 최적화된 런타임을 제공합니다.
멀티 문서 RAG 환경에서 발생하는 문서 간 정보 충돌 문제를 해결하기 위한 새로운 디코딩 기법인 DCCD를 제안합니다. 문서 수준과 토큰 수준의 신뢰도를 결합하여 노이즈가 섞인 검색 결과에서도 정확한 답변을 생성하도록 돕습니다.
개별적으로는 무해한 이미지들이 결합될 때 발생하는 '멀티 이미지 암시적 유해성(MIIT)' 문제를 정의하고 이를 탐지하는 연구를 다룹니다. 새로운 데이터셋인 MIIT-dataset을 구축하고, 추론 감독을 통해 학습된 MiShield-8B 모델이 기존 모델보다 뛰어난 탐지 성능을 보임을 입증했습니다.
연속 확산 언어 모델(Continuous Diffusion LMs)이 낮은 Perplexity를 기록하면서도 실제로는 텍스트를 과도하게 반복하는 문제를 분석했습니다. 연구팀은 이러한 반복의 원인이 자기 조건화 피드백 루프의 수축적 끌개 현상임을 밝히고, 이를 해결하기 위한 ACE 기법을 제안합니다.
PaperPilot은 과학 문헌 검색을 위해 실행 가능한 DAG 형태의 워크플로를 구축하는 다회차 에이전트 시스템입니다. 사용자 피드백을 통해 쿼리와 워크플로를 동시에 개선하며, 기존 에이전트 대비 검색 성능과 실행 정확도를 크게 향상시켰습니다.
LLM이 금지어를 사용하지 않고 목표 단어를 설명하는 Taboo 게임을 통해 제약 조건 준수와 의사소통 효율성 사이의 트레이드오프를 연구했습니다. 프롬프팅부터 내부 표현 조작까지 다양한 개입 방식을 통해 오픈 웨이트 모델의 성능을 평가했습니다.