Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
arXiv cs.CL (NLP) 1795건필터 해제
제한된 메모리 언어 모델(LMLM)에서 데이터 삭제 후 지식이 잔류하는지 확인하는 인과적 감사 프레임워크를 제안합니다. 연구 결과, 삭제된 정보는 모델 파라미터가 아닌 검색 그래프 내의 잔류물에 의해 재구성됨을 밝혀냈습니다.
자연 의미 메타언어(NSM)를 활용하여 감정 분석 모델의 설명 가능성과 충실성을 높이는 새로운 인터페이스를 제안합니다. 학습된 파서가 텍스트를 고정된 규칙 기반 스크립트로 매핑함으로써, 블랙박스 모델 대신 검증 가능한 결정 근거를 제공합니다.
자기 조건화(Self-conditioning) 기술을 고정점 반복(fixed-point iteration) 관점에서 해석하여 고정점 흐름(Fixed-point Flows)을 제안하는 연구입니다. 이를 통해 흐름 맵 언어 모델(FMLM)을 공식화하고, 증류 과정을 통해 기존 모델보다 뛰어난 성능을 달성했습니다.
다국어 유창성이 문화적 이해로 직결되지 않는다는 '문화적 정렬의 환상'을 지적하며, 네이티브 소싱 기반의 새로운 벤치마크 MSQA를 제안합니다. 18개 LLM 평가 결과, 문화적 역량은 추론 능력보다 사전 학습 데이터의 노출 정도에 더 큰 영향을 받는 것으로 나타났습니다.
일본어 LLM의 한자 읽기 및 음운 이해 능력을 평가하기 위한 새로운 벤치마크인 YOMI-Bench를 제안합니다. 다양한 오픈 소스 및 상용 모델을 평가한 결과, 일본어 특화 모델과 상용 모델 모두 한자 읽기 관련 태스크에서 낮은 성능을 보였습니다.
디코더 전용 언어 모델의 은닉 상태로부터 입력 텍스트를 복구하는 '은닉 상태 역전' 문제를 연속적인 임베딩 공간 최적화 관점에서 연구합니다. 연구 결과, 고빈도 기능어는 복구가 어렵지만 의미를 담은 토큰은 매우 높은 정확도로 복구됨을 확인했습니다.
은유 번역의 오류 심각도를 인지하고 평가하기 위한 새로운 프레임워크인 MetaHOPE를 제안합니다. 최신 NMT 및 LLM 모델을 대상으로 은유 번역 성능을 분석하고, 연구를 위한 병렬 코퍼스 리소스를 함께 제공합니다.
재난 관련 뉴스 데이터 수집을 위한 상향식(Bottom-Up)과 하향식(Top-Down) 접근 방식을 비교 분석한 연구입니다. 독일의 산사태 뉴스 데이터셋을 활용하여 두 방식의 이벤트 커버리지 차이와 데이터 샘플링의 영향력을 논의합니다.
대규모 추론 모델(LRMs)의 과도한 사고로 인한 토큰 오버헤드를 해결하기 위해 신뢰도 적응형 사고(CAT) 프레임워크를 제안합니다. 모델의 자기 확신 신호를 활용해 문제 난이도에 따라 추론 길이를 자율적으로 조절하여 정확도와 효율성을 동시에 높입니다.
자기 진화형 에이전트(SEA)의 안정성을 보장하기 위해 동결된 베이스 모델과 스티어링 어댑터를 결합한 새로운 아키텍처를 제안합니다. 언제든 유효한 게이트(anytime-valid gate)를 통해 수정 사항을 검증하고 감사 가능한 인증서를 발행하여 에이전트의 퇴보를 방지합니다.
임상 NLP 파이프라인에서 추론 시간 게이팅(Inference-Time Gating)의 효과를 프로덕션 규모로 분석한 연구입니다. Llama-3.3 70B 기반의 생성기와 검증기를 결합한 시스템에서 경량 메모리를 통한 필터링 효율성을 검증했습니다.
소셜 미디어 메시지에서 에토스와 파토스라는 수사적 전략이 침묵하는 청중의 해석에 미치는 영향을 연구했습니다. 연구 결과, 수사적 호소가 강할수록 해석의 변동성이 커지며, 이는 청중의 태도를 예측하는 중요한 지표가 됨을 확인했습니다.
36개 유럽 언어로 구성된 4.8조 토큰 규모의 오픈 합성 병렬 코퍼스인 MultiSynt/MT를 소개합니다. 이 데이터셋은 기존 네이티브 데이터 대비 훨씬 적은 토큰으로도 대등하거나 더 높은 성능의 다국어 LLM 학습을 가능하게 합니다.
본 연구는 다지선다형 질의응답(MCQA) 작업에서 LLM의 페르소나 기반 생성(PDG)이 보이는 불안정성을 분석합니다. 성능, 결과, 질문 정확도의 세 가지 차원에서 지표를 개발하여 모델 크기와 도메인에 따른 불안정성 패턴을 규명했습니다.
장편 서사 생성 시 발생하는 일관성 결여와 환각 문제를 해결하기 위한 멀티 에이전트 프레임워크 MAGNET과 ATLAS를 제안합니다. 캐릭터 에이전트가 세계 상태를 공유하며 스토리를 생성하고, 그래프 기반 파이프라인으로 환각을 탐지하여 서사적 일관성을 높입니다.
RAG 시스템의 환각 탐지를 위해 코드, 도구 출력, 구조화된 문서를 포함하는 스팬 수준(Span-level) 통합 벤치마크를 제안합니다. 미세 조정된 Qwen3.5-2B 탐지기는 기존 제로샷 LLM 모델들을 크게 상회하는 성능을 기록했습니다.
Claude, ChatGPT, Gemini 등 주요 LLM을 대상으로 세분화된 감정 분류 성능을 제로샷(Zero-Shot) 방식으로 평가한 연구입니다. Gemini가 가장 높은 정확도를 보였으나, 모든 모델이 사랑, 혼란, 수치심 등 특정 감정 분류에서 한계를 보였습니다.
복잡한 역사적 필사본의 레이아웃에서 올바른 읽기 순서를 추론하기 위한 훈련이 필요 없는(training-free) 그래프 기반 프레임워크를 제안합니다. 경량 언어 모델 신호와 최대 후회 추론 규칙을 활용하여 기존 XY-cut이나 LayoutReader 방식보다 높은 정확도를 달성했습니다.
현대 그리스어를 위한 오픈 소스 웹 기반 코퍼스 워크벤치인 Svarna를 소개합니다. 5억 개 이상의 단어를 포함한 5개의 데이터베이스를 통합하여, 로그인 없이도 다양한 언어학적 분석 도구를 제공합니다.
LLM 기반 대화형 에이전트가 상황에 따라 페르소나와 성격 강도를 조절할 수 있는 '유동적 성격 프레임워크'를 제안합니다. 과업 문맥과 사용자의 목표에 맞춰 에이전트의 은유적 역할과 성격 표현 수위를 동적으로 적응시키는 설계 방안을 다룹니다.