Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
arXiv cs.CL (NLP) 1795건필터 해제
K-12 교육용 콘텐츠의 교수법적 위험을 평가하기 위한 새로운 데이터셋 AIriskEval-edu-db2를 소개합니다. LLM 기반 감사인을 훈련하기 위해 사실적 정확성, 편향성 등 5가지 차원의 위험 루브릭과 설명 가능성 주석을 포함합니다.
PhysMani는 비구조화된 3D 환경에서 동적 객체를 조작하기 위해 물리 원칙을 결합한 3D 가우시안 월드 모델 프레임워크입니다. 가우시안 속도장을 통해 물리적으로 정확한 미래 역학을 예측하며, 새로운 벤치마크인 PhysMani-Bench를 통해 성능을 입증했습니다.
LLM이 과학적 회의론에 직면했을 때 나타내는 강건성을 표현 기하학 관점에서 분석한 연구입니다. 모델별로 반응적 단언, 표면적 유보, 무응답 등 서로 다른 대응 패턴을 보이며, 이러한 특성이 중간 레이어의 활성화 패턴과 연관됨을 밝힙니다.
NAVER LABS Europe이 IWSLT 2026 지시 이행 음성 처리 쇼트 트랙에서 공동 1위를 달성한 연구를 소개합니다. SpeechMapper를 활용한 음성-LLM 임베딩 프로젝터 업데이트와 합성 데이터셋 fakACL을 통해 모델 성능을 극대화했습니다.
본 연구는 지도 학습 데이터 없이 제로샷 프롬프팅이나 피드백을 활용한 대화 담화 파싱(DDP)의 명확화(Clarification) 성능을 분석합니다. 실험 결과, 단순 입력 재작성은 오히려 파싱 성능을 저하시킬 수 있으며, 명확화는 선택적 개입 문제로 접근해야 함을 시사합니다.
Mandarin 단음절어의 음성 지속 시간과 f0 윤곽선을 예측하기 위해 문맥화된 임베딩(CEs)을 활용하는 연구입니다. CEs가 유형 및 토큰 수준 모두에서 지속 시간을 효과적으로 예측하며, 예측된 윤곽선이 실제 경험적 윤곽선에 근사함을 입증했습니다.
멀티모달 LLM의 미술사 지식 및 시각적 추론 능력을 평가하기 위한 새로운 벤치마크인 EduArt를 소개합니다. 인간이 작성한 871개의 문항을 통해 모델의 학문적 역량을 다각도로 분석하며, 단순 객관식 점수와 실제 지식 활용 능력 사이의 격차를 규명합니다.
SpeechCombine은 지시어 튜닝 없이 단 한 번의 음성 사전 학습만으로 지시 이행이 가능한 음성 언어 모델(SLM)을 제안합니다. 텍스트 LLM의 지식과 음성 도메인 능력을 결합하여 방대한 데이터 의존성을 줄이는 새로운 학습 방향을 제시합니다.
베트남어 텍스트 인코더의 한계를 극복하기 위해 개발된 새로운 BERT 기반 언어 모델 BamiBERT를 소개합니다. 129GB 규모의 코퍼스로 학습되었으며, 확장된 컨텍스트 길이와 외부 단어 분절 없는 원시 입력 처리 능력을 갖추고 있습니다.
CheckRLM은 추론 언어 모델(RLM)의 추론 체인에서 발생하는 사실적 오류를 탐지하고 수정하는 프레임워크입니다. RAG를 활용해 지식 불일치를 식별하고 외부 지식으로 정밀하게 수정함으로써 장기 추론의 신뢰성을 높입니다.
의료 AI 벤치마킹에서 LLM 평가자가 임상적 주의력을 재현할 수 있는지 분석한 연구입니다. 독일어 임상 벤치마크 MedQADE를 통해 LLM이 통계적으로는 의사와 유사한 점수를 부여하지만, 실제 임상적 메타인지와 기권 행동은 결여되어 있음을 밝혀냈습니다.
RAG 기술을 활용하여 대학 이해관계자를 위한 멀티모달 채팅 어시스턴트 개발 연구를 소개합니다. LLM과 VLM을 결합하여 텍스트와 이미지 질의를 처리하며, 양자화 추론을 통해 효율적인 배포를 구현했습니다.
AI의 창의성을 통합적으로 측정하기 위한 새로운 벤치마크인 AGC-Bench를 소개합니다. 78개의 데이터셋과 편향이 교정된 AGC-Judge 모델을 통해 LLM의 창의적 능력을 정밀하게 평가하며, 일반 지능과 분리된 창의성 요인을 입증했습니다.
언어 모델의 안전성 평가 시 발생하는 모호성을 해결하기 위해 '적대적 화용론(Adversarial Pragmatics)' 벤치마크를 제안합니다. 지시 충돌, 내장된 명령, 정책 모호성 등을 언어학적으로 분류하여 모델의 실패 원인을 정밀하게 진단합니다.
AutoMem은 LLM이 스스로 메모리를 관리하고 최적화할 수 있도록 하는 자동 학습 프레임워크입니다. 메모리 구조와 모델의 숙련도를 두 가지 루프로 자동화하여 개선하며, 이를 통해 장기적 과업 수행 능력을 획기적으로 향상시킵니다.
기존 균등 양자화의 한계를 극복하기 위해 조정 가능한 밑을 사용하는 새로운 로그 양자화 방식인 Log$_b$Quant를 제안합니다. 이 방식은 4비트 정밀도에서 기존 비대칭 선형 양자화보다 우수한 성능을 보이며, 메모리 절감과 속도 향상을 동시에 달성합니다.
이베리아 언어를 대상으로 교차 언어 화자 확인(SV) 시스템에서 화자 변동성과 언어 불일치 효과를 분리하여 분석한 연구입니다. 동일 화자의 이중 언어 평가 세트를 도입하여 HuBERT 기반 시스템의 성능 저하 원인을 정밀하게 규명했습니다.
LLM이 생성한 연구 아이디어와 인간 연구자의 아이디어 사이의 격차를 측정하는 새로운 평가 프레임워크를 제안합니다. 연구 취향 분류 체계를 통해 LLM의 아이디어가 특정 패턴에 편향되어 있으며, 인간에 비해 아이디어의 범위가 좁다는 것을 정량적으로 입증했습니다.
제한된 컨텍스트 예산 내에서 RAG 성능을 최적화하기 위한 새로운 진단 도구와 증거 패킹 기법을 제안합니다. 기존의 문서 재현율 대신 'answer-in-context' 지표를 사용하여 정답 품질을 더 정확히 예측하며, 서브모듈러 최적화를 통해 효율적인 증거 구성을 달성합니다.
DiscoLoop은 단일 순전파 내에서 다단계 추론을 수행하기 위해 이산 임베딩과 연속적 은닉 상태 채널을 동시에 전달하는 새로운 루핑 아키텍처를 제안합니다. 기존 루프 트랜스포머의 표현력 문제를 해결하여 멀티홉 추론 작업에서 높은 정확도와 효율성을 달성했습니다.