Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.CL (NLP) 51건필터 해제
LLMEval-Logic: 적대적 강화(Adversarial Hardening)를 통한 LLM의 논리적 추론 평가를 위한 솔버 검증 기반
LLMEval-Logic은 LLM의 논리적 추론 능력을 정밀하게 평가하기 위해 제안된 새로운 벤치마크입니다. Z3 솔버를 활용한 형식적 검증과 적대적 강화(Adversarial Hardening) 워크플로우를 통해 기존 벤치마크의 한계를 극복하고, 현실적인 시나리오 기반의 고난도 논리 추론 항목을 제공합니다. 실험 결과, 최신 LLM들도 고난도 항목에서는 낮은 정확도를 보이며 여전히 논리적 추론에 큰 어려움을 겪고 있음이 확인되었습니다.
OScaR: LLM 및 그 이상의 영역에서 극단적인 KV 캐시 양자화(Quantization)를 위한 오컴의 면도날
OScaR은 LLM의 긴 문맥 추론과 멀티모달 지능 구현 시 발생하는 KV 캐시 메모리 병목 현상을 해결하기 위한 새로운 양자화 프레임워크입니다. 기존 채널별 양자화의 한계인 토큰 노름 불균형(TNI) 문제를 해결하기 위해 Canalized Rotation과 Omni-Token Scaling을 도입하여 INT2 수준의 극단적인 압축에서도 성능 저하를 최소화합니다.
K-양자화 (K-Quantization) 및 그것이 출력 성능에 미치는 영향
본 논문은 다양한 양자화 수준이 거대 언어 모델(LLMs)의 성능과 정확도에 미치는 영향을 MMLU-Pro, CRUXEval, MuSR 등의 벤치마크를 통해 조사합니다. 연구 결과, 높은 정밀도에서는 성능 향상이 나타나지만 수확 체감의 법칙이 적용되며, 모델의 크기가 클수록 공격적인 양자화에 대해 더 높은 회복 탄력성을 보임을 확인했습니다.
대규모 언어 모델(LLM)이 저자원 ASR의 오류를 신뢰성 있게 수정할 수 있는가? West Frisian에 대한 데이터 오염 인지 사례 연구
본 연구는 저자원 언어인 West Frisian을 대상으로 LLM을 활용한 자동 음성 인식(ASR) 오류 수정(GER)의 효과와 데이터 오염 영향을 조사했습니다. 비공개 텍스트를 포함한 오프라인 데이터셋을 통해 검증한 결과, LLM 기반의 오류 수정이 실제 성능 향상으로 이어짐을 확인했습니다.
사회적 상호작용 에이전트의 신뢰 보정(Trust Calibration)을 향하여: LLM을 이용한 성별화된 멀티모달 행동 생성 연구
본 연구는 사회적 상호작용 에이전트(SIA)가 사용자의 신뢰를 적절히 조절할 수 있도록 LLM을 활용해 능력과 선의를 반영한 멀티모달 행동을 생성하는 방법을 제안합니다. 실험 결과 GPT-4(본문 내 GPT-5.4는 오기로 판단됨)가 텍스트, 음성, 표정 등 다양한 양식에서 일관된 행동을 생성할 수 있음을 확인했으나, 성별 프롬프트 입력 시 사회적 성 고정관념이 나타나는 한계도 발견했습니다.
무엇이 수학적 추론을 진정으로 향상시키는가: 순수 코드를 넘어선 구조적 추론 신호
본 연구는 코드 데이터가 언어 모델의 일반적 추론 능력을 향상시키는지에 대해 10T-토큰 코퍼스를 활용한 통제된 사전 학습 실험으로 분석했습니다. 연구 결과, 순수 코드는 프로그래밍 능력은 높이지만 일반 추론 강화제로는 한계가 있으며, 오히려 코드와 텍스트가 결합된 구조적 추론 흔적이 수학적 추론 향상에 핵심적인 역할을 한다는 것을 밝혀냈습니다.
아랍어 기반 LLM 금융 감성 분석: 사우디 시장의 증거
사우디 시장의 언어적 특성을 반영하여 아랍어 금융 뉴스 및 소셜 미디어를 분석하는 새로운 NLP 프레임워크를 제안합니다. Transformer 기반 NER과 기업 사전을 결합한 다단계 파이프라인을 통해 84K 규모의 고품질 아랍어 금융 데이터셋을 구축하였습니다. 이를 통해 기업별 감성 집계와 사우디 거래소 주식 시장의 움직임 간의 상관관계를 분석할 수 있음을 입증했습니다.
TERGAD: 그래프 이상 탐지를 위한 구조 인식 텍스트 강화 표현
TERGAD는 그래프 이상 탐지(GAD) 시 노드의 구조적 문맥과 텍스트 특징 간의 불일치를 해결하기 위해 제안된 새로운 데이터 증강 프레임워크입니다. LLM을 활용하여 노드의 위상적 속성을 자연어 서사로 변환하고, 이를 게이트형 이중 분기 오토인코더를 통해 기존 노드 속성과 융합하여 고차원적인 의미론적 임베딩을 생성합니다. 실험 결과, TERGAD는 6개의 실제 데이터셋에서 기존 최신 모델들을 능가하는 성능을 보여주었습니다.
ContextRAG: 검색 증강 생성 (RAG)을 위한 추출 없는 계층적 그래프 구축
ContextRAG는 LLM을 통한 엔티티 및 관계 추출 과정 없이 그래프 구조를 구축하는 새로운 RAG 시스템입니다. 잔차 양자화 k-평균과 형식 개념 분석(FCA)을 활용하여 청크 임베딩 기반의 퍼지 개념 그래프를 도출함으로써, 기존 방식 대비 토큰 사용량과 인덱싱 비용을 획기적으로 절감합니다.
장기 이력 인지형 의료 대화의 합성 및 평가
본 연구는 환자의 장기적인 의료 이력을 기억하고 추론할 수 있는 헬스케어 에이전트 개발을 위해, LLM을 활용하여 고품질의 장기 의료 대화 데이터셋인 MediLongChat을 구축하는 프레임워크를 제안합니다. 지식 가이드 분해 방식을 통해 합성 환자 프로필과 다회차 대화를 생성하며, 에이전트의 메모리 능력을 평가하기 위한 세 가지 벤치마크 태스크와 다차원 평가 프레임워크를 도입했습니다. 실험 결과, 최신 LLM들도 MediLongChat의 복잡한 추론 과제를 수행하는 데 어려움을 겪는 것으로 나타나 벤치마크의 유효성을 입증했습니다.
CAIT: 아동-성인 상호작용을 위한 구문 분석 툴킷
언어 습득 연구를 위한 CHILDES 데이터셋에 특화된 최첨단 의존 구문 분석기 툴킷인 CAIT를 소개합니다. 이 툴킷은 기존의 SpaCy나 Stanza보다 아동-성인 상호작용의 구문 패턴을 더 정확하게 포착하며, 품사 태거와 발화 수준의 구문 태거를 포함합니다. 이를 통해 언어 발달 과정에 따른 구문 구조 변화를 추적하는 대규모의 재현 가능한 연구가 가능해집니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.