본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.CL 292필터 해제

arXiv중요논문

LoRA 기반 트랜스포머의 서브 토큰 라우팅을 통한 효율적 KV 압축 기법

본 논문은 기존의 토큰, 헤드 단위가 아닌 '서브 토큰(sub-token)' 수준에서 트랜스포머 모델의 효율성을 제어하는 라우팅 메커니즘을 제시합니다. 특히 LoRA (Low-Rank Adaptation)를 적용한 환경에서 KV 압축을 수행할 때, 단순히 토큰 전체를 보존하거나 버리는 'All-or-nothing' 방식을 탈피하여 서브 토큰 단위로 정보를 정교하게 라우팅하고 압축하는 방법을 제안합니다. 이를 통해 언어 모델링(LM)의 품질과 압축률 간의 트레이드오프를 개선할 뿐만 아니라, 다운스트림 태스크 수행 시에도 원래의 성능을

llmtransformerlora
4월 24일2
arXiv중요논문

다중 차트 기반 질의응답(QA) 성능 평가를 위한 PolyChartQA 벤치마크 공개

복잡한 정보를 이해하려면 여러 개의 관련 차트를 종합적으로 해석해야 합니다. 본 논문은 이러한 다중 차트 이미지 기반 질의응답(QA) 능력을 평가하기 위해 PolyChartQA라는 중규모 데이터셋을 소개합니다. 이 벤치마크는 컴퓨터 과학 분야의 동료 검토 출판물에서 가져온 534개의 다중 차트 이미지와 총 2,694개의 QA 쌍으로 구성되어 있습니다. 연구진은 이를 활용하여 기존 최신 멀티모달 언어 모델(MLMs)들의 성능을 평가했으며, 특히 인간이 작성한 질문과 LLM이 생성한 질문 간의 정확도 차이 및 새로운 프롬프팅 기법 적용

multimodalqachart_analysis
4월 24일2
arXiv논문

AI 회의 요약 평가를 위한 재사용 가능한 크로스 도메인 파이프라인

본 논문은 생성형 AI 애플리케이션, 특히 AI 회의 요약을 체계적으로 평가할 수 있는 재사용 가능한 파이프라인을 제시합니다. 이 시스템은 데이터 입력부터 구조화된 점수 산출 및 보고까지 5단계로 구성되어 있으며, 모든 결과물(Ground Truth 및 평가자 출력)을 타입이 지정되고 영속적인 아티팩트로 취급하는 것이 특징입니다. 114개 회의를 포함한 다중 도메인 데이터셋에서 GPT-4.1-mini, GPT-5-mini, GPT-5.1 등을 비교 평가했습니다. 그 결과, 모델별 강점이 명확히 나타났는데, GPT-4.1-mini가

ai evaluationmeeting summarygenerative ai
4월 24일3
arXiv중요논문

추상 시각 추론의 병목 현상: 기호적 접지(Symbolic Grounding) 분석

본 연구는 Vision-Language Models (VLMs)이 Bongard와 같은 추상 시각 추론 벤치마크에서 실패하는 근본적인 원인을 진단합니다. 단순히 추론 능력의 문제인지, 아니면 이미지 표현(Representation) 자체에 병목 현상이 있는지를 탐구했습니다. 연구진은 기존의 End-to-End VLM을 raw 이미지와 함께 사용하거나, 해당 이미지를 기반으로 생성된 기호적 입력(symbolic inputs)과 함께 사용하는 방식으로 비교 분석했습니다. 그 결과, LLM이 기호적 입력을 통해 Free-form 문제에서

vlmllmsymbolic grounding
4월 24일3
arXiv중요논문

정신 건강 지원을 위한 전문 상담사 지향형 응답 엔진 (CARE)

전 세계적으로 증가하는 정신 건강 문제에 대응하기 위해, 본 논문은 전문 상담사의 언어 패턴과 개입 전략을 학습한 생성형 AI 프레임워크인 CARE(Counselor-Aligned Response Engine)를 제안합니다. CARE는 오픈 소스 LLM을 활용하여 히브리어와 아랍어 같은 저자원 언어에 특화 조정(fine-tuning)합니다. 특히, 전문 상담사가 '매우 효과적'이라고 평가한 실제 위기 대화 세션을 학습 데이터로 사용하여, 단순 응답 생성을 넘어 감정적 맥락과 역동적인 상호작용 패턴을 포착합니다. 실험 결과, CARE

llmmental healthgenai
4월 24일1
arXiv논문

LLM 기반의 지오코딩 혁신: ReaGeo 프레임워크 소개

기존의 다단계 방식이 가진 워크플로우 복잡성, 오류 전파 문제, 구조화된 지리 데이터베이스 의존성 등의 한계를 극복하기 위해 ReaGeo를 제안합니다. 이 프레임워크는 지리 좌표 예측 문제를 텍스트 생성 문제로 재구성하고, Chain-of-Thought (CoT) 메커니즘을 도입하여 공간적 관계 추론 능력을 강화했습니다. 또한, 거리 편차 기반 보상(distance-deviation-based reward)의 강화학습 (RL)을 적용해 생성 정확도를 최적화합니다. ReaGeo는 명시적인 주소 쿼리뿐만 아니라 모호한 상대 위치 쿼리와

llmsgeocodingnlp
4월 24일1
arXiv중요논문

LLM 기반 코드 탐지: SemEval-2026 Task 13 분석

본 문서는 SemEval-2026 Task 13에서 다루는 기계 생성 코드(Machine-Generated Code) 탐지 과제에 대한 접근 방식을 설명합니다. 이 태스크는 단순한 이진 분류를 넘어, 소스 출처 추적, LLM 계열 식별, 그리고 인간-기계 협업 또는 적대적으로 변조된 코드를 포함하는 복합적인 시나리오를 다룹니다. 기존의 텍스트 기반 탐지 기법(mdok)을 코드 이해에 더 적합한 다양한 기본 모델로 조정하여 적용했으며, 모든 하위 태스크에서 경쟁력 있는 결과를 얻었으나, 최고 성능 시스템과의 격차가 커서 추가 개선이필

llmcode detectionsemeval
4월 24일1
arXiv중요논문

다국어 극성 분석, 일반가 vs 전문화 전략 비교 연구 (SemEval-2026)

본 논문은 SemEval-2026 Task 9의 다국어 극성 감지(Polarization Detection)를 22개 언어로 체계적으로 연구했습니다. 기존에는 XLM-RoBERTa 같은 범용 모델이 충분하다고 여겨졌으나, 크메르어(Khmer), 오디아어(Odia)와 같이 스크립트가 다른 언어에서는 단일 언어 전문 모델(Specialist)의 성능 향상이 두드러집니다. 저자들은 하나의 아키텍처에 의존하기보다 개발 성능에 따라 다국어 범용 모델, 특정 언어 전문 모델, 하이브리드 앙상블 전략을 유연하게 전환하는 '언어 적응형 프레임워크

multilingualpolarization detectionsemeval
4월 24일1
arXiv중요논문

소프트웨어 성능 요구사항, 상호작용 기반으로 정량화하는 방법 (IRAP)

소프트웨어 성능 요구사항은 자연어로 되어 있어 모호성이 크고 이를 수학적 형태로 자동 정량화하기 어렵습니다. 본 논문에서는 이러한 문제를 해결하기 위해 'IRAP'이라는 새로운 접근 방식을 제안합니다. IRAP은 상호작용(interactive)과 검색 증강 (retrieval-augmented)을 결합하여, 문제 특화 지식으로부터 선호도를 검색하고 추론하며 이해관계자와의 대화를 진행합니다. 이를 통해 기존 방법들보다 훨씬 적은 횟수의 상호작용으로도 높은 정확도의 성능 요구사항 정량화가 가능함을 실증적으로 입증했습니다.

software engineeringperformance requirementsnlp
4월 24일1
arXiv중요논문

네덜란드 임상 노트 비식별화 비교 연구: DP, NER, LLM 성능 분석

의료 데이터 활용에 필수적인 환자 프라이버시 보호를 위해 본 연구는 네덜란드 임상 노트 비식별화(De-identification) 분야에서 차분 프라이버시(DP), 개체명 인식(NER), 대규모 언어 모델(LLM)을 비교 평가했습니다. 기존의 수동 방식은 비용과 시간이 많이 들기 때문에, 자동화된 방법론이 필요합니다. 본 연구는 이 세 가지 접근 방식을 독립적으로, 그리고 LLM 기반 전처리 과정을 거친 하이브리드 전략으로 적용하여 성능을 분석했습니다. 그 결과, DP 메커니즘만으로는 유틸리티(Utility)가 크게 저하되지만, 언

differential_privacyllmde-identification
4월 24일1
arXiv중요논문

분산 사전 학습의 안정성 확보: Decoupled DiLoCo 소개

기존 대규모 언어 모델(LLM) 사전 학습은 단일 프로그램 다중 데이터 (SPMD) 패러다디지에 의존하여, 장치 간의 강한 결합으로 인해 일시적인 지연이나 하드웨어 오류 발생 시 전체 계산이 중단되는 취약점을 가집니다. 본 논문에서 제안하는 Decoupled DiLoCo는 이러한 동기식(synchronous) 병목 현상을 해결하기 위해 DiLoCo 프레임워크를 개선했습니다. 이는 컴퓨팅을 여러 독립적인 '러너(learners)'로 분할하여, 이들이 비동기적으로 파라미터 조각을 중앙 동기화기에 전송하게 합니다. 최소 쿼럼(quorum

llmdistributed trainingspmd
4월 24일1
arXiv중요논문

AI-Gram: 시각 에이전트의 사회적 상호작용 연구 플랫폼

본 논문은 이미지 기반 상호작용을 통해 자율적인 다중 에이전트 비주얼 네트워크에서 발생하는 사회 역학을 연구하는 플랫폼 'AI-Gram'을 소개합니다. LLM으로 구동되는 모든 참여자가 시각 미디어를 매개로 어떻게 소통하고 적응하는지 실험했습니다. 주요 발견으로는, 풍부한 커뮤니케이션 구조를 보여주는 시각적 응답 사슬의 자발적 출현과 함께, 에이전트들이 사회적 파트너에게 스타일적으로 수렴하려는 경향에 저항하며 개별적인 '미학적 주권(aesthetic sovereignty)'을 유지한다는 점입니다. 이는 현재 에이전트 아키텍처가 강력

multi-agentllmvisual-agents
4월 24일1
arXiv중요논문

LLM 추론 능력 향상을 위한 하이브리드 아키텍처 연구

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 단일한 기능으로 보기보다, '기억 검색(recall)'과 '상태 추적(state-tracking)'이라는 기본적인 원시 요소(primitives)로 분해하여 분석합니다. 특히, 주의 집중 기반 검색(attention-based retrieval)과 순환 상태 업데이트(recurrent state updates)를 결합한 하이브리드 아키텍처가 두 가지 요소를 동시에 요구하는 작업에서 기존의 어텐션 전용 모델보다 우수함을 입증했습니다. 연구 결과, 추론 증강(reasoning) 자체가

llmreasoninghybrid-architecture
4월 24일1
arXiv중요논문

규제 준수 자동 감지: 도메인 간 데이터 선택 및 증강 전략

법률 텍스트의 복잡성과 가변성 때문에 규제 준수(compliance) 자동 감지는 어려운 과제입니다. 기존 모델이 한 규제에서 학습한 지식을 다른 규제에 적용하는 데 어려움을 겪는 '도메인 간 전이(cross-domain transfer)' 문제가 핵심입니다. 본 연구는 이 문제를 해결하기 위해 데이터 선택(data selection) 전략을 제안합니다. 특히, 대규모 소스 도메인에서 증강 데이터를 추출할 때 무작위 샘플링, Cross-Entropy 차이 기반 방법, 중요도 가중치 부여(importance weighting), 임베

compliancenlpcross-domain
4월 24일1
arXiv중요논문

인도어 TTS 성능 평가: 대규모 쌍별 비교 분석 및 선호도 모델링

본 연구는 언어적 다양성과 음성 인식의 다차원성을 고려하여, 인도어(Indic languages)를 포함한 다국어 TTS 시스템을 평가하는 통제된 다차원 쌍별 평가 프레임워크를 제시합니다. 10개 인도어권 언어와 5K+ 문장을 사용하여 7개의 최신 TTS 시스템을 평가하고, 1900명 이상의 원어민 평가자로부터 12만 건 이상의 비교 데이터를 수집했습니다. 이 데이터를 기반으로 브래들리-테리(Bradley-Terry) 모델링을 통해 다국어 리더보드를 구축하고, SHAP 분석을 활용하여 인간의 선호도를 해석하며 각 음성 품질 차원별로

ttsmultilingualindic languages
4월 24일1
arXiv중요논문

테이블 데이터 수치 추론의 일반화 성능 향상: TaNOS 프레임워크

전문 도메인 테이블 기반의 수치 추론 모델은 특정 데이터셋에 과적합되어 도메인 이동(domain shift) 시 성능 저하가 심각합니다. 본 논문은 TaNOS라는 지속적인 사전 학습 프레임워크를 제안하며, 이는 헤더 익명화, 최소 구조 단서 제공을 위한 연산 스케치(operation sketches), 그리고 프로그램 기반의 정확성 보장 자가 지도 학습 (self-supervised pretraining) 세 가지 요소로 구성됩니다. TaNOS는 도메인 의미론과 수치 연산 구조를 분리하여 모델의 전이 가능성을 높입니다. 8B 파라미

numerical reasoningself-supervised learningtable data
4월 24일1
arXiv중요논문

복잡한 최적화 문제 해결을 위한 종합 벤치마크, OptiVerse 공개

LLM이 뛰어난 추론 능력을 보여도 복잡한 최적화(Optimization) 문제는 여전히 어렵습니다. 기존의 벤치마크가 수학적 프로그래밍이나 조합 최적화에 국한되어 있어 평가 범위가 부족했습니다. 이에 본 논문에서는 확률적, 동적, 게임, 최적 제어 등 소외되었던 영역을 포함하는 1,000개의 종합 문제로 구성된 'OptiVerse'를 제시합니다. 22개 LLM으로 테스트한 결과, GPT-5.2나 Gemini-3 같은 고급 모델도 어려운 문제에서 정확도가 27%를 넘기 어려웠으며, 주요 병목 지점은 모델링 및 논리 오류임이 밝혀졌고

llmoptimizationbenchmark
4월 24일1
arXiv중요논문

토큰 기반 임베딩의 한계 극복: SAE를 활용한 개념 공간 학습

기존의 토큰(Token) 기반 Sparse IR 모델인 SPLADE는 효율적이지만, 백본 어휘집에 의존하여 다의성(polysemicity) 및 동의어 처리에서 성능 한계를 가집니다. 본 연구는 이 문제를 해결하기 위해, 기존의 토큰 어휘집을 희소 자동 인코더(Sparse Auto-Encoder, SAE)를 통해 학습된 '의미 개념 공간(latent space of semantic concepts)'으로 대체하는 SAE-SPLADE 모델을 제안합니다. 실험 결과, SAE-SPLADE는 SPLADE와 유사한 검색 성능을 달성하면서도,

saespladesparse ir
4월 24일1
arXiv중요논문

VLM 평가 모델의 '맹점' 분석: 이미지-텍스트 및 텍스트-이미지 오류 탐지 능력 검증

본 연구는 현재 광범위하게 사용되는 평가용 VLM(Evaluator VLMs)의 신뢰성 문제를 체계적으로 분석합니다. 이미지-텍스트 (I2T) 및 텍스트-이미지 (T2I) 작업 전반에 걸쳐, 객체 환각, 공간 추론, 사실적 근거 등 주요 오류 차원을 목표로 하는 정교한 교란(perturbations)을 도입했습니다. 총 40개 이상의 교란 차원과 4000개가 넘는 인스턴스를 사용하여 4개의 대표 VLM을 평가한 결과, 현재의 평가용 VLM들이 심각한 '맹점'을 가지고 있음을 발견했습니다. 특히 미세한 구성적/공간적 오류나 입력 이미

vlmvision-languageevaluation
4월 24일1
arXiv중요논문

LLM 기반 직무 스킬 추출을 위한 다중 모듈 프레임워크 (SRICL)

채용 공고문에서 직무 스킬(skill)을 정확하게 추출하는 것은 인재 매칭 및 노동 시장 분석의 핵심입니다. 기존에 범용적인 대규모 언어 모델(LLMs)만 사용하면 경계가 불안정하거나 환각(hallucination) 같은 문제가 발생하기 쉽습니다. 본 논문은 이러한 문제를 해결하기 위해, 시맨틱 검색(SR), 인컨텍스트 학습(ICL), 지도 미세 조정(SFT)을 결합하고 결정론적 검증기(deterministic verifier)를 추가한 'SRICL' 프레임워크를 제안합니다. SRICL은 ESCO 같은 도메인별 주석 데이터를 활용해

llmnlpskill extraction
4월 24일1

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.