본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.CL 290필터 해제

arXiv논문

선택하여 사고하기: 지역적 충분성을 통해 SLM 잠재력 해방

본 논문은 소형 언어 모델(SLM)이 대형 언어 모델(LLM)의 추론 능력 격차를 극복하는 새로운 방법인 '지역적 충분성(local sufficiency)'을 제안합니다. 기존 방식들이 외부 LLM 호출이나 표준 지식전달에 의존하여 한계를 겪었던 문제를 해결하기 위해, 이 연구는 LLM의 선택 과정을 SLM이 제시한 후보 순위 내에서의 선택 논리로 재정의하는 'SELECT TO THINK (S2T)' 프레임워크를 도입합니다. 이를 통해 개발된 S2T-LOCAL은 외부 의존성 없이도 자율적인 리랭킹을 수행하며, 벤치마크에서 탐욕적 디코딩 대비 평균 24.1%의 성능 향상을 달성했습니다.

slmllmknowledge-distillation
4일 전7
arXiv논문

DSIPA: 감정 분포 불변 패턴 발산 분석을 통한 LLM 생성 텍스트 탐지

본 논문은 대형 언어 모델(LLMs)이 생성한 텍스트를 탐지하기 위해 DSIPA라는 새로운 비학습 기반 프레임워크를 제안합니다. 이 방법은 LLM이 일반적으로 감정적으로 더 일관된 출력을 보이는 반면, 인간 작성 텍스트는 더 큰 정서적 변동을 보인다는 근본적인 행동 비대칭성을 활용합니다. DSIPA는 지도 학습이나 모델 파라미터 접근 없이도 제로샷/블랙박스 방식으로 작동하며, 다양한 도메인과 최신 LLM에 대해 높은 탐지 성능과 강력한 일반화 능력을 입증했습니다.

llm-detectionfake-contentemotion-analysis
4일 전2
arXiv논문

이론 기반 평가가 LLM 개인화의 저자성 격차를 드러냄

본 논문은 LLM 개인화 평가에 있어 '저자성 과학' 기반의 평가 기준이 필수적임을 주장합니다. 기존의 스타일적 개인화 평가는 저자의 고유한 스타일을 측정하는 이론적 근거가 부족하여, 실제로는 의미 있는 '저자성 격차(authorship gap)'를 놓치고 있습니다. 연구진은 LUAR와 같은 이론 기반 지표를 사용하여 50명의 저자와 1,000개의 생성 데이터를 평가한 결과, 모든 개인화 방법이 낮은 점수를 받았으며, 기존의 임의적인 벤치마크들은 이 격차를 감지하지 못함을 입증했습니다. 이는 LLM 성능 평가가 단순한 데이터 측정에 그치는 것이 아니라, 견고한 이론적 기반을 갖추어야 함을 시사합니다.

llm-personalizationauthorship-sciencestylometrics
4일 전9
arXiv논문

차등 프라이버시 (DP) 기반 텍스트 재작성이 언어적 스타일을 재형상화한다

본 논문은 차등 프라이버시(DP) 기반 텍스트 재작성이 단순 단어 치환을 넘어 언어의 전반적인 스타일과 레지스터 정체성에 영향을 미친다는 것을 탐구합니다. 연구 결과, DP 제약 하의 재작성은 텍스트의 소통적 서명을 체계적으로 변형시키며, 특히 상호작용 마커나 복잡한 종속 관계 같은 인간 저자의 고유 스타일을 크게 손실시킵니다. 이는 의미론적 내용은 보존하지만, 텍스트를 비참여적이고 설득력이 없는 중립적인 레지스터로 강제적으로 동질화시키는 경향이 있음을 보여줍니다.

differential privacytext rewritingstylometry
4일 전7
arXiv논문

자기회귀 연쇄를 깨다: 효율적인 LLM 기반 속성 값 추출을 위한 하이퍼-병렬 디코딩

본 논문은 여러 개의 독립적인 시퀀스를 동시에 디코딩해야 하는 속성 값 추출(AVE)과 같은 작업의 효율성을 높이기 위해 하이퍼-병렬 디코딩(HPD)이라는 새로운 알고리즘을 제안합니다. HPD는 위치 ID 조작을 통해 토큰 생성을 순서에 얽매이지 않게 하여, 병렬 처리를 극대화하고 추론 속도를 혁신적으로 가속화합니다. 이 방법은 모든 LLM과 호환되며, AVE 작업뿐만 아니라 독립적인 출력 구조를 가진 다양한 시나리오에 적용 가능하여 산업적 활용도가 매우 높습니다.

llmdecodingparallelization
4일 전6
arXiv논문

인도네시아어 인스타그램 댓글의 사이버 괴롭힘 탐지를 위한 AutoML 및 BiLSTM 모델 비교 분석

본 연구는 인도네시아어 인스타그램 댓글에서 사이버 괴롭힘을 탐지하기 위해 다양한 머신러닝 및 딥러닝 모델의 성능을 비교 분석했습니다. 650개의 균형 잡힌 데이터셋과 슬랭 정규화, 스템밍 등을 포함한 도메인 특화 전처리 파이프라인을 적용하여 Naive Bayes, Logistic Regression 등 전통적인 ML 모델과 BiLSTM with Attention 같은 딥러닝 모델의 성능을 평가했습니다. 그 결과, 로지스틱 회귀가 머신러닝 중 최고 성능을 보였고, BiLSTM with Attention은 가장 강력한 전반적 성능을 달성하여, 도메인 특화 전처리와 각 접근법의 장점을 입증했습니다.

cyber-bullyingnlpdeep-learning
4일 전7
arXiv논문

Masked Language Model 을 활용한 극성 분석을 위한 새로운 준지도 기법

본 기술 기사는 Word2Vec 기반의 마스크드 언어 모델(MLM)을 활용하여 잠재적 의미 스케일링(LSS)의 새로운 버전을 개발하고, 이를 통해 텍스트에 극성 점수를 할당하는 준지도 기법을 제안합니다. 이 방법은 시드 단어가 주어진 문맥에서 발생할 확률을 기반으로 단어와 문서에 극성 점수를 부여하며, 기존 공간적 모델보다 더 정확하고 해석 가능하며 일관성이 높은 것으로 나타났습니다. COVID-19 팬데믹 기간 동안의 언론 보도 분석 사례를 통해 제안된 방법이 우수한 성능을 입증했습니다.

masked language modelsentiment analysisword2vec
4일 전9
arXiv논문

StratMem-Bench: 사실적 회상 너머의 가상 캐릭터 대화에서 전략적 기억 활용 평가

본 기사는 가상 캐릭터 대화에서 단순한 사실 회상을 넘어선 '전략적 기억 활용' 능력을 평가하기 위해 새로운 벤치마크인 StratMem-Bench를 소개합니다. 기존의 벤치마크들이 기억을 정적인 정보 저장소로 취급했던 한계를 극복하고, 이 데이터셋은 필수적, 지원적, 무관한 기억으로 구성된 복잡한 기억 풀을 탐색하도록 설계되었습니다. 또한, 엄격한 기억 준수, 통합 품질 등 다각적인 평가 지표를 제시하여 캐릭터의 고도화된 대화 능력을 측정합니다.

llmdialogue-generationmemory-recall
4일 전7
arXiv논문

FlowBot: 이계층 최적화와 텍스트적 기울기를 통한 LLM 워크플로우 유도

FlowBot은 이계층 최적화와 텍스트적 기울기(textual gradients)를 활용하여 LLM 워크플로우를 데이터 기반으로 자동으로 유도하고 최적화하는 새로운 접근법입니다. 기존의 수동 파이프라인 의존성 문제를 해결하며, 상위 루프는 전체 워크플로우 구조를, 하위 루프는 개별 LLM 호출을 각각 최적화합니다. 이 방법을 통해 발견된 워크플로우는 인간 제작 또는 자동 생성 방식의 강력한 베이스라인과 경쟁할 수 있는 성능을 입증했습니다.

llm-workflowsoptimizationtextual-gradients
4일 전6
arXiv논문

PyCaret AutoML 과 BiLSTM 을 활용한 정교한 감정 분류 벤치마킹: 20 개 클래스 감정 감지 비교 연구

본 연구는 '20-Emotion Text Classification Dataset'을 활용하여 20개 클래스에 대한 정교한 감정 분류 성능을 비교 분석했습니다. 로지스틱 회귀, SVM 등 전통적인 머신러닝 모델과 BiLSTM, GRU, 트랜스포머 같은 최신 딥러닝 아키텍처를 벤치마킹했습니다. 그 결과, BiLSTM이 높은 정확도와 F1 점수를 기록하며 전반적인 성능에서 가장 우수한 결과를 보였으며, 이는 순서 기반의 딥러닝 모델이 텍스트의 문맥적 감정 단서를 포착하는 데 효과적임을 입증합니다.

emotion-classificationnlpbidirectional-lstm
4일 전7
arXiv논문

LLM 기반 입지 감지를 위한 프롬프팅과 다중 에이전트 방법의 체계적 비교

본 논문은 입지 감지(Stance detection) 작업을 위해 제로샷 프롬프팅부터 다중 에이전트 논쟁까지 다양한 LLM 기반 전략들을 체계적으로 비교 분석했습니다. 15개의 다양한 크기의 LLM을 사용하여 총 5가지 방법을 4개 데이터셋의 14개 서태스크에 걸쳐 실험한 결과, 가장 좋은 성능은 프롬프팅 기반 방법에서 나왔으며, 에이전트 기반 방법은 높은 API 호출 비용을 요구하는 것으로 나타났습니다. 또한, 모델 스케일이 방법 선택보다 성능에 더 큰 영향을 미치며, 특정 크기(약 32B) 이후에는 성능 향상이 정체되는 경향을 발견했습니다.

llmstance-detectionprompting
4일 전9
arXiv논문

정밀 엔트로피 곡선 제어를 통한 LLM 강화학습 성능 포화 현상 해결

본 논문은 대형 언어 모델(LLMs)의 강화학습(RL) 학습 과정에서 발생하는 성능 포화 문제를 해결하기 위한 새로운 방법인 Entrocraft를 제안합니다. 기존 RL 알고리즘들이 겪는 엔트로피 붕괴 문제를 다루기 위해, Entrocraft는 거부 표본 추출 기반으로 사용자 정의 엔트로피 스케줄을 구현하며 목적 함수 정규화나 이득 추정기에 의존하지 않습니다. 실험 결과, Entrocraft는 LLM의 일반화 능력과 출력 다양성을 크게 개선하여 성능 포화 문제를 효과적으로 해결함을 입증했습니다.

reinforcement-learningllmsentropy-control
4일 전7
arXiv논문

가짜 공명: 음성 생성 평가를 위한 감정 임베딩 유사성에 대한 비판적 고찰

음성 생성 및 변환 분야에서 감정 표현력을 측정하기 위해 흔히 사용되는 임베딩 기반의 코사인 유사도 접근 방식에 대해 비판적으로 고찰합니다. 이 방법은 참조 샘플과 생성된 샘플 간의 감정적 합성을 정량화하는 데 필수적이지만, 실제로는 언어적 및 화자 변이로 인해 감정 특징을 포착하는 데 한계가 있습니다. 연구는 통제된 적대적 작업과 인간 평가를 통해 이러한 잠재 공간 유사성 지표가 제로샷(zero-shot) 환경에서 신뢰할 수 없으며, 궁극적으로 인간의 실제 청각 지각과 정렬되지 않음을 주장합니다.

speech-synthesisemotion-recognitionvoice-conversion
4일 전6
arXiv논문

언어 모델의 문장 이해 전략을 조사하기 위한 이중 작업 패러다임

이 논문은 언어 모델(LMs)의 문장 이해 전략에 대한 기존 연구의 한계를 지적하며, 인간처럼 인지 자원 제약 하에서의 행동을 탐구하는 새로운 이중 작업 패러다임을 제안합니다. 실험 결과, GPT-4o와 같은 최신 LMs는 산술 계산과 문장 이해를 결합한 이중 작업 조건에서 '가능성 기반(plausibility-based)' 추론으로 전환되는 경향을 보였습니다. 이는 메모리와 처리 자원의 제한이 모델의 합리적이고 인간과 유사한 추론 능력을 촉진함을 시사하며, 인지 자원 할당 관점에서 LMs를 이해하는 데 중요한 통찰을 제공합니다.

language-modelscognitive-loadnatural-language-understanding
4일 전4
arXiv논문

기계 번역을 활용한 그래픽 디자인 텍스트 스타일 전이

글로벌 마케팅 자료 등에서 그래픽 디자인의 텍스트 콘텐츠를 효과적으로 전이하기 위해서는 번역된 텍스트가 시각적 스타일을 유지하는 것이 중요합니다. 이 논문은 소스-번역 텍스트 간의 단어 정렬(word alignment) 문제를 해결하고, 이를 위해 NMT 및 LLM 기반의 세 가지 새로운 방법을 제안했습니다. 특히, 주의 헤드(attention head) 접근법이 기존의 NMT/LLM 방식보다 더 정확하거나 동등한 성능을 보여주었습니다.

machine-translationtext-style-transferword-alignment
4일 전6
arXiv논문

SG-UniBuc-NLP 의 SemEval-2026 Task 6: Long-Context Evasion Detection 를 위한

본 기사는 SemEval-2026 Task 6인 'CLARITY: Unmasking Political Question Evasions'에 제출한 시스템을 소개합니다. 이 시스템은 영어 정치 인터뷰 응답을 명확성(3가지 수준)과 세부적인 회피 전략(9가지 유형)으로 분류하는 것을 목표로 합니다. 기술적으로는, 긴 텍스트 처리를 위해 오버래핑 슬라이딩-윈도우 청킹 및 요소별 최대 풀링 집계 방식을 사용하며, 공유된 RoBERTa-large 인코더와 다중 작업 학습(Multi-task objective)을 통해 두 개의 특화 헤드를 구현했습니다.

semevalnlpquestion-evasion
4일 전7
arXiv논문

EmoTransCap: 담화 내 감정 전환 인식용 음성 캡셔닝을 위한 데이터셋 및 파이프라인

본 논문은 기존의 정적 단일 감정 분석에 머물렀던 음성 감정 캡셔닝(SEC) 분야의 한계를 극복하고, 담화 수준의 동적인 '감정 전환'을 인식하는 새로운 패러다임인 EmoTransCap을 제안합니다. 이를 위해 시간적 감정 역학을 통합한 대규모 데이터셋과 자동 파이프라인을 구축했으며, 이 데이터는 음향 속성과 시간적 단서를 결합하여 의미론적으로 풍부한 설명을 생성하도록 설계되었습니다. 또한, 감정 전환 탐지 및 디아라이제이션을 수행하는 다중 작업 모델(MTETR)과 인간적인 감정 표현력을 갖춘 합성 시스템도 함께 소개합니다.

emotion-captioningspeech-processingdialogue-understanding
4일 전3
arXiv논문

StarDrinks: 음료 주문 시나리오를 위한 영어 및 한국어 SLU 평가용 테스트 세트

StarDrinks는 LLM과 음성 비서가 복잡한 사용자 요청을 처리하는 능력을 평가하기 위해 설계된 영어 및 한국어 테스트 세트입니다. 이 데이터셋은 단순한 통제 시나리오의 한계를 넘어, 실제 사용 환경에서 발생하는 다양한 명칭 개체, 커스터마이징, 그리고 주저함 같은 자발적 화용 현상을 포착합니다. StarDrinks는 음성-슬롯(SLU), 전사-슬롯(NLU), 음성-전사(ASR) 등 다각적인 평가를 지원하여 모델의 견고성과 일반화 능력을 검증하는 현실적인 벤치마크를 제공합니다.

slunluasr
4일 전3
arXiv논문

SafeReview: LLM 기반 심사 시스템에 대한 적대적 숨은 프롬프트 방어

본 논문은 LLM이 학술 동료 검토 시스템에 통합되면서 발생하는 적대적 프롬프트 공격 취약성에 대응하는 새로운 방어 프레임워크를 제안합니다. 이 시스템은 공격 프롬프트를 생성하는 Generator와 이를 탐지하는 Defender 모델을 공동으로 최적화하며, 정보 검색 GAN에서 영감을 받은 손실 함수를 사용합니다. 그 결과, 기존의 정적 방어 방식보다 진화하고 새로운 위협에 대해 훨씬 높은 저항력을 갖춘 강력한 심사 시스템 기반을 마련했습니다.

llmadversarial-attackspeer-review
4일 전8
arXiv논문

소아 언어치료에 있어 멀티모달 LLM 만이 해답은 아니다

본 논문은 음성 장애(SSD) 진단을 위한 새로운 계층적 접근 방식을 제안하며, 기존의 이진 분류 방식에서 유형 및 증상으로 이어지는 연쇄적 분류 체계를 도입했습니다. 연구팀은 음성 표현 모델(SRM)을 미세 조정하고 표적 데이터 증강 기법을 활용하여 성능을 개선했으며, 이를 통해 LLM 기반 최첨단 기술보다 우수한 성능을 보임을 입증했습니다. 이 접근 방식은 언어치료사들의 인력 부족 문제를 해결하는 데 도움을 줄 수 있는 실용적인 대안을 제시합니다.

speech-disordersslmasr
4일 전6

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.