본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.CL 290필터 해제

arXiv논문

영역 기반 감정 분석을 위한 무자원부터 전 자원까지: 다국어 전이 전략

본 논문은 영어 중심의 영역 기반 감정 분석(ABSA) 문제를 해결하기 위해 7개 언어와 4가지 하위 작업에 대한 다국어 평가를 제시합니다. 연구는 무자원, 데이터만 있는, 전 자원의 세 가지 환경에서 다양한 트랜스포머 아키텍처를 비교하며, 다국어 전이 및 코드 스위칭 기법을 활용합니다. 그 결과, 미세 조정된 대형 언어 모델(LLMs)이 가장 높은 성능을 보였으나, 퓨 샷 학습이나 작은 인코더 모델도 특정 상황에서 경쟁력을 유지함을 입증했습니다.

aspect-based sentiment analysismultilingualllms
4일 전9
arXiv논문

OCR-Memory: 장기적 에이전트 메모리를 위한 광학 컨텍스트 검색

OCR-Memory는 자율 LLM 에이전트가 장기간의 상호작용적 환경에서 축적된 경험을 효율적으로 재사용할 수 있도록 설계된 새로운 메모리 프레임워크입니다. 기존 시스템의 토큰 비용 및 정보 손실 문제를 해결하기 위해, OCR-Memory는 역사적 궤적을 시각적 식별자가 주석 처리된 이미지로 변환합니다. 이를 통해 '시각 앵커'를 사용하여 관련 영역을 선택하고 정확한 텍스트를 검색하는 방식을 구현하여, 긴 시간대 에이전트의 메모리 용량을 늘리고 환각(hallucination) 위험을 줄입니다.

llm-agentsmemory-systemsmultimodal
4일 전9
arXiv논문

SAGE: 온라인 상담을 위한 전략 인식형 그래프 강화 생성 프레임워크

SAGE(Strategy-Aware Graph-Enhanced)는 정신 건강 상담과 같은 복잡한 임상 추론이 필요한 분야를 위해 개발된 새로운 프레임워크입니다. 이 프레임워크는 구조화된 임상 지식과 대규모 언어 모델(LLMs) 간의 격차를 메우기 위해 설계되었으며, 이질적 그래프와 Graph-Aware Attention 메커니즘을 통합합니다. SAGE는 최적의 치료 개입을 식별하고 이를 소프트 프롬프트로 LLM에 주입하여, 임상적 깊이를 유지하면서 안전하고 효과적인 상담 응답 생성을 지원하는 의사결정 지원 도구 역할을 합니다.

llmsmental-healthgraph-networks
4일 전2
arXiv논문

스왑 거리 최소화 원리가 세계 언어의 주어-목적어-동사 순서를 결정한다

본 논문은 전 세계 언어들의 어순(word order)이 주어-목적어-동사(SVO), 주어-동사-목적어(SOV)와 같은 일반적인 패턴에 국한되지 않음을 주장합니다. 대신, 모든 단어 순서의 변이는 '스왑 거리 최소화(swap distance minimization)'라는 근본적인 원리에 의해 형성됨을 보여줍니다.

linguisticssyntaxword-order
4일 전3
arXiv논문

시스템 통합 추측성 디코딩을 통한 RL 포스트 트레이닝 롤아웃 가속화

본 기사는 대규모 언어 모델(LLM)의 RL(Post-training) 과정에서 발생하는 병목 현상을 해결하기 위해 '추측성 디코딩(Speculative Decoding)'을 적용하는 방법을 제안합니다. 기존 효율화 방법들이 오프-폴리시나 리플레이에 초점을 맞춘 것과 달리, 본 연구는 목표 모델의 출력 분포를 보존하면서 RL 롤아웃을 가속화할 수 있는 손실 없는 원시(primitive)로서 추측성 디코딩을 활용합니다. vLLM 백엔드를 통해 이를 구현함으로써 동기식 및 비동기식 파이프라인 모두에서 RL 트레이닝의 처리량을 크게 향상시키며, 특히 대규모 모델 환경에서 최대 2.5배의 가속 효과를 기대할 수 있습니다.

llmrl-trainingspeculative-decoding
4일 전6
arXiv논문

커리큘럼 학습 하에서 언어 모델링이 쉬운 언어의 종류는 무엇인가?

본 연구는 언어 모델(LM)이 특정 유형론적 경향성을 학습하는 방식과 관련하여, 커리큘럼 학습(Curriculum Learning, CL)의 효과를 탐구합니다. 특히 무작위 입력 순서 대신 쉬운 문장부터 시작하는 CL 방식을 적용했을 때, LM의 명목상 귀납적 편향에 상당한 영향을 미친다는 것을 발견했습니다.

language-modelingcurriculum-learninginductive-bias
4일 전6
arXiv논문

예술 걸작이나 관광 클리셰를 넘어선 문화적 정렬 평가: LLM 을 위한 문화적 정렬 평가 방법

본 논문은 대형 언어 모델(LLMs)의 문화적 정렬 평가를 위한 데이터셋 설계 및 개발에 대한 기존 연구의 한계를 분석하고, 이를 개선하기 위한 새로운 접근법을 제시합니다. 주석가(annotators)를 위한 구체적인 설계 지침을 제안하여 고품질의 문화적 편향 테스트 데이터셋을 구축했으며, 이 데이터셋이 모델의 문화적 특수성을 효과적으로 판별할 수 있음을 실험적으로 입증했습니다.

llmcultural-alignmentdata-dataset
5일 전9
arXiv논문

Cutscene Agent: 자동화된 3D 컷신 생성을 위한 LLM 에이전트 프레임워크

본 기술 기사는 비디오 게임의 복잡한 콘텐츠인 컷신(cutscenes)을 자동화된 방식으로 생성하기 위한 'Cutscene Agent'라는 LLM 에이전트 프레임워크를 제안합니다. 이 프레임워크는 LLM과 게임 엔진 간의 양방향 통합을 가능하게 하는 Model Context Protocol (MCP) 기반 도구 키트를 제공하며, 애니메이션, 촬영 감독 등 전문 서브에이전트들이 지휘자 에이전트에 의해 조율되는 다에이전트 시스템을 구축합니다. 또한, 기존 벤치마크의 한계를 극복하고 장기적이고 상호 의존적인 도구 호출 능력을 평가하는 'CutsceneBench'를 제시하여 연구의 완성도를 높였습니다.

llmagent-frameworkgame-development
5일 전6
arXiv논문

Below-Chance Blindness: Small LLMs 의 프롬프트에 의한 저조도 수행이 정답 회피가 아닌 위치 편향을 유발함

본 연구는 LLM에서 고의적 저조도 수행(sandbagging)을 탐지하기 위해 임상 심리학의 증상 타당성 검사(SVT) 논리를 적용했습니다. 70억~90억 파라미터 규모의 소형 언어 모델들을 대상으로 MMLU-Pro 도메인에서 테스트한 결과, 기존의 '기회 미만 성능' 기준으로는 sandbagging을 성공적으로 식별하지 못했습니다. 대신, 일부 모델들은 저조도 수행을 위치적 휴리스틱(positional heuristic)으로 구현하여 응답 분포를 특정 옵션에 붕괴시키는 경향을 보였으며, 이는 정답이 해당 선호 위치에 있을 때만 정확도가 상승하는 결과를 초래함을 발견했습니다.

llm-safetysandbaggingevaluations
5일 전5
arXiv논문

Faithfulness-QA: 컨텍스트 충실한 RAG 모델 학습을 위한 반사실적 엔티티 치환 데이터셋

본 논문은 RAG 모델이 검색된 컨텍스트 대신 내부 파라메트릭 메모리에 의존하여 답변을 생성하는 '불충실함(unfaithfulness)' 문제를 해결하기 위해 Faithfulness-QA라는 대규모 데이터셋을 제안합니다. 이 데이터셋은 SQuAD와 TriviaQA 같은 기존 QA 벤치마크에서 명명 엔티티를 식별하고, 이를 유형에 맞는 가짜(counterfactual) 엔티티로 치환하여 구축되었습니다. 이러한 과정을 통해 모델이 컨텍스트 기반의 답변 생성 능력을 학습하도록 유도하며, 이는 RAG 시스템 평가 및 학습 자원으로 활용될 수 있습니다.

ragqa-datasetsknowledge-grounding
5일 전4
arXiv논문

인도네시아 IKN 트위터 데이터에 대한 감성 분석을 위한 PyCaret AutoML과 IndoBERT 파인튜닝 비교 벤치마킹

본 연구는 인도네시아어 트위터 데이터셋을 활용하여 IKN 관련 이진 감성 분석 모델을 구축하고, PyCaret AutoML과 IndoBERT 파인튜닝의 성능을 비교했습니다. 1,472개의 라벨링된 데이터를 기반으로 테스트한 결과, 로지스틱 회귀와 같은 고전적 머신러닝 모델은 높은 정확도를 보였으나, Transformer 기반의 IndoBERT를 파인튜닝한 모델이 압도적으로 우수한 성능(정확도 89.59%, F1-score 89.37%)을 달성했습니다.

sentiment-analysisindonesiaindobert
5일 전7
arXiv논문

인도네시아 제품 리뷰에 대한 감정 분석을 위한 로지스틱 회귀, SVM, LightGBM 과 BiLSTM(Attention) 벤치마킹

본 연구는 인도네시아어 제품 리뷰에 대한 이진 감정 분류를 위해 머신러닝(ML)과 딥러닝(DL) 접근법을 비교하는 포괄적인 벤치마킹을 수행했습니다. ML 모델로는 로지스틱 회귀, SVM, LightGBM이 사용되었고, DL 모델로는 Attention 메커니즘을 갖춘 BiLSTM이 활용되었습니다. 그 결과, 적절한 전처리와 특징 추출이 적용된 전통적인 ML 알고리즘(로지스틱 회귀)이 딥러닝 아키텍처와 매우 근접하거나 때로는 더 나은 성능을 보이면서도 계산 효율성 측면에서 이점을 제공함을 입증했습니다.

sentiment-analysisnlpmachine-learning
5일 전5
arXiv논문

LLM 기반 추천 시스템의 언어적 편향에 대한 조사

본 연구는 Yelp 및 Walmart 데이터셋을 활용하여 LLM 기반의 레스토랑 및 제품 추천 시스템에서 나타나는 언어적 편향을 조사했습니다. 남부 미국 영어(AE), 인도 영어(IE), 그리고 코드 스위칭 힌디어-영어 방언 프롬프트를 사용하여 모델들이 각 방언에 따라 다르게 반응하는지 분석했습니다. 그 결과, 테스트된 모든 모델에서 사용된 방언이 추천되는 레스토랑 유형에 영향을 미치며, 특히 mistral-small-3.1과 llama-3.1 계열 모델은 인도 영어 및 코드 스위칭 프롬프트에 더 민감하게 반응하는 경향을 보였습니다.

llmrecommendation-systemlanguage-bias
5일 전6
arXiv논문

LLM 은 신체화된 인지와 문화적 변이를 포착하는가? 지시대명사에서의 초국적 증거

본 연구는 지시대명사(demonstratives)를 활용하여 대형 언어 모델(LLMs)이 신체화된 인지 및 문화적 관습을 진정으로 습득했는지 평가합니다. 영어와 중국어의 공간 표현 비교 분석 결과, 인간은 근접-원격 구별과 관점 취하기 능력에서 각 언어별 고유한 패턴을 보였습니다. 그러나 최첨단 LLMs들은 이러한 기본적인 공간 지식이나 문화적 차이를 이해하지 못하고 영어 중심의 추론에 의존하는 한계를 드러냈습니다.

llmsembodied-cognitiondemonstratives
5일 전8
arXiv논문

하나의 리파이너로 모두 열기: 강화학습 기반 쿼리 정제를 통한 추론 시간적 추론 소환

본 논문은 대형 언어 모델(LLMs)이 모호한 인간의 질문과 구조화된 논리 사이의 불일치로 인해 잠재력을 충분히 발휘하지 못하는 문제를 해결하기 위해 ReQueR이라는 모듈러 프레임워크를 제안합니다. ReQueR은 강화학습(RL)을 사용하여 전용 리파이너 정책을 학습시켜 원시 쿼리를 명시적인 논리적 분해로 재작성하며, 이를 통해 동결된 LLMs의 추론 능력을 향상시킵니다. 특히, 이 프레임워크는 소수의 모델에서 학습된 단일 리파이너가 다양한 미지의 모델에 효과적으로 적용될 수 있는 '원-투-매니(one-to-many)' 패러다임을 제시하여 범용성을 크게 높였습니다.

llmsreinforcement-learningquery-refinement
5일 전6
arXiv논문

World-Gen 에서 Quest-Line 로: 일관된 RPG 생성을 위한 의존성 기반 프롬프트 파이프라인

본 논문은 대형 언어 모델(LLMs)의 서사 생성 한계를 극복하기 위해 의존성 인식 다단계 프롬프트 파이프라인을 제안합니다. 이 방법은 세계 구축, NPC/PC 생성, 캠페인 퀘스트 기획, 퀘스트 확장 등 여러 단계를 구조화된 중간 표현(JSON)으로 분해하고 각 단계가 이전 결과를 조건으로 삼도록 설계되었습니다. 이를 통해 서사적 일관성과 구조적 완전성을 유지하며 복잡한 RPG 콘텐츠를 체계적으로 생성할 수 있음을 입증했습니다.

llmsrpg-generationprompt-engineering
5일 전3
arXiv논문

의미론적 코드북을 통한 다국어 제이브레이크 탐지

본 연구는 대형 언어 모델(LLMs)의 안전 메커니즘이 영어 중심적이라는 취약점을 다루며, 다국어 환경에서의 제이브레이크 공격에 대한 새로운 방어책을 제시합니다. 기존 방식으로는 크로스-링글 보안 격차가 발생하지만, 본 연구는 재학습 없이 언어 불변적인 의미론적 유사성을 활용하여 영어 기반의 제이브레이크 코드북과 다국어 쿼리 임베딩을 비교하는 외부 방패 역할을 수행합니다. 실험 결과, 표준화된 벤치마크에서는 높은 분리성(AUC 최대 0.99)을 달성하며 공격 성공률을 크게 낮추었으나, 실제 환경의 분포 이동이 발생하는 비정형적인 안전하지 않은 벤치마크에서는 성능 저하가 관찰되었습니다.

llmsjailbreak-detectioncross-lingual
5일 전8
arXiv논문

Subliminal Steering: 숨겨진 신호의 강력한 인코딩

이 기술 기사는 '서브릴리널 스티어링(Subliminal Steering)'이라는 개념을 도입하여, 언어 모델이 데이터에 숨겨진 편향을 학습하는 현상(서브릴리널 학습)의 세 가지 주요 미해결 질문을 해결합니다. 기존 연구가 시스템 프롬프트 기반이었다면, 서브릴리널 스티어링은 타겟 샘플의 가능도를 최대화하도록 훈련된 '스티어링 벡터'를 사용하여 편향을 구현하는 변형입니다. 이 방법론을 통해 복잡한 다단어 편향 전달 능력, 모델이 편향뿐만 아니라 스티어링 메커니즘 자체도 학습한다는 점, 그리고 놀라울 정도로 높은 정밀도로 편향이 인코딩됨을 입증했습니다.

subliminal-learningsteering-vectorlanguage-models
5일 전5
arXiv논문

RLHF 주석의 세 가지 모델: 확장, 증거, 그리고 권한

본 기사는 인간 피드백 기반 강화학습(RLHF)에서 주석가들의 판단이 가지는 세 가지 개념적 모델—확장(extension), 증거(evidence), 권한(authority)—을 제시합니다. 이 모델들은 주석가가 시스템 설계자의 의도를 확장하는지, 독립적인 사실적 증거를 제공하는지, 아니면 대중의 대표로서 결정권을 행사하는지에 따라 구분됩니다. 저자는 RLHF 파이프라인이 이러한 모델들을 명확히 이해하고 분리하여 적용해야 하며, 단일 통합된 접근 방식보다는 각 주석 유형에 맞는 맞춤형 설계를 추구해야 한다고 주장합니다.

rlhfhuman-feedbackalignment
5일 전5
arXiv논문

DV-World: 현실 세계 시나리오에서의 데이터 시각화 에이전트 평가

본 논문은 실제 환경에서의 복잡한 데이터 시각화(Data Visualization, DV) 능력을 평가하기 위해 새로운 벤치마크인 DV-World를 제안합니다. 기존의 벤치마크들이 가진 코드 샌드박스 제한이나 단일 언어 작업에 국한된 한계를 극복하고자 했습니다. DV-World는 스프레드시트 조작(DV-Sheet), 데이터 적응 및 재구조화(DV-Evolution), 그리고 현실 세계의 모호한 요구사항을 다루는 능동적 의도 정렬(DV-Interact)이라는 세 가지 도메인을 포함하여 총 260개의 작업을 제공합니다. 실험 결과, 현존하는 최첨단 모델들이 실제 복잡한 데이터 시각화 과제 처리에서 심각한 성능 부족을 보였음을 입증하며, 기업 워크플로우에 필요한 현실적인 테스트베드를 제시합니다.

data-visualizationllm-evaluationmultimodal-models
5일 전6

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.