Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.CL 290건필터 해제
RadLite: CPU 배포용 소형 언어 모델의 다중 작업 LoRA 파인튜닝
본 연구는 대규모 언어 모델(LLMs)의 높은 계산 요구 사항 문제를 해결하기 위해, 30억~40억 파라미터 규모의 소형 언어 모델(SLMs)을 활용하여 방사선학 분야의 다중 작업 성능을 개선하는 방법을 제시합니다. LoRA 파인튜닝 기법을 통해 다양한 임상 과제에 걸쳐 SLM들을 성공적으로 훈련시켰으며, 이를 GGUF 형식으로 양자화하여 소비자급 CPU 환경에서도 효율적으로 배포할 수 있음을 입증했습니다.
작업 표현이 대규모 언어 모델의 전제에 미치는 영향
본 연구는 대규모 언어 모델(LLMs)이 실세계 응용에서 안전성과 신뢰성을 확보하는 데 있어 '작업 표현(task representation)'이 전제(assumption)를 유도하는 방식과 그 영향을 탐구합니다. 반복된 죄수의 딜레마 사례 연구를 통해, LLMs가 추론 단계를 거치더라도 특정 작업 표현에 의해 형성된 전제에는 취약함을 확인했습니다. 따라서 LLM의 신뢰성을 높이기 위해서는 적절하고 중립적인 작업 표현을 설계하는 것이 중요함을 시사합니다.
ReLay: 개인화된 LLM 생성 평이어 요약의 이해도 향상, 그러나 어떤 비용으로?
본 논문은 연구 결과를 일반 독자에게 전달하는 '평이어 요약(PLS)'의 한계를 지적하며, LLM 기반의 개인화된 PLS가 이 문제를 해결할 수 있는 대안임을 제시합니다. 저자들은 사용자 특성 및 이해도를 고려한 ReLay 데이터셋을 구축하고 이를 활용하여 5개의 LLM을 평가했습니다. 연구 결과, 개인화는 독자의 이해도와 품질 인식을 높이지만, 동시에 사용자의 편향 강화나 환각(hallucinations) 도입과 같은 안전성 위험을 증가시키는 트레이드오프가 있음을 보여줍니다.
목표 지향 대안에서의 놀라기 최소화 (Surprisal Minimization) 가 대화 생산 선택을 예측한다
본 논문은 정보 이론적 비용 개념을 활용하여 문장 생성을 확률적 비용 민감 선택으로 모델링하고, 대화 생산 선택에 대한 예측 메커니즘을 제시한다. 특히, 고정된 의도(목표 지향)를 가진 대안과 맥락적 가능성에만 기반한 대안(목표 무관)을 구분하여 분석했다. 그 결과, 열린 대화에서 놀라기 최소화(surprisal minimization)가 가장 강력하게 생산 선택을 예측하는 설명임을 입증했으며, 이는 자연어 언어 생산 과정에 대한 새로운 원리적 프레임워크를 제공한다.
ControBench: 소셜 네트워크의 논쟁적 담론 분석을 위한 상호작용 감지 벤치마크
ControBench는 소셜 네트워크에서 발생하는 복잡한 논쟁적 담론을 분석하기 위해 설계된 새로운 벤치마크입니다. 이 데이터셋은 Reddit의 실제 토론 데이터를 기반으로 하며, 풍부한 텍스트 의미론과 상호작용 그래프 구조를 결합하여 기존 데이터셋의 한계를 극복했습니다. ControBench는 사용자-댓글-사용자 간의 지역적 논쟁 맥락을 보존하는 방식으로 설계되었으며, 이를 통해 GNN 및 LLM 같은 모델들이 실제 세계의 복잡한 온라인 토론 환경에서 어떻게 작동하는지 평가할 수 있게 합니다.
AGoQ: 대규모 언어 모델 (LLM) 의 메모리 효율적 분산 훈련을 위한 활성화 및 경사 양자화
AGoQ는 대규모 언어 모델(LLM)의 메모리 효율적인 분산 훈련을 위해 활성화와 경사 양자화 기술을 결합한 새로운 프레임워크입니다. 이 방법은 레이어별로 최적의 비트 폭을 할당하여 활성화를 거의 4-bit 수준으로 저장하고, 통신 시간을 줄이는 8-bit 경사 및 All-Reduce를 사용합니다. 실험 결과, AGoQ는 기존 최고 수준의 분산 훈련 시스템 대비 메모리를 최대 52% 절감하고 훈련 속도를 크게 향상시키면서도 모델 정확도를 유지할 수 있음을 입증했습니다.
구조가 해방한다: 제약된 의미 해석이 더 혁신적인 연구 산출물을 어떻게 생성하는가
본 논문은 아이디어 발전 과정을 단순한 서론 단계가 아닌 핵심 과정으로 간주하며, 'SCISENSE'라는 의미 해석 기반 프레임워크를 제안합니다. 이 프레임워크는 8가지 인지 단계를 구조화된 시퀀스로 운영화하고, 대규모 연구 경로 데이터셋(SCISENSE-Traj)을 구축했습니다. 특히, LLM이 기존 논문에서 알려진 아이디어 경로(Target 모드)를 재구성하는 것이 새로운 방향성을 제안하는 것(Infer 모드)보다 더 높은 품질과 혁신적인 연구 산출물을 생성함을 보여주었습니다.
Decodability 를 넘어: 해석 가능한 특징으로 언어 모델 표현 재구성
기존의 디코딩 프로브(Decoding Probe) 방식이 가진 한계점, 즉 특징 기여도 비교 불가 및 상관관계 문제 등을 해결하기 위해 '인코딩 프로브(Encoding Probe)' 접근 방식을 제안합니다. 이 방법은 해석 가능한 다양한 특징들(음향학, 발음학, 문법 등)을 사용하여 언어 모델의 내부 표현을 재구성하는 것을 목표로 합니다. 실험 결과는 화자 관련 효과가 학습 목표에 따라 크게 달라지며, 문법적 및 어휘적 특징이 독립적으로 기여함을 입증하여, 이 방법이 모델 해석에 새로운 관점을 제공함을 보여줍니다.
기계 번역 하에서 텍스트 유사성의 불변성: EU eTranslation 서비스 기반 정치 선언문 코퍼스 증거
본 연구는 EU eTranslation 서비스를 활용하여 28개 언어로 번역된 대규모 정치 선언문 코퍼스를 분석함으로써, 기계 번역 환경에서 단락 임베딩 간의 의미적 유사성이 얼마나 안정적인지(불변한지)를 조사합니다. 기존 방식처럼 직접적인 의미 변화를 측정하는 대신, 여러 임베딩 모델 간의 쌍대 유사성 관계가 유지되는 '불변성'을 핵심 지표로 사용합니다. 이 프레임워크는 언어별 비불우적 검정을 통해 번역 과정이 임베딩 선택에 미치는 영향을 평가하며, 특정 언어에서 높은 번역 불변성을 보이는지 여부를 식별하는 데 유용합니다.
EGRefine: 텍스트-SQL 스키마 정교화를 위한 실행 기반 최적화 프레임워크
EGRefine은 텍스트-SQL 모델의 정확도를 저하시키는 모호하거나 약축된 스키마 문제를 해결하기 위해 개발된 실행 기반 최적화 프레임워크입니다. 이 방법론은 데이터베이스 뷰를 활용하여 쿼리 동등성을 유지하면서, 다운스트림 텍스트-SQL 실행 정확도를 최대화하는 컬럼 리네이밍 함수를 찾는 것을 목표로 합니다. EGRefine은 스크리닝, 컨텍스트 기반 후보 생성, 실행 기반 검증의 4단계 파이프라인을 통해 구조적으로 안전하고 신뢰할 수 있는 정교화된 스키마를 제공합니다.
SC-Taxo: 의미 일관성 제약 하에 대형 언어 모델을 활용한 계층적 분류 체계 생성
과학 지식의 폭발적인 증가로 인해 효율적인 분류 체계 구축이 중요해졌으나, 기존 방법들은 계층적 의미 일관성 부족 문제를 겪었습니다. 본 논문은 대형 언어 모델(LLMs)을 활용하여 'SC-Taxo' 프레임워크를 제안합니다. SC-Taxo는 하향식 추상화와 상향식 의미 제약을 결합하고 동료 수준의 의미 의존성을 포착함으로써, 구조적이고 의미적으로 일관된 계층적 분류 체계를 생성하는 것을 목표로 합니다.
SemEval-2026 Task 8 제출: H-RAG (계층적 부모-자식 검색을 통한 다중 턱 RAG 대화)
본 기술 기사는 SemEval-2026 Task 8(MTRAGEval)에 제출된 H-RAG라는 새로운 계층적 부모-자식 RAG 시스템을 소개한다. 이 시스템은 독립적인 검색 품질 평가(Task A)와 다중 턴 대화 환경에서의 엔드투엔드 RAG 성능 평가(Task C)를 모두 해결하는 것을 목표로 한다. H-RAG는 세밀한 자식 청크 기반의 검색과 부모 수준 맥락 재구성을 분리하여, 하이브리드 검색 및 지시 튜닝된 언어 모델을 통해 일관되고 근거가 충실한 답변 생성을 구현한다.
벤치마크를 넘어: LLM 을 위한 수학 평가 플랫폼 'MathArena'
기존의 정적인 벤치마크로는 대형 언어 모델(LLMs)의 진화하는 수학적 능력을 측정하기 어렵습니다. 이에 따라, 본 글은 기존 MathArena를 확장하여 증명 기반 경쟁, arXiv 문제, Lean 형식 증명 등 광범위한 작업을 포괄하는 지속적으로 유지되는 평가 플랫폼을 소개합니다. 이 플랫폼은 LLM이 매우 어려운 수학적 문제를 해결할 수 있는 능력이 빠르게 향상되고 있음을 보여주며, 모델 비교 및 진행 상황 추적에 중요한 기준점을 제시합니다.
ML-Bench&Guard: 정책 기반 다국어 안전 벤치마크 및 대형 언어 모델용 방벽
본 기술 기사는 LLM의 글로벌 배포에 따른 안전성 확보 문제를 다루며, 14개 언어를 포괄하는 정책 기반 다국어 안전 벤치마크인 ML-Bench를 소개합니다. ML-Bench는 지역 규정 및 법적 텍스트에서 파생된 위험 범주와 세부 규칙을 사용하여 문화적/법적으로 정렬된 평가가 가능하게 합니다. 또한, 이를 기반으로 다국어 안전 판단과 정책 조건부 준수 평가를 지원하는 Diffusion LLM(dLLM) 기반 방벽 모델인 ML-Guard를 개발했으며, 기존 벤치마크 대비 우수한 성능을 입증했습니다.
기억을 어떻게 그리고 무엇을 기억해야 하는지 학습하기: 진화하는 기억에 영감을 받은 인지적 두 단계 최적화
본 논문은 LLM 에이전트가 장기 상호작용 동안 변화하는 사용자 선호도를 효과적으로 추적하기 위한 새로운 인지적 기억 최적화 프레임워크인 MemCoE를 제안합니다. 기존의 정적인 기억 시스템과 불안정한 RL 기반 접근 방식의 한계를 극복하고자 합니다. MemCoE는 '기억 가이드라인 유도' 단계에서 전역 지침을 학습하고, 이를 바탕으로 '가이드라인 정렬 기억 정책 최적화' 단계를 통해 일관성 있게 진화하는 기억 업데이트 정책을 학습합니다.
FinSafetyBench: 실제 금융 시나리오에서 LLM 안전성 평가
본 기사는 금융 시나리오에서 대형 언어 모델(LLMs)의 안전성 평가를 위한 새로운 레드팀 벤치마크인 FinSafetyBench를 소개합니다. 이 벤치마크는 실제 금융 범죄 사례와 윤리 기준을 기반으로 하며, LLM이 준수 위반 요청을 얼마나 잘 거부하는지 테스트합니다. 실험 결과, 적대적 프롬프트가 기존의 안전 보호 장치를 우회할 수 있는 취약점이 발견되었으며, 특히 중국어 컨텍스트에서 더 높은 취약성이 관찰되어 정교한 방어 전략의 필요성을 강조합니다.
트랜스포머의 로컬 어텐션 표현력 분석
본 논문은 트랜스포머의 핵심 메커니즘인 어텐션에 초점을 맞추어, 로컬 어텐션이 단순한 효율성 개선을 넘어 모델의 표현력(recognizer expressivity)을 형식적으로 확장함을 증명합니다. 전역 어텐션을 사용하는 트랜스포머는 특정 선형 시간 논리 부분집합에 해당하며, 여기에 로컬 어텐션을 추가하면 인식 가능한 규칙 언어 클래스가 엄격하게 확장됩니다. 연구진은 이 두 메커니즘이 상호 보완적이며, 하이브리드 전역-로컬 구조가 가장 풍부한 표현력을 제공함을 보여줍니다.
LASE: 인도어 크로스 스크립트 정체성 보존을 위한 언어 적대적 스피커 인코딩
본 논문은 다국어 보이스 클로닝 및 TTS 시스템에서 발생하는 크로스 스크립트(cross-script) 정체성 손실 문제를 해결하기 위해 LASE(Language-Adversarial Speaker Encoder)를 제안합니다. 기존의 오프더쉐프 인코더들은 발음된 문자열이 바뀌면 동일한 화자의 목소리 특징을 제대로 유지하지 못하는 문제가 있었습니다. LASE는 음성 정체성을 보존하면서 언어 정보를 제거하는 두 가지 손실 함수(supervised contrastive loss 및 gradient-reversal cross-entropy)를 사용하여 훈련되었으며, 이로 인해 인도어와 같은 복잡한 크로스 스크립트 환경에서 현저히 개선된 성능을 보여줍니다.
RunAgent: 제약 조건에 기반한 자연어 계획의 해석 및 단계별 실행
RunAgent는 자연어 계획을 해석하고 제약 조건과 규칙 기반의 단계별 실행을 강제하는 다중 에이전트 계획 실행 플랫폼입니다. 이 시스템은 명시적 제어 구조를 갖춘 전용 에이전트 언어를 사용하여, 자연어의 유연성과 프로그래밍의 결정론적 특성을 결합합니다. RunAgent는 단순한 검증을 넘어 작업 설명 기반으로 제약 조건을 자동으로 유도하고 적용하며, 오류 수정 메커니즘과 컨텍스트 필터링 기능을 통해 LLM 기반 워크플로우의 신뢰성과 정확도를 크게 향상시킵니다.
다언어 사회에서의 언어 이데올로기: Luxembourgish 뉴스 댓글을 위한 LLM 기반 분석
본 논문은 루크셈부르크의 다언어 사회에서 나타나는 '언어 이데올로기'를 탐지하는 데 대규모 언어 모델(LLM)을 활용하는 방법을 제시한다. 연구진은 Luxembourgish 사용자 댓글 데이터셋을 수동으로 주석화하고, 다양한 프롬프트 조건 하에서 LLM의 성능을 평가하여 인간의 주석 능력을 모방할 수 있는지 검증했다. 또한, 소규모 언어인 Luxembourgish 데이터를 고자원 언어로 기계 번역하는 것이 이데올로기 탐지 작업에 미치는 영향도 분석하였다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.