본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 371필터 해제

arXiv논문

다국어 LLM 데이터 필터링: 언어 간 품질 전이 전략

대규모 언어 모델(LLMs)의 발전과 함께 데이터 큐레이션은 단순히 양을 늘리는 것에서 질적 필터링으로 초점이 이동하고 있습니다. 하지만 많은 저자원 언어는 자체적으로 고품질 데이터를 확보하기 어렵습니다. 본 연구는 임베딩 공간 내 품질 마커가 언어 간 일관성을 가질 수 있다는 가정 하에, 고자원 언어가 저자원 언어의 데이터 필터링을 지원할 수 있는 방법을 탐구합니다. 다양한 필터링 전략(예: 교차 언어 전이, Q3 샘플링)을 평가한 결과, 대규모 다국어 풀링 방식이 단일 언어 기준보다 높은 성능을 보였습니다. 특히 고자원 언어의

llmdata curationmultilingual
4월 23일3
arXiv중요논문

LayerTracer: 범용 LLM 아키텍처 분석 프레임워크

본 논문은 기존 트랜스포머(Transformer), Mamba 등 다양한 구조를 가진 대규모 언어 모델(LLM)의 아키텍처적 한계를 극복하기 위해 'LayerTracer'라는 범용 분석 프레임워크를 제안합니다. LayerTracer는 모델의 은닉 상태(hidden states)를 레이어별로 추출하고 이를 어휘 확률 분포에 매핑하여 두 가지 핵심 요소를 동시에 분석합니다. 첫째, **태스크 입자(task particle)**는 목표 토큰 확률이 급격히 상승하는 최초의 레이어를 찾아 모델의 작업 시작점을 파악합니다. 둘째, **취약층(

llmtransformerarchitecture
4월 23일2
arXiv중요논문

Vision Mamba의 성능 향상을 위한 고급 이산화 전략 비교

본 논문은 State Space Model (SSM) 기반 비전 모델인 Vision Mamba가 사용하는 Zero-Order Hold (ZOH) 방식의 한계를 지적하며, 이를 개선할 고급 이산화 전략들을 제시합니다. ZOH는 샘플링 간격 동안 입력 신호가 일정하다고 가정하여 동적인 시각 환경에서 시간적 충실도를 떨어뜨립니다. 연구진은 Vision Mamba 프레임워크 내에서 총 6가지 방식(ZOH, FOH, BIL, POL, HOH, RK4)을 비교 평가했습니다. 그 결과, Polynomial Interpolation (POL)과 

vision mambassmdiscretization
4월 23일1
arXiv논문

pAI/MSc: 인간 협업을 위한 학술 연구 워크플로우 시스템

pAI/MSc는 학술 연구 과정을 지원하는 오픈 소스, 모듈형 다중 에이전트 시스템입니다. 이 시스템은 과학적 아이디어를 완전히 자동화하거나 자율적으로 수행하려는 것이 목적이 아닙니다. 대신, 특정 가설을 문헌 기반의 수학적 증명과 실험적 근거를 갖춘 출판 가능한 초안으로 만드는 데 필요한 인간의 개입(steering) 횟수를 극적으로 줄이는 것을 목표로 합니다. 특히 머신러닝 이론 및 관련 정량 분야에 중점을 두고 설계되었습니다.

multi-agentmltheoryacademicresearch
4월 23일2
arXiv논문

원격 감지 변화 이해를 위한 새로운 벤치마크 RSRCC 소개

기존의 원격 감지(Remote Sensing) 기반 변화 탐지 기술은 단순히 '어디서' 변화가 발생했는지 식별하는 데 그치고, '무엇이 어떻게' 변화했는지 자연어로 설명하는 능력은 부족했습니다. 본 논문에서는 이러한 한계를 극복하기 위해 RSRCC (Remote Sensing Regional Change Comprehension Benchmark)라는 새로운 벤치마크를 제안합니다. RSRCC는 총 126k 개의 질문으로 구성되어 있으며, 특히 특정 의미적 변화에 대한 추론(fine-grained reasoning)을 요구하는 국소화

remote sensingchange detectionqa benchmark
4월 23일1
arXiv논문

생태학적 목표 중심의 개체 식별 자동화 방법론

개체를 시간 경과에 따라 자동으로 식별하는 것은 생물다양성 및 보존 연구의 핵심 과제입니다. 최근 이미지나 음향 데이터 기반의 자동 식별 기술이 발전하고 있지만, 이 기술들이 실제 생태학적 현장에 적용되는 데 어려움을 겪고 있습니다. 본 논문은 문제의 근본적인 원인이 알고리즘 성능 자체의 문제가 아니라, 방법론 개발 및 평가 방식과 실제 생태학 데이터 수집/활용 과정 간의 불일치에 있다고 지적합니다. 따라서 자동 식별 기술의 발전은 단순히 알고리즘 개선을 넘어, '어떤 질문'을 던지고 '어떤 종류의 오류가 중요한지' 등 생태학적 맥

ecologyconservationautomated identification
4월 23일1
arXiv중요논문

CHORUS: 현실적인 온라인 토론 데이터 생성을 위한 에이전트 프레임워크

온라인 담론의 복잡한 역학 관계를 이해하려면 대규모 토론 데이터가 필수적이지만, 접근성 제한 및 윤리 문제로 인해 이러한 데이터는 부족합니다. 본 논문은 LLM 기반 액터와 행동 일관성이 유지되는 페르소나를 활용하여 현실적인 토론을 생성하는 에이전트 프레임워크인 CHORUS를 제안합니다. 각 액터는 메모리를 갖춘 자율 에이전트에 의해 관리되며, 참여 타이밍은 실제 사용자의 다양한 참여 패턴을 모사한 포아송 과정(Poisson process) 기반 시간 모델로 제어됩니다. 또한 외부 리소스 접근을 위한 구조화된 도구 사용 기능을 지원

llmagenticdeliberation data
4월 23일3
arXiv중요논문

LLM이 사기 탐지에서 인간을 능가하는 이유

최근 연구에 따르면, 대규모 언어 모델(LLM)은 투자자들의 심리적 압박이나 편향된 기대에도 불구하고 사기성 기회에 대한 경고를 일관되게 제공하는 것으로 나타났습니다. 본 실험에서는 7개의 주요 LLM과 12가지 시나리오를 사용하여 AI의 조언을 검증했으며, 그 결과 투자자가 이미 특정 기회를 믿도록 유도되는 상황(motivated investor framing)에서도 LLM은 사기 경고를 억제하지 않았습니다. 반면, 인간 자문가들은 기본적으로 사기 투자를 지지하는 비율이 높았으며, 심리적 압박 하에서는 AI보다 훨씬 더 자주 경고

llmfraud detectionai ethics
4월 23일2
arXiv중요논문

GRPO 개선: 검증 가능한 과정 감독으로 추론 능력 향상

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 강화하기 위해 '검증 가능한 보상 (Verifiable Rewards)' 패러다임을 활용합니다. 기존 방법인 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 비평가 모델을 사용하지만, 중간 단계에 대한 신뢰할 수 없는 기여도 할당 문제로 인해 효과적인 추론 전략 식별과 과도한 사고를 유발하는 한계가 있었습니다. 이를 해결하기 위해 연구진은 '검증 가능한 과정 감독 (Verifiable Process Supervision, VPS)

llmreinforcement learningpolicy optimization
4월 23일2
arXiv중요논문

IoV 보안 강화를 위한 경량 AI 모델 DAIRE 제안

본 논문은 자율주행 시대의 핵심 인프라인 차량 네트워크(IoV)가 직면한 심각한 보안 위협을 다룹니다. 특히, CAN 기반 통신이 사이버 공격에 취약하다는 점에 주목하여 'DAIRE'라는 경량 머신러닝 프레임워크를 제안합니다. DAIRE는 가벼운 인공 신경망(ANN)을 기반으로 하며, 서비스 거부(Denial-of-Service), 퍼지(Fuzzy), 스푸핑(Spoofing) 등 다양한 IoV 공격 유형을 실시간으로 탐지하고 분류할 수 있습니다. 실험 결과에 따르면 DAIRE는 CICIoV2024 및 Car-Hacking 데이터셋을

iovcan_buscybersecurity
4월 23일2
arXiv논문

실제 개발 환경 기반 코딩 에이전트 데이터셋 'SWE-chat' 공개

본 논문은 실제 오픈 소스 개발자들의 작업 환경에서 수집한 대규모 코딩 에이전트 상호작용 데이터셋 'SWE-chat'을 소개합니다. 현재 6,000개의 세션과 35만 건의 도구 호출을 포함하는 이 데이터셋은 살아있는(living) 형태를 지니고 있어 지속적인 업데이트가 가능합니다. 분석 결과, 코딩 패턴이 양극화되어 있으며, 에이전트가 생성한 코드 중 실제 커밋으로 반영되는 비율은 44%에 불과하고, 심지어 인간이 작성한 코드보다 보안 취약점을 더 많이 유발하는 것으로 나타났습니다. 또한 사용자들은 전체 상호작용의 44%에서 에이전

coding-agentllmdataset
4월 23일3
arXiv중요논문

작업 기억 제약이 트랜스포머의 데이터 부족 문제를 해결하는 방법

본 연구는 인간의 작업 기억(working memory) 개념을 트랜스포머 아키텍처에 통합하여, 데이터가 부족한 환경에서도 모델 학습 성능을 개선하는 방법을 제시합니다. 고정 폭 윈도우 기반 및 시간 감쇠 기반 등 인지적으로 영감을 받은 어텐션 변형 기법들을 GPT-2와 같은 모델에 적용했습니다. 그 결과, 특히 데이터셋이 적은 상황에서 문법적 정확도가 크게 향상되었으며, 인간의 독해 속도 측정 지표와의 일치성도 높아지는 경향을 보였습니다. 이는 작업 기억 제약이 모델에게 유용한 귀납적 편향(inductive bias)으로 작용하여

transformerworking memorynlp
4월 23일2
arXiv중요논문

임상 환경에서 AI의 역할: 공감 능력과 가독성 분석

본 연구는 의료 분야에 적용되는 대규모 언어 모델(LLM)을 다차원적으로 평가했습니다. 일반 및 전문화된 LLM들을 구조화된 의학 설명과 실제 환자-의사 상호작용에 걸쳐 분석하여 의미적 충실도, 가독성, 정서적 공명도를 측정했습니다. 초기 모델들은 의사에 비해 부정적인 감정 표현을 과장하는 경향이 있었고, GPT-5나 Claude 같은 대형 아키텍처는 지나치게 높은 언어 복잡성을 보였습니다. '공감 중심 프롬프팅'은 극단적인 부정성을 줄이고 가독성을 개선했지만, 의미적 충실도를 높이는 데는 한계가 있었습니다. 가장 효과적인 방법은

llmshealthcare-ainatural-language-processing
4월 23일2
arXiv중요논문

LLM 기반 지능 시스템을 위한 온톨로지 구축 방법

본 논문은 대규모 언어 모델(LLMs)의 한계를 극복하기 위해 외부 온톨로지 메모리 레이어를 결합한 하이브리드 지능 시스템 아키텍처를 제안합니다. 기존 LLM이 가진 파라미터적 지식이나 벡터 검색(RAG)에만 의존하는 대신, RDF/OWL 기반의 구조화된 지식 그래프를 구축하고 유지하여 영속적이고 검증 가능한 추론을 가능하게 합니다. 핵심은 문서, API, 대화 로그 등 이기종 데이터 소스로부터 온톨로지를 자동으로 구성하는 파이프라인입니다. 시스템은 개체 인식, 관계 추출 등을 수행한 후 SHACL 및 OWL 제약 조건을 이용해 검

llmontologyknowledge graph
4월 23일2
arXiv논문

AI 정렬 문제: 기술적 과제 아닌 거버넌스 구조의 문제

본 논문은 AI의 가치 정렬(value alignment) 문제를 단순히 기술적이거나 규범적인 문제가 아닌, '거버넌스' 차원의 구조적 문제로 재해석합니다. 전통적으로 AI 정렬을 모델 자체의 단일한 기술적 속성으로 간주했지만, 저자는 이 문제가 목표(objectives), 정보(information), 그리고 이해관계자(principals)라는 세 가지 상호작용하는 축을 따라 발생한다고 주장합니다. 따라서 정렬은 단순히 엔지니어링만으로는 해결될 수 없으며, 누가 어떤 가치를 중요하게 여기는지 결정하고 관리하는 제도적 과정이 필수적

ai alignmentgovernancevalue alignment
4월 23일1
arXiv중요논문

다중 이미지 추론 능력을 측정하는 새로운 벤치마크, OMIBench 소개

최근 대규모 비전-언어 모델(LVLMs)이 논문 수준의 추론 능력을 보여주었지만, 기존 벤치마크들은 주로 단일 이미지 분석에 초점을 맞추고 있어 여러 이미지를 아우르는 맥락적 정보 활용에는 한계가 있었습니다. 이에 연구진은 OMIBench를 개발했습니다. 이 벤치마크는 생물학, 화학, 수학, 물리 올림피아드 문제에서 출제된 난이도 높은 다중 이미지 추론 문제를 포함하며, 정답과 논리 과정을 평가하는 상세한 프로토콜을 제공합니다. 실험 결과, 현존 최고 성능의 LVLMs조차 OMIBench에서 약 50% 수준에 머무르는 등 모델들의

lvlmmulti-modalreasoning
4월 23일2
arXiv중요논문

LLM의 문법 해석 능력 진단: RoboGrid 프레임워크 분석

대규모 언어 모델(LLM)이 에이전트 시스템에 통합되면서, 동적으로 정의된 기계 해석 가능한 인터페이스를 준수하는 것이 중요해졌습니다. 본 연구는 LLM을 인-컨텍스트 인터프리터로 평가하며, 새로운 문맥 자유 문법(CFG)을 주어졌을 때 구문론적 유효성, 행동적 기능성, 의미론적 충실성을 갖춘 출력을 생성할 수 있는지 검증합니다. 'RoboGrid'라는 프레임워크를 통해 재귀 깊이, 표현 복잡도 등을 통제된 스트레스 테스트로 분리하여 평가한 결과, LLM은 표면적인 구문(surface syntax)은 유지하지만 구조적 의미론(sem

llmnlgcfg
4월 23일2
arXiv중요논문

LLM이 숫자를 학습하는 방식: 수리적 표현의 공통 진화

본 논문은 다양한 언어 모델(Language Model)들이 자연어 텍스트를 통해 숫자를 주기적인 특징(periodic features)으로 학습한다는 것을 보여줍니다. 특히, Transformer, RNN, LSTM 등 여러 아키텍처가 푸리에 영역(Fourier domain)에서 특정 주기를 가진 스파이크 형태의 특징을 습득하는 공통점을 발견했습니다. 더 나아가, 모델이 단순한 주기성을 넘어 실제로 $ ext{mod-}T$로 기하학적으로 분리 가능한(geometrically separable) 특징을 학습하기 위해서는 데이터,

llmfeature representationperiodic features
4월 23일2
arXiv중요논문

노이즈 라벨 환경에서 강력한 연합 학습 (FL) 방법론, FedSIR 제안

본 논문은 분산된 클라이언트의 데이터에 노이즈 라벨(noisy labels)이 존재하는 상황에서 발생하는 연합 학습(Federated Learning, FL) 성능 저하 문제를 해결하기 위한 새로운 프레임워크인 FedSIR을 제안합니다. 기존 방식들이 손실 함수 설계나 훈련 중 동역학 활용에 의존했던 것과 달리, FedSIR은 클라이언트의 특징 표현(feature representations)이 가진 스펙트럼 구조를 분석하는 데 초점을 맞춥니다. 이 방법론은 세 가지 핵심 구성 요소로 이루어져 있습니다. 첫째, 클래스별 특징 부분공

federated learningnoisy labelsspectral analysis
4월 23일2
arXiv중요논문

AI 시스템 보안 평가를 위한 프레임워크 AVISE 소개

인공지능(AI) 시스템이 핵심 영역에 광범위하게 배치되면서, 그 취약점은 심각한 위험을 초래하고 있습니다. 하지만 현재까지 체계적인 AI 보안 평가 방법론은 부족합니다. 본 논문에서는 이러한 문제를 해결하기 위해 모듈식 오픈 소스 프레임워크인 AVISE (AI Vulnerability Identification and Security Evaluation)를 제안합니다. AVISE는 AI 시스템과 모델의 취약점을 식별하고 보안을 평가하는 데 사용됩니다. 연구진들은 이 프레임워크를 활용하여 이론 기반의 다중 턴 공격(Red Queen)

ai securityllm vulnerabilityavise
4월 23일2

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.