Insights

최근연구는 대규모 언어 모델(LLM)이 투자자들의 심리적 압박 속에서도 사기성 기회를 효과적으로 탐지하는

최근 연구에 따르면, 대규모 언어 모델(LLM)은 투자자들의 심리적 압박이나 편향된 기대에도 불구하고 사기성 기회에 대한 경고를 일관되게 제공하는 것으로 나타났습니다. 본 실험에서는 7개의 주요 LLM과 12가지 시나리오를 사용하여 AI의 조언을 검증했으며, 그 결과 투자자가 이미 특정 기회를 믿도록 유도되는 상황(motivated investor framing)에서도 LLM은 사기 경고를 억제하지 않았습니다. 반면, 인간 자문가들은 기본적으로 사기 투자를 지지하는 비율이 높았으며, 심리적 압박 하에서는 AI보다 훨씬 더 자주 경고

최근LLM의 추론 능력 강화 연구는 '검증 가능한 보상 (Verifiable Rewards)'을 활용하여

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 강화하기 위해 '검증 가능한 보상 (Verifiable Rewards)' 패러다임을 활용합니다. 기존 방법인 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 비평가 모델을 사용하지만, 중간 단계에 대한 신뢰할 수 없는 기여도 할당 문제로 인해 효과적인 추론 전략 식별과 과도한 사고를 유발하는 한계가 있었습니다. 이를 해결하기 위해 연구진은 '검증 가능한 과정 감독 (Verifiable Process Supervision, VPS)

IoV 환경을 위한 실시간 CAN 공격 탐지 모델 DAIRE

본 논문은 자율주행 시대의 핵심 인프라인 차량 네트워크(IoV)가 직면한 심각한 보안 위협을 다룹니다. 특히, CAN 기반 통신이 사이버 공격에 취약하다는 점에 주목하여 'DAIRE'라는 경량 머신러닝 프레임워크를 제안합니다. DAIRE는 가벼운 인공 신경망(ANN)을 기반으로 하며, 서비스 거부(Denial-of-Service), 퍼지(Fuzzy), 스푸핑(Spoofing) 등 다양한 IoV 공격 유형을 실시간으로 탐지하고 분류할 수 있습니다. 실험 결과에 따르면 DAIRE는 CICIoV2024 및 Car-Hacking 데이터셋을

최근AI 코딩 에이전트가 대규모로 도입되고 있지만, 실제 사용 환경에서의 활용도와 유용성에 대한 실증적

본 논문은 실제 오픈 소스 개발자들의 작업 환경에서 수집한 대규모 코딩 에이전트 상호작용 데이터셋 'SWE-chat'을 소개합니다. 현재 6,000개의 세션과 35만 건의 도구 호출을 포함하는 이 데이터셋은 살아있는(living) 형태를 지니고 있어 지속적인 업데이트가 가능합니다. 분석 결과, 코딩 패턴이 양극화되어 있으며, 에이전트가 생성한 코드 중 실제 커밋으로 반영되는 비율은 44%에 불과하고, 심지어 인간이 작성한 코드보다 보안 취약점을 더 많이 유발하는 것으로 나타났습니다. 또한 사용자들은 전체 상호작용의 44%에서 에이전

4월 23일5

본연구는 트랜스포머 아키텍처에 인간의 작업 기억(working memory) 개념을 도입하는 방안을

본 연구는 인간의 작업 기억(working memory) 개념을 트랜스포머 아키텍처에 통합하여, 데이터가 부족한 환경에서도 모델 학습 성능을 개선하는 방법을 제시합니다. 고정 폭 윈도우 기반 및 시간 감쇠 기반 등 인지적으로 영감을 받은 어텐션 변형 기법들을 GPT-2와 같은 모델에 적용했습니다. 그 결과, 특히 데이터셋이 적은 상황에서 문법적 정확도가 크게 향상되었으며, 인간의 독해 속도 측정 지표와의 일치성도 높아지는 경향을 보였습니다. 이는 작업 기억 제약이 모델에게 유용한 귀납적 편향(inductive bias)으로 작용하여

최근의료 분야에 LLM 도입이 늘고 있지만, 임상 표준과의 커뮤니케이션 정렬 수준은 아직 충분히 검증되지

본 연구는 의료 분야에 적용되는 대규모 언어 모델(LLM)을 다차원적으로 평가했습니다. 일반 및 전문화된 LLM들을 구조화된 의학 설명과 실제 환자-의사 상호작용에 걸쳐 분석하여 의미적 충실도, 가독성, 정서적 공명도를 측정했습니다. 초기 모델들은 의사에 비해 부정적인 감정 표현을 과장하는 경향이 있었고, GPT-5나 Claude 같은 대형 아키텍처는 지나치게 높은 언어 복잡성을 보였습니다. '공감 중심 프롬프팅'은 극단적인 부정성을 줄이고 가독성을 개선했지만, 의미적 충실도를 높이는 데는 한계가 있었습니다. 가장 효과적인 방법은

LLM의 한계를 넘어서: 온톨로지 기반 하이브리드 아키텍처

본 논문은 대규모 언어 모델(LLMs)의 한계를 극복하기 위해 외부 온톨로지 메모리 레이어를 결합한 하이브리드 지능 시스템 아키텍처를 제안합니다. 기존 LLM이 가진 파라미터적 지식이나 벡터 검색(RAG)에만 의존하는 대신, RDF/OWL 기반의 구조화된 지식 그래프를 구축하고 유지하여 영속적이고 검증 가능한 추론을 가능하게 합니다. 핵심은 문서, API, 대화 로그 등 이기종 데이터 소스로부터 온톨로지를 자동으로 구성하는 파이프라인입니다. 시스템은 개체 인식, 관계 추출 등을 수행한 후 SHACL 및 OWL 제약 조건을 이용해 검

AI의가치 정렬(value alignment) 문제는 종종 순수하게 기술적이거나 규범적인 문제로 다루어져

본 논문은 AI의 가치 정렬(value alignment) 문제를 단순히 기술적이거나 규범적인 문제가 아닌, '거버넌스' 차원의 구조적 문제로 재해석합니다. 전통적으로 AI 정렬을 모델 자체의 단일한 기술적 속성으로 간주했지만, 저자는 이 문제가 목표(objectives), 정보(information), 그리고 이해관계자(principals)라는 세 가지 상호작용하는 축을 따라 발생한다고 주장합니다. 따라서 정렬은 단순히 엔지니어링만으로는 해결될 수 없으며, 누가 어떤 가치를 중요하게 여기는지 결정하고 관리하는 제도적 과정이 필수적

대규모 비전-언어 모델(LVLMs)은 논문 수준의 추론 능력을 크게 발전시켰습니다

최근 대규모 비전-언어 모델(LVLMs)이 논문 수준의 추론 능력을 보여주었지만, 기존 벤치마크들은 주로 단일 이미지 분석에 초점을 맞추고 있어 여러 이미지를 아우르는 맥락적 정보 활용에는 한계가 있었습니다. 이에 연구진은 OMIBench를 개발했습니다. 이 벤치마크는 생물학, 화학, 수학, 물리 올림피아드 문제에서 출제된 난이도 높은 다중 이미지 추론 문제를 포함하며, 정답과 논리 과정을 평가하는 상세한 프로토콜을 제공합니다. 실험 결과, 현존 최고 성능의 LVLMs조차 OMIBench에서 약 50% 수준에 머무르는 등 모델들의

LLM이에이전트 시스템의 핵심 요소로 자리 잡으면서, 동적으로 정의된 기계 해석 가능한 인터페이스를

대규모 언어 모델(LLM)이 에이전트 시스템에 통합되면서, 동적으로 정의된 기계 해석 가능한 인터페이스를 준수하는 것이 중요해졌습니다. 본 연구는 LLM을 인-컨텍스트 인터프리터로 평가하며, 새로운 문맥 자유 문법(CFG)을 주어졌을 때 구문론적 유효성, 행동적 기능성, 의미론적 충실성을 갖춘 출력을 생성할 수 있는지 검증합니다. 'RoboGrid'라는 프레임워크를 통해 재귀 깊이, 표현 복잡도 등을 통제된 스트레스 테스트로 분리하여 평가한 결과, LLM은 표면적인 구문(surface syntax)은 유지하지만 구조적 의미론(sem

최근 언어 모델(LLM) 연구에서 흥미로운 발견이 있었습니다

본 논문은 다양한 언어 모델(Language Model)들이 자연어 텍스트를 통해 숫자를 주기적인 특징(periodic features)으로 학습한다는 것을 보여줍니다. 특히, Transformer, RNN, LSTM 등 여러 아키텍처가 푸리에 영역(Fourier domain)에서 특정 주기를 가진 스파이크 형태의 특징을 습득하는 공통점을 발견했습니다. 더 나아가, 모델이 단순한 주기성을 넘어 실제로 $ ext{mod-}T$로 기하학적으로 분리 가능한(geometrically separable) 특징을 학습하기 위해서는 데이터,

FedSIR: 스펙트럼 구조를 활용한 연합 학습 강화

본 논문은 분산된 클라이언트의 데이터에 노이즈 라벨(noisy labels)이 존재하는 상황에서 발생하는 연합 학습(Federated Learning, FL) 성능 저하 문제를 해결하기 위한 새로운 프레임워크인 FedSIR을 제안합니다. 기존 방식들이 손실 함수 설계나 훈련 중 동역학 활용에 의존했던 것과 달리, FedSIR은 클라이언트의 특징 표현(feature representations)이 가진 스펙트럼 구조를 분석하는 데 초점을 맞춥니다. 이 방법론은 세 가지 핵심 구성 요소로 이루어져 있습니다. 첫째, 클래스별 특징 부분공

AI 시스템의 활용도가 높아지면서 보안 취약점 위험이 커지고 있습니다

인공지능(AI) 시스템이 핵심 영역에 광범위하게 배치되면서, 그 취약점은 심각한 위험을 초래하고 있습니다. 하지만 현재까지 체계적인 AI 보안 평가 방법론은 부족합니다. 본 논문에서는 이러한 문제를 해결하기 위해 모듈식 오픈 소스 프레임워크인 AVISE (AI Vulnerability Identification and Security Evaluation)를 제안합니다. AVISE는 AI 시스템과 모델의 취약점을 식별하고 보안을 평가하는 데 사용됩니다. 연구진들은 이 프레임워크를 활용하여 이론 기반의 다중 턴 공격(Red Queen)

자연스러운인간-컴퓨터 상호작용에 핵심인 음성 비언어적 단서(paralinguistic cues)는 현재

본 논문은 자연스러운 인간-컴퓨터 상호작용에 필수적이지만, 현재 대규모 오디오-언어 모델(LALMs)에서 평가가 미흡했던 음성 비언어적 단서(paralinguistic cues)를 체계적으로 평가하기 위한 벤치마크인 SpeechParaling-Bench를 제안합니다. 이 벤치마크는 기존보다 훨씬 방대한 100개 이상의 세밀한 특징을 지원하며, 영어-중국 병렬 음성 데이터 1,000개 이상으로 구성되어 있습니다. 평가 방식으로는 절대 점수 부여 대신 LALM 기반의 쌍별 비교(pairwise comparison) 파이프라인을 도입하여

최근Vision-Language Models (VLMs)의 급격한 발전은 통합적인 멀티모달 지식 발견

최근 급증하는 Vision-Language Models (VLMs)는 통합적 지식 발견의 시대를 열었다고 평가받지만, 현재 모델들이 멀티모달 데이터를 신뢰성 있게 합성한다는 전제 자체가 위험하다. 본 논문은 기존의 'Vision Encoder-Projector-LLM' 패러다임이 시각 입력에서 제대로 된 지식을 추출하지 못하고, 오히려 강력한 언어 사전 지식(language priors)에 의존해 시각적 표현 병목 현상을 우회하는 기능적 맹점(functional blindness)을 보인다고 주장한다. 이를 해결하기 위해 데이터셋의

이글은 그리스어-영어 이중 언어 환경에서 효과적인 검색 증강 생성 (RAG)을 위한 임베딩 모델

본 논문은 이중 언어(그리스어-영어) 환경에서 효과적인 검색 증강 생성 (RAG)을 위해 특화된 임베딩 모델 ORPHEAS를 제안합니다. 기존의 범용 다국어 임베딩 모델들은 너무 많은 언어에 자원을 분산시켜 그리스어 같은 형태론적으로 복잡한 언어의 특징이나 도메인별 용어를 충분히 포착하지 못하는 한계가 있습니다. ORPHEAS는 지식 그래프 기반 미세 조정 방법론을 사용하여 다양한 다중 도메인 코퍼스에서 학습되었습니다. 실험 결과, ORPHEAS는 기존 최신 범용 모델들보다 우수한 성능을 보였으며, 이는 형태론적으로 복잡한 언어에만

불확실성 속 최적의 의사결정 가이드

본 글은 높은 책임이 따르는 상황에서의 의사결정 능력 향상에 초점을 맞춥니다. 개인이 불확실성, 자원 부족, 시간 제약 등 복합적인 환경 속에서도 최상의 성과를 내도록 돕는 방법론을 제시합니다. 특히 인공지능(AI)의 역할을 강조하며, AI가 상황 인식, 의사결정 구조화, 유연성을 높여 인간의 인지 능력을 보강하는 방안을 탐구합니다. 복잡성, 불확실성, 긴급성이 결합된 시나리오에서 필요한 시스템적 및 행동적 접근법을 종합적으로 다룹니다.

폭풍해일(storm surge) 예측은 열대성 사이클론의 연안 지역 피해를 줄이는 데 매우 중요한

본 연구는 열대성 사이클론으로 인한 연안 지역의 폭풍 해일(storm surge) 예측의 어려움을 해결하기 위해 Spatio-temporal Graph Neural Network (GNN) 기반 모델인 StormNet을 제안합니다. StormNet은 기존 수치 모델의 한계를 극복하고, 그래프 컨볼루션(Graph Convolution, GCN)과 그래프 어텐션(Graph Attention, GAT), 그리고 LSTM 구성 요소를 결합하여 복잡한 공간적 및 시간적 의존성을 포착합니다. 미국 걸프 코스트의 역사적 허리케인 데이터를 학습한

딥러닝과양자 컴퓨팅의 결합으로 양자 신경망(QNN)이 큰 잠재력을 보이고 있지만, 그 복잡한 양자 역학

본 논문은 양자 컴퓨팅과 딥러닝의 결합으로 주목받는 QNN의 테스트 어려움을 해결하기 위해 'QuanForge'라는 돌연변이 검증 프레임워크를 제안합니다. QNN은 복잡한 양자 역학 및 해석 가능성 문제로 인해 기존 테스트 방식으로는 검증이 어렵습니다. QuanForge는 통계적 돌연변이 살상(statistical mutation killing) 기준을 도입하여 신뢰성을 높였으며, 게이트와 파라미터 레벨에서 9가지의 사후 학습 돌연변이 연산자(post-training mutation operators)를 포함합니다. 이를 통해 양자