Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AI 371건필터 해제
FeatEHR-LLM: 전자의무기록 (EHR) 를 위한 특징 공학에 대규모 언어 모델 활용
본 논문은 전자의무기록(EHR)과 같은 복잡한 임상 시계열 데이터에서 특징 공학의 어려움을 해결하기 위해 FeatEHR-LLM이라는 프레임워크를 제안합니다. 이 프레임워크는 대규모 언어 모델(LLMs)을 활용하여 불규칙하게 샘플링된 EHR 데이터로부터 임상적으로 유의미한 표형 특징을 생성하는 것을 목표로 합니다. LLM은 원본 환자 기록 대신 스키마와 작업 설명에만 작동하며, 도구 증강 생성을 통해 전문적인 특징 추출 코드를 생성함으로써 시간적 불균일성과 정보 희소성 문제를 효과적으로 처리합니다.
지도 학습 기반 대조적 학습의 특징 귀속 속성 연구
본 논문은 기존 분류 신경망이 사용하는 교차 엔트로피 손실 함수 대신 대조적 학습(Contrastive Learning, CL)을 활용하는 지도 기반 대조적 학습(SCL)의 특징을 탐구합니다. SCL은 데이터 포인트 간의 유사성 및 비유사성을 이용하여 임베딩 공간을 생성하며, 이는 적대적 견고성과 분포 외 탐지 측면에서 이점을 가집니다. 특히, 본 연구는 SCL로 훈련된 신경망이 기존 방식보다 특징 귀속 설명(feature attribution explanations)에서 더 높은 충실도, 복잡성, 연속성을 보여주어 모델의 투명성과 신뢰도를 높일 수 있음을 실증적으로 입증합니다.
Controllable Spoken Dialogue Generation: An LLM-Driven Grading System for K-12 Non-Native English Learners
본 논문은 대규모 언어 모델(LLMs)이 비모국어 환경의 중·고등 영어 학습자들의 교육적 요구를 충족시키지 못하는 '숙련도 불일치' 문제를 해결하기 위한 프레임워크를 제안합니다. 이 프레임워크는 중국 국가 커리큘럼(CSE)을 기반으로 하며, 학습자의 능력에 맞춰 LLM 출력을 정밀하게 조정할 수 있도록 설계되었습니다. 핵심 기술로는 대화 다양성을 유지하면서 품질을 최적화하는 다중 턴 GRPO 기반의 DDPO 알고리즘이 사용되어, 교육적 가치와 자연스러움을 동시에 향상시킵니다.
QDTraj: 가동식 물체의 로봇 조작을 위한 다양한 궤적 원천 탐색
본 논문은 로봇이 개방형 환경에서 다양한 가동식 물체를 자율적으로 조작할 수 있도록 돕는 방법을 제시합니다. 핵심은 주어진 물체의 복잡한 구조를 조작하기 위해 여러 수준의 로봇 궤적 원천(trajectory primitives)을 자동으로 생성하는 것입니다. 연구진은 Quality-Diversity 알고리즘과 희소 보상 탐색을 결합한 QDTraj라는 방법을 제안했으며, 이를 통해 기존 방법 대비 훨씬 다양하고 고성능인 궤적 집합을 성공적으로 생성하여 로봇 조작의 강건성을 높였습니다.
SOLAR-RL: 반 온라인 장기horizon 할당 강화학습
본 논문은 복잡하고 동적인 GUI 환경에서 MLLM 에이전트를 훈련하는 새로운 강화학습 프레임워크인 SOLAR-RL을 제안합니다. 기존의 오프라인 RL은 전역 궤적 의미론을 놓치고, 온라인 RL은 높은 상호작용 비용과 불안정성을 가집니다. SOLAR-RL은 이 간극을 해소하기 위해, 고비용의 온라인 상호작용에만 의존하지 않고도 정적 데이터에서 전역 궤적 통찰력을 오프라인 학습 과정에 통합하여 장기적인 실행 품질을 효과적으로 시뮬레이션합니다.
기울기 폰 노이만 엔트로피를 활용한 연동 학습에서의 데이터 무상 기여도 추정
본 논문은 연동 학습(Federated Learning) 환경에서 클라이언트의 공정한 보상 및 중요도 파악을 위해 데이터 무상 기여도를 추정하는 새로운 방법을 제안합니다. 기존 방법들이 사생활 보호나 조작 위험이 있는 서버 검증 데이터에 의존했던 것과 달리, 본 연구는 최종 레이어 업데이트 행렬의 스펙트럴 엔트로피를 활용하여 기여된 정보의 다양성을 측정합니다. 이를 통해 개발된 SpectralFed와 SpectralFuse 모델은 다양한 비-IID 환경에서 독립적인 클라이언트 정확도와 높은 상관관계를 보이며, 기존 베이스라인보다 우수한 성능을 입증했습니다.
동결된 LLM를 위한 증거 강조 학습 (Learning Evidence Highlighting for Frozen LLMs)
HiLight는 동결된 대형 언어 모델(LLM)이 긴 컨텍스트에서 중요한 결정적 증거를 놓치는 문제를 해결하기 위해 설계된 '증거 강조' 프레임워크입니다. 이 프레임워크는 경량화된 강조 액터(Emphasis Actor)를 학습시켜, 원본 컨텍스트의 핵심 구간 주변에 최소한의 강조 태그를 삽입합니다. 이후 동결된 LLM 솔버가 이 강조된 입력을 받아 다운스트림 추론을 수행하며, 이는 강화학습(RL)과 약하게 감독된 의사 결정 문제 설정을 통해 최적화됩니다.
QuantClaw: OpenClaw 에 있어 중요한 곳에서 정밀도를 확보하다
본 연구는 OpenClaw와 같은 자율 에이전트 시스템의 높은 계산 비용 및 지연 시간 문제를 해결하기 위해 QuantClaw라는 플러그 앤 플레이 정밀도 라우팅 플러그인을 제안합니다. QuantClaw는 작업 특성에 따라 필요한 만큼만 동적으로 정밀도를 할당하여, 경량 작업에는 저비용 구성을 사용하고 고부하 워크로드에는 높은 정밀도를 유지함으로써 효율성과 성능을 동시에 최적화합니다. 실험 결과에 따르면, 이 방법은 지연 시간과 계산 비용을 크게 줄이면서도 에이전트의 전반적인 작업 성능을 유지하거나 개선하는 것으로 나타났습니다.
수학적 추론 평가 재고찰: 기호적 경직성을 넘어선 견고한 LLM-as-a-Judge 프레임워크
본 연구는 기존의 기호 기반 비교에 의존하는 수학적 추론 평가 방식의 한계를 극복하기 위한 새로운 LLM-as-a-Judge 프레임워크를 제안합니다. 이 프레임워크는 다양한 수학적 표현과 답변 형식을 포괄적으로 평가할 수 있어, 모델이 생성한 답변을 보다 유연하고 견고하게 검증할 수 있게 합니다. 이를 통해 수학적 문제 해결 능력에 대한 더 신뢰성 높은 벤치마킹 및 성능 모니터링이 가능해집니다.
XAI 평가 재고: 고위험 환경에서의 Shapley 벤치마크에 대한 인간 중심 감사
본 연구는 설명 가능한 AI(XAI) 분야에서 핵심적인 Shapley 값의 다양한 변형들이 실질적인 배포 환경에서 합의 부족과 평가 문제를 겪고 있음을 지적합니다. 저자들은 통합된 암모티즈드 프레임워크를 사용하여 여러 Shapley 변형 간의 의미론적 차이를 분석하고, 실제 사기 탐지 데이터셋을 기반으로 대규모 실증 평가를 수행했습니다. 그 결과, 표준적인 정량적 지표(예: 희소성, 충실도)가 인간이 인지하는 명확성이나 의사결정 유용성과는 분리되어 있음을 밝혀냈습니다. 특히, 설명 자체가 자동화 편향을 줄이고 의사결정 신뢰도를 높이는 등 중요한 인간적 영향을 미친다는 점을 강조하며, 고위험 환경에서의 XAI 평가에 대한 새로운 지침을 제시합니다.
공급망 의존성이 AI 채용 애플리케이션의 편향 측정 및 책임 귀속을 어떻게 복잡하게 만드는가
AI 채용 시스템의 편향성과 책임 문제는 단순히 기술적 또는 법규적 관점에서만 접근하기 어렵다. 현대 AI 시스템은 데이터 벤더, 모델 개발자, 플랫폼 제공자 등 복잡하게 분산된 공급망 내에서 작동하며, 이 의존성 사슬 자체가 편향 평가와 책임 귀속을 극도로 복잡하게 만든다. 따라서 효과적인 거버넌스를 위해서는 개별 구성 요소의 검증을 넘어선 시스템 수준의 감사, 다층적 모니터링, 그리고 전반적인 문서화가 필수적이다.
CRAFT: 훈련 데이터의 적응형 필터링을 위한 클러스터링 회귀
본 논문은 대규모 코퍼스에서 효율적이고 고품질의 미세 조정 데이터 하위 집합을 선택하는 방법인 CRAFT(Clustered Regression for Adaptive Filtering of Training data)를 제안합니다. CRAFT는 소스-타겟 분포를 분해하고, k-means 클러스터링을 통해 예산을 할당하여 소스 분포를 검증 분포에 맞추고, 각 클러스터 내에서 조건부 기대 거리를 최소화하는 훈련 쌍을 선택합니다. 영어-힌디어 번역 작업 평가 결과, CRAFT는 기존 방법론(TSDS, TAROT) 대비 높은 BLEU 점수와 월등히 빠른 속도를 보여 우수한 성능을 입증했습니다.
디스틸레이션을 통한 LLM 유틸리티와 밀집 검색기의 정렬
본 논문은 RAG 시스템의 핵심인 밀집 벡터 검색의 한계를 극복하기 위해 Utility-Aligned Embeddings (UAE) 프레임워크를 제안합니다. UAE는 검색을 분포 매칭 문제로 공식화하고, LLM 재순위화에서 얻은 유틸리티 정보를 임베딩 공간에 직접 주입하는 'Utility-Modulated InfoNCE' 목적 함수를 사용합니다. 이 접근법은 테스트 시간 LLM 추론 없이도 높은 정밀도를 유지하며, 기존의 강력한 베이스라인 대비 성능을 크게 향상시키고 계산 효율성을 획기적으로 높였습니다.
에이전트 월드 모델링: 기초, 능력, 법칙 및 그 너머
AI 시스템이 단순 텍스트 생성을 넘어 복잡한 상호작용과 목표 달성으로 진화함에 따라, 환경 역학을 정확히 예측하는 '월드 모델' 구축 능력이 핵심 병목 현상으로 부상하고 있습니다. 본 논문은 월드 모델의 개념적 혼란을 해소하기 위해 '능력 수준(Predictor, Simulator, Evolver)'과 '지배 법칙 체제(물리적, 디지털, 사회적 등)'라는 두 축으로 구성된 분류 프레임워크를 제시합니다. 이 프레임워크는 다양한 AI 응용 분야의 연구들을 종합하고, 에이전트가 단순히 예측하는 것을 넘어 환경을 능동적으로 시뮬레이션하고 재형상할 수 있는 방향으로 발전 로드맵을 제공합니다.
메타모픽 테스트로 LLM의 프로그램 복구 데이터 누수 진단하기
대규모 언어 모델(LLMs)을 활용한 자동 프로그램 복구(APR)는 유망하지만, 평가 벤치마크가 학습 데이터와 겹칠 경우 '데이터 누수(data leakage)'로 인해 성능이 과대평가될 위험이 있습니다. 본 논문은 메타모픽 테스트(Metamorphic Testing, MT)를 음의 로그 우도(Negative Log-Likelihood, NLL)와 결합하여 이러한 데이터 누수를 더 강력하게 진단하는 방법을 제시합니다. Defects4J 및 GitBug-Java 같은 표준 벤치마크에 의미 보존 변환(semantics-erving)을
LLM 코드 생성의 한계 극복: 자체 테스트 케이스를 활용하는 DryRUN
대규모 언어 모델(LLM) 기반 코딩 프레임워크는 복잡한 문제 해결에 강력하지만, 기존 방식은 사람이 수동으로 작성한 공용 테스트 케이스(public test cases)에 크게 의존합니다. 이는 개발 과정에서 병목 현상을 일으키고, 모델이 단순 예제에 과적합(overfit)되어 실제 환경에서 실패하는 '과신 격차(overconfidence gap)'를 유발합니다. 본 논문은 이러한 외부 테스트 케이스의 필요성을 부정하며, LLM 자체가 스스로 입력값을 생성하고 실행 과정을 시뮬레이션하여 코드를 자체적으로 교정할 수 있는 새로운 프
ASP(Q)를 활용한 모순 허용 우선순위 데이터 질의 처리 연구
본 논문은 Answer Set Programming (ASP)과 이를 확장한 양화사(Quantifiers) 기반 ASP(Q)를 사용하여, 충돌하는 사실들 간에 우선순위 관계가 정의된 '모순이 있는(inconsistent)' 데이터를 효율적으로 질의 처리하는 방법을 탐구합니다. 특히, 이 연구는 세 가지 최적 복구(optimal repairs) 개념(Pareto-, global-, completion-optimal)을 활용하여 모순 허용성을 높이고, 이를 기반으로 하는 새로운 의미론(semantics)과 구현체들을 제시합니다. 이는
트랜스포머의 추상 기호 논리 추론 능력 심층 분석
본 연구는 디코더 전용 트랜스포머 모델이 컨텍스트 내에서 제시되는 명제 논리(propositional logic) 문제 해결 시, 학습 과정에서 보지 못한 변수 이름에 대한 일반화 능력을 조사합니다. 기존 연구들이 실패했던 지점을 이론적/실험적으로 분석하여, '미관찰 토큰의 임베딩 및 언임베딩 붕괴(unembedding collapse)'가 핵심 원인임을 밝혀냈습니다. 이 문제를 해결하기 위해 복사 기능 강화 아키텍처 변경, 데이터 다양성 확보, 그리고 (언)임베딩 리셋 등의 조합을 제안하며, 이를 통해 미관찰 토큰에 대한 일반화가
인과적 분리 학습 기반의 전범위 이미지 품질 평가(FR-IQA)
기존의 특징 비교 방식에 의존하던 전범위 이미지 품질 평가(Full-Reference Image Quality Assessment, FR-IQA) 모델의 한계를 극복하는 새로운 패러다임을 제시합니다. 본 논문은 인과 추론(Causal Inference)을 활용하여 손상 정도와 원본 콘텐츠를 분리하고, 인간 시각 시스템의 마스킹 효과를 모방한 마스킹 모듈을 도입했습니다. 이를 통해 이미지 내용에 의해 영향을 받는 '인과적 손상 특징'을 추출하며, 지도 학습(Supervised) 환경은 물론 데이터가 부족하거나 레이블이 없는 다양한 비
비디오 복제 탐지: 로직 게이트 네트워크(LGN) 기반 효율적 접근법
기존 딥러닝 모델의 높은 연산 비용과 디스크립터 크기 한계를 극복하기 위해, 본 논문은 이산적인 로직 게이트 네트워크(Logic Gate Networks, LGN)를 활용한 비디오 복제 탐지 프레임워크를 제안합니다. LGN은 부동소수점 특징 추출기를 간결한 로직 기반 표현으로 대체하여, 모델을 순수한 불리언 회로로 이산화할 수 있게 합니다. 이를 통해 메모리 효율성과 추론 속도를 획기적으로 개선했으며, 초당 11k 샘플 이상의 빠른 처리 속도를 달성했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.