본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 324필터 해제

arXiv논문

신뢰할 수 있는 임상 분류를 위한 도메인 적응형 소규모 언어 모델

본 연구는 자유 텍스트 기반 문서에서 발생하는 높은 변동성으로 인해 어려움을 겪는 임상 분류(예: ESI 할당) 문제를 해결하기 위해 도메인 적응형 소규모 언어 모델(SLM)의 활용 가능성을 평가했습니다. 다양한 프롬프팅 기법을 비교한 결과, 간결한 요약 형태의 '임상 비니에트'가 가장 정확한 예측을 제공함을 확인했습니다. 특히, 전문가가 선별하고 실버 표준 데이터로 대규모 도메인 적응을 거친 Qwen2.5-7B와 같은 SLM이 기존의 기준선 모델이나 고급 LLM보다 우수한 성능과 안정성을 보여주었으며, 이는 사생활 보호 및 현장 적용에 매우 유용함을 시사합니다.

slmclinical-nlpdomain-adaptation
4일 전10
arXiv논문

Random Cloud: 훈련 없이 최소 신경망 구조 탐색

Random Cloud는 확률적 탐색과 점진적인 구조 축소를 활용하여 훈련 과정 없이 최소 전방전달 신경망 구조를 발견하는 새로운 NAS(Neural Architecture Search) 접근법입니다. 이 방법은 기존의 반복적인 '훈련-가르기-재훈련' 사이클을 필요로 하는 사후 훈련 방식들과 달리, 무작위 초기화된 네트워크를 평가하고 점진적으로 구조를 축소하여 가장 좋은 후보만 최종적으로 훈련합니다. 실험 결과, Random Cloud는 여러 분류 벤치마크에서 기존의 가지치기(pruning) 기준선과 동등하거나 우수한 성능을 보였으며, 특히 매개변수를 크게 줄이면서도 통계적으로 유의미한 정확도 향상을 달성했습니다.

neural-architecture-searchpruningmachine-learning
4일 전7
arXiv논문

제한된 시뮬레이션 훈련 환경에서 검색 및 구조 UAV 임무에 적용되는 규칙 기반 고수준 코칭: 목표 조건부 강화학습을 위한 계층적 의사결정

본 논문은 제한적인 시뮬레이션 환경에서 검색 및 구조(SAR) 임무를 수행하는 UAV를 위한 계층적 의사결정 프레임워크를 제안합니다. 이 프레임워크는 고정된 규칙 기반의 고수준 조언자와 온라인 목표 조건부 강화학습 컨트롤러를 결합하여, 안전하고 해석 가능한 지침을 제공하며 동시에 환경 변화에 적응하는 능력을 갖춥니다. 특히 사전 학습이 불가능한(no-pretraining) 배포 체제에서도 높은 초기 안전성과 샘플 효율성을 입증했습니다.

uavreinforcement-learninghierarchical-decision-making
4일 전7
arXiv논문

HalluCiteChecker: AI 과학자 시대 허위 인용 탐지 및 검증용 경량 툴킷

HalluCiteChecker는 AI 어시스턴트 사용 증가로 인해 발생하는 과학 논문의 허위 인용(hallucinated citations)을 탐지하고 검증하는 경량 툴킷입니다. 이 도구는 NLP 작업을 통해 허위 인용 문제를 공식화하여 해결책을 제시하며, 표준 노트북에서 오프라인 및 CPU 기반으로 빠르게 작동합니다. 이를 통해 학술 논문의 신뢰성을 높이고 심사위원과 저자의 수동 검토 부담을 줄이는 것을 목표로 합니다.

nlpacademic-writingcitation-checking
4일 전8
arXiv논문

언어 확산 모델은 보이지 않는 데이터를 검색할 수 있는 연상 기억체입니다

본 논문은 Uniform-based Discrete Diffusion Models (UDDMs)이 본질적으로 연상 기억체(Associative Memories, AMs)로 작동함을 보여줍니다. 연구진은 전통적인 에너지 함수 없이도 조건부 가능도 최대화를 통해 안정적인 인력 영역(basins of attraction)을 형성할 수 있음을 제시합니다. 또한, 학습 데이터셋 크기에 따른 모델의 '암기(memorization)'에서 '일반화(generalization)'로의 전환을 예측된 토큰 시퀀스의 조건부 엔트로피를 측정하는 실용적인 방법으로 탐지할 수 있음을 입증했습니다.

diffusion-modelsassociative-memoryconditional-entropy
4일 전7
arXiv논문

Resume-ing Control: 채용 워크플로우 내 GenAI 사용에 대한 대리성 (Agency) 에 대한 오인식

본 연구는 생성형 AI(GenAI)가 고위험 의사결정, 특히 채용 워크플로우에 통합될 때 전문가들이 자신의 통제력과 대리성(agency)을 어떻게 인식하는지 탐구합니다. 인터뷰 결과, 채용 담당자들은 여전히 최종 권한을 가지고 있다고 믿지만, GenAI는 평가 정보의 기초 구성 요소부터 직무 정의 및 면접 결정까지 은밀하게 영향을 미치고 있습니다. 이러한 AI 도입은 표면적인 효율성 향상만을 가져올 뿐, 실제로는 채용 담당자의 기술 퇴보(deskilling)를 초래하며 의사결정 감독을 위험에 빠뜨릴 수 있음을 보여줍니다.

genaihr-techagency
4일 전4
arXiv논문

감정적 아키텍처: LLM이 작업 환경을 조정하는 역할

원격 및 하이브리드 근무 환경에서 물리적, 가상, 디지털 요소가 통합되면서 공간 경험과 협업 방식이 혁신되고 있습니다. 본 연구는 LLM(대형 언어 모델)이 단순히 정보를 처리하는 것을 넘어, 사용자의 감정적/행동적 신호를 읽고 조명, 음향 등 환경 설정을 실시간으로 조정하여 '감정적으로 수용 가능한' 작업 공간을 만드는 역할을 탐구합니다. 궁극적으로 이 연구는 기술과 인간 중심의 경험을 결합한 공동 적응 환경(co-adaptive environments) 구축 프레임워크를 제시하며, 윤리적 고려 사항을 강조하고 있습니다.

llmhuman-computer-interactionmixed-reality
5일 전9
arXiv논문

보안 경고에 대한 에이전트 기반 조사로 나아가기

본 논문은 보안 경고에 대한 초기 조사의 비효율성과 컨텍스트 부족 문제를 해결하기 위해 에이전트 기반 워크플로우를 제시합니다. 이 워크플로우는 LLM을 활용하여 구조화된 SQL 쿼리 및 grep 검색과 결합함으로써, 로그 소스 조사 계획, 쿼리 실행, 원시 증거 추출, 최종 판단 도출의 전 과정을 자동화합니다. 실험 결과에 따르면, 제안된 에이전트 워크플로우는 LLM만 사용하는 경우보다 훨씬 높은 정확도로 경고에 대한 최종 판단을 내릴 수 있음을 입증했습니다.

llmsecurity-analysiscybersecurity
5일 전8
arXiv논문

복합 AI 시스템의 확장 가능한 추론 아키텍처: 프로덕션 배포 연구

본 논문은 복잡하고 다양한 작업을 수행하는 복합 AI 시스템(compound AI systems)을 프로덕션 환경에 효율적으로 배포하기 위한 모듈형 추론 아키텍처를 제시합니다. 이 아키텍처는 서버리스 실행, 동적 자동 확장 및 MLOps 파이프라인을 통합하여 다중 구성 요소 에이전트 워크플로우 전반에 걸쳐 낮은 지연 시간과 높은 처리량을 유지합니다. 연구 결과, 기존 방식 대비 꼬리 지연 시간을 크게 줄이고 처리량은 높이며 비용 효율성을 개선하는 등 실질적인 운영상의 이점을 입증했습니다.

ai-inferenceagent-frameworkmlops
5일 전10
arXiv논문

고독한 독백에서 아고라로: 최적화 모델링을 위한 분산적 토론과 메모리 증강 LLM 에이전트

본 논문은 물류, 제조 등 현실 세계 의사결정의 핵심인 최적화 모델링 문제를 해결하기 위한 모듈형 에이전트 프레임워크 'Agora-Opt'를 제안합니다. Agora-Opt는 여러 독립적인 에이전트 팀들이 솔루션을 생성하고, 결과 기반 토론 프로토콜을 통해 이를 조정하며, 검증된 아티팩트를 저장하는 메모리 뱅크를 활용하여 신뢰성을 높입니다. 이 프레임워크는 기존 LLM의 한계를 극복하고, 다양한 환경에 유연하게 적용 가능한 강력한 성능을 입증했습니다.

llm-agentsoptimization-modelingdecentralized-debate
5일 전5
arXiv논문

HotComment: 온라인 댓글의 인기도를 평가하기 위한 벤치마크

본 연구는 소셜 미디어 댓글의 인기도를 포괄적으로 평가하기 위한 다중모달 벤치마크인 HotComment를 제시합니다. 이 벤치마크는 콘텐츠 품질(지상 진실과의 의미적 유사성), 실제 상호작용 데이터를 기반으로 한 인기도 예측, 그리고 사용자 행동 시뮬레이션을 통해 댓글의 영향력을 정량화하는 세 가지 측면을 다룹니다. 또한, 사회적 공명 효과를 모델링하여 표현을 증폭시키고 불일치한 표현을 억제하는 StyleCmt도 함께 제안합니다.

social-mediacomment-analysismultimodal
5일 전5
arXiv논문

QAROO: 에너지 효율적이고 지속 가능한 MEC 네트워크를 위한 AI 기반 온라인 작업 오프로딩

본 논문은 에너지 효율성과 지속 가능성을 목표로 하는 무선 전력 공급 이동 엣지 컴퓨팅(MEC) 네트워크를 위한 AI 기반 온라인 작업 오프로딩 프레임워크인 QAROO를 제안합니다. 기존 방법의 낮은 적응성 및 느린 수렴 속도 문제를 해결하기 위해, QAROO는 양자 주의 기반 강화학습을 활용하여 순환 신경망, 불확실성 유도 양화, 그리고 주의 메커니즘을 통합했습니다. 실험 결과, 이 프레임워크는 컴퓨팅 속도와 처리 시간 측면에서 기존 기법들을 능가하며 대규모 IoT 환경에 효율적이고 안정적인 솔루션을 제공함을 입증했습니다.

mecedge-computingreinforcement-learning
5일 전5
arXiv논문

지속적인 기울기 정렬이 다단계 설정에서의 잠재학습을 매개한다: MNIST 보조 로그이트 디스틸레이션 실험에서 얻은 증거

본 연구는 MNIST 보조 로그이트 디스틸레이션 실험을 통해 학생 모델이 클래스가 없는 로그이트만으로도 잠재학습(subliminal learning) 현상을 통해 교사의 특성을 습득할 수 있음을 보여줍니다. 기존 이론은 단일 단계 기울기 하에서 이 효과를 설명하지만, 본 연구는 다단계 훈련 과정에서도 기울기 정렬이 지속적으로 양의 값을 유지하며 특성 습득에 기여함을 경험적으로 입증했습니다. 또한, 특정 완화 방법(liminal training)이 오히려 정렬을 감소시키며 특성 습득을 완전히 억제하지 못할 수 있다는 점을 제시합니다.

distillationsubliminal_learninggradient_alignment
5일 전8
arXiv논문

신경망 검증 (강의 노트)

이 강의 노트는 신경망을 이론적으로 검증하는 방법을 다룹니다. 순전파(FFN) 신경망부터 재귀 및 주의력 메커니즘, 트랜스포머 구조까지 다양한 아키텍처를 포괄하며, 명세 언어와 알고리즘적 기법을 사용하여 모델의 정확성을 증명하는 이론적 접근 방식을 소개합니다.

neural-networkverificationtransformer
5일 전6
arXiv논문

소규모 문제 진술과 '벽 작업'을 활용한 GPT 기반 스프레드시트 모델링 실험

본 논문은 GPT 기반 도구를 활용하여 재사용 가능한 분석용 스프레드시트 모델을 구축하는 방법을 탐구합니다. 연구진은 5가지 GPT 확장 기능을 평가한 후, Excel AI를 상세 테스트 대상으로 선정했습니다. 간단하고 구조화된 문제 진술에 따라 Excel AI의 성능을 ERFR 기준(셀 입력, 공식, 고정 숫자 없음, 레이블 포함, 정확성)으로 평가한 결과, 해당 도구가 잘 구조화된 모델은 생성할 수 있으나 일관성과 재현 가능성 측면에서 부족함을 확인했습니다.

gptspreadsheet-modelingexcel-ai
5일 전9
arXiv논문

CGU-ILALab 의 FoodBench-QA 2026: 레시피 영양분 추정을 위한 전통적 방법과 LLM 기반 접근법 비교

본 기사는 비정형 레시피 텍스트에서 정확한 영양분 추정을 위한 다양한 모델 접근법을 비교 분석했습니다. TF-IDF와 같은 전통적 방법부터 DeBERTa-v3, 그리고 LLM 기반의 생성적 추론에 이르기까지 여러 방법을 평가했습니다. 그 결과, 순수 LLM 방식이 가장 높은 예측 정확도를 보였으나, 이는 추론 지연 시간 증가라는 실용적인 트레이드오프를 수반함을 확인했습니다. 따라서 시스템 설계 시 효율성과 정밀도 사이의 균형점을 찾는 것이 중요합니다.

nutrition-estimationllmnlp
5일 전6
arXiv논문

코드 평가 지표를 통해 코드 도용을 감지할 수 있는가?

본 논문은 코드 평가 지표(CEMs)가 다양한 수정 수준의 소스 코드 도용을 신뢰성 있게 감지할 수 있는지 실증적으로 연구했습니다. ConPlag 및 IRPlag 데이터셋을 사용하여 CodeBLEU, CrystalBLEU 등 5가지 CEM과 JPlag, Dolos 같은 최신 전문 도구를 비교 평가했습니다. 그 결과, 전처리 없이 Dolos가 전체 순위에서 가장 우수했으나, 개별 지표 중에서는 CrystalBLEU, CodeBLEU, RUBY 등이 JPlag을 능가하는 성능을 보였습니다. 특히 CrystalBLEU는 높은 수정 수준(L6)에서도 경쟁력을 유지하며, CEM들이 전문 도구와 비교 가능한 수준의 순위 기반 성능을 제공함을 입증했습니다.

source-code-plagiarismcode-evaluation-metricsscpd
5일 전6
arXiv논문

PSI-Bench: 우울증 환자 시뮬레이터의 임상적 근거와 해석 가능한 평가로 나아가기

PSI-Bench는 정신 건강 분야에서 사용되는 우울증 환자 시뮬레이터의 성능을 평가하기 위해 개발된 새로운 자동 평가 프레임워크입니다. 이 프레임워크는 턴 단위, 대화 단위, 인구 집단 단위 등 다층적인 관점에서 해석 가능하고 임상적으로 근거한 진단을 제공합니다. PSI-Bench를 통해 기존 시뮬레이터들이 지나치게 길거나 변동성이 낮고 감정 변화의 궤적이 부자연스럽다는 문제점을 발견했으며, 모델 규모보다 시뮬레이션 프레임워크의 충실도가 더 중요함을 입증했습니다.

mental-healthllm-evaluationsimulation
5일 전5
arXiv논문

행동 전에 생각하라 - 자율형 AI 에이전트를 위한 신경인지 거버넌스 모델

본 논문은 기존의 외부적 제약(런타임 가드레일 등) 기반 거버넌스 방식의 한계를 지적하며, 인간의 자기 통제 메커니즘을 자율형 AI 에이전트 거버넌스로 도입하는 신경인지 프레임워크를 제안합니다. 이 프레임워크는 '행동 전에 생각하기' 원칙에 따라 전역, 워크플로우 특정, 에이전트 특정, 상황적 4계층의 규칙을 참조하는 '사전 행동 거버넌스 추론 루프(PAGRL)'를 핵심으로 합니다. PAGRL은 인간의 집행 기능과 인지 과정을 모방하여, AI가 중요한 결정을 내리기 전에 스스로 준법성을 평가하고 수정하며, 외부 강제보다 훨씬 일관성 있고 설명 가능한 자율적 거버넌스를 구현함을 입증했습니다.

ai-governancellm-agentsneurocognitive
5일 전5
arXiv논문

Marco-MoE: 효율적인 업사이클링을 갖춘 오픈 멀티링구얼 미식스 오브 전문가 언어 모델

Marco-MoE는 완전히 오픈된 다국어 희소 Mixture of Experts (MoE) 언어 모델로, 입력 토큰당 전체 파라미터의 약 5%만 활성화되는 극도로 희소한 구조를 가집니다. 이러한 효율적인 희소성과 업사이클링 능력을 결합하여 대규모 데이터셋에 대한 사전 학습을 가능하게 하며, 경쟁 모델 대비 뛰어난 성능-연산비(performance-to-compute ratio)를 달성합니다. 또한, Marco-MoE-Instruct 변형은 추가 학습을 통해 생성되었으며, 활성화된 파라미터가 더 많은 경쟁 모델보다 우수한 성능을 보여줍니다. 이 모델은 언어 간 공유 구조와 개별 언어 전문성을 동시에 유지하며 확장 가능한 다국어 기능을 제공합니다.

moemultilingualsparse-model
5일 전7

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.