본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터arXiv cs.CL836건

arXivAI 번역논문

SciPaths: 과학적 발견으로 향하는 경로 예측

SciPaths는 기존 AI4Science 벤치마크가 인용 예측이나 문헌 검색에 집중했던 한계를 극복하고, 과학적 발견 경로 예측(discovery pathway forecasting)이라는 새로운 패러다임을 제시합니다. 이 시스템은 목표로 하는 과학적 기여를 실현하는 데 필요한 선행 기여(enabling contributions)를 식별하고, 해당 선행 연구가 존재할 경우 이를 이전 문헌에 근거(grounding)시키는 것을 목표로 합니다. 262개의 전문가 주석 골드 경로와 2,444개의 실버 경로로 구성된 SciPaths 벤치마크는 이러한 복잡한 과학적 의존성 추론 능력을 평가하는 데 사용됩니다.

arXivAI 번역논문

환각을 완화하기 위해 정말 외부 도구가 필요할까? SIRA: Attribution의 공유 접두사 내부 재구성

본 논문은 대규모 시각-언어 모델(LVLMs)이 모호한 시각적 증거로 인해 환각을 일으키는 문제를 다루며, 이를 해결하기 위해 외부 도구 없이 내부에서 반사실적 참조를 구축하는 새로운 프레임워크인 SIRA를 제안합니다. SIRA는 공유 접두사를 통해 이미지와 텍스트 토큰의 상호작용을 유지하면서, 트랜스포머 후기 레이어에서 시각적 증거 접근이 제한된 내부 대조적 분기를 생성하여 언어적 사전 지식 중심의 참조를 만듭니다. 실험 결과, SIRA는 기존의 다중 패스 디코딩 방식보다 낮은 오버헤드로 환각을 효과적으로 줄이는 것으로 나타났습니다.

arXivAI 번역논문

Falkor-IRAC: 인도 사법 AI의 검증된 법률 추론을 위한 그래프 제약 생성

Falkor-IRAC는 인도 법률 AI를 위해 설계된 그래프 제약 생성 프레임워크로, 단순한 의미적 검색을 넘어 판례 전파 및 절차적 상태 전이와 같은 구조화된 상징적 추론을 가능하게 합니다. 이 시스템은 LLM이 생성한 답변이 IRAC 지식 그래프 내의 유효한 경로를 따라 검증될 때만 수용되며, Verifier Agent라는 반증 가능성 오라클을 통해 출력을 엄격히 확인합니다. Falkor-IRAC는 인용 근거 정확도 등 법률 추론에 특화된 새로운 평가 지표를 제시하며, 기존의 벡터 기반 RAG 방식이 가진 환각 및 부정확한 추론 문제를 해결하는 것을 목표로 합니다.

arXivAI 번역논문

AI 지원 문화유산 보급: 암각화 문서에서 NMT와 용어집 증강 LLM 번역의 비교

본 연구는 암각화 학술 텍스트와 같이 전문 용어가 밀집된 문화유산 자료를 다국어로 보급하는 과정에서 발생하는 번역 품질 문제를 다룹니다. 스페인어 암각화 텍스트에 대한 세 가지 영어 기계 번역(MT) 설정(DeepL, Gemini-Simple, Gemini-RAG)을 비교한 결과, 용어집 증강 프롬프팅을 적용한 Gemini-RAG가 가장 높은 정확도의 전문 용어 일치율과 전반적인 품질을 보여주었습니다. 이는 최소한의 자원으로도 문화유산 번역에서 효과적인 용어 제어를 달성할 수 있음을 시사합니다.

arXivAI 번역논문

Clinical World Model과의 상호작용을 통한 LLM 내 환자 역학의 에이전트화 (Agentifying)

본 논문은 중환자실(ICU) 패혈증 관리를 위해 임상 월드 모델로 증강된 LLM 에이전트인 SepsisAgent를 제안합니다. SepsisAgent는 후보 치료 중재에 따른 환자 반응을 시뮬레이션하는 '제안-시뮬레이션-정제' 워크플로우를 따릅니다. 이 에이전트는 3단계의 커리큘럼 학습(지도 미세 조정, 행동 복제, 강화학습)을 거쳐 MIMIC-IV 데이터셋에서 기존 방법론 대비 우수한 성능과 안전성을 입증했습니다.

arXivAI 번역논문

IntentVLA: 모호한 로봇 조작을 위한 단기 지향 의도 모델링 (Short-Horizon Intent Modeling for

IntentVLA은 로봇 모방 데이터의 부분 관측성 문제를 해결하기 위해 개발된 이력 조건부 VLA 프레임워크입니다. 이는 최근 시각적 관측을 압축된 단기 지향 의도 표현으로 인코딩하여 액션 청크 생성에 활용합니다. 또한, IntentVLA는 단기 관측 모호성을 평가하는 새로운 벤치마크인 AliasBench를 도입하여 그 성능과 안정성을 입증했습니다.

arXivAI 번역논문

LLM 거버넌스를 위한 기계적 강제 (Mechanical Enforcement): 금융 의사결정 시스템에서의 거버넌스-태스크 디커플링

본 연구는 금융 워크플로우 내 LLM의 거버넌스 문제를 다루며, 기존 평가 방식이 의사결정 근거 수준에서의 정책 준수 여부를 측정하지 못함을 지적합니다. 이를 해결하기 위해 '기계적 강제(mechanical enforcement)'라는 구조적 분리 방식을 도입하여 텍스트 전용 거버넌스와 비교했습니다. 그 결과, 기계적 강제는 의사결정 근거의 품질을 크게 향상시키고 태스크 정확도를 높여, 규제 대상 AI 시스템에서 거버넌스와 태스크 평가가 독립적인 축임을 입증했습니다.

arXivAI 번역논문

Video2GUI: 일반화된 GUI Agent 사전 학습을 위한 대규모 상호작용 궤적 합성

본 논문은 일반화된 GUI Agent 학습에 필요한 대규모 상호작용 궤적 데이터 부족 문제를 해결하기 위해, 레이블링되지 않은 인터넷 비디오에서 근거 기반(Grounded) GUI 상호작용 궤적을 자동으로 추출하는 Video2GUI 프레임워크를 제안합니다. 이 프레임워크를 활용하여 1,500개 이상의 애플리케이션과 웹사이트를 포괄하는 대규모 데이터셋 WildGUI를 구축했습니다. WildGUI로 Qwen2.5-VL 및 Mimo-VL 같은 모델을 사전 학습시킨 결과, 여러 GUI 관련 벤치마크에서 최첨단 성능에 근접하거나 능가하는 성능 향상을 입증했습니다.

arXivAI 번역논문

Large Language Models에 대한 비선형 개입 (Non-linear Interventions)

본 연구는 LLM의 내부 표현을 이해하기 위한 새로운 접근 방식인 비선형 개입(Non-linear Interventions) 방법을 제안합니다. 기존 방법들이 선형 가설에 기반하여 비선형 매니폴드 특징들을 포착하지 못했던 한계를 극복하고, 일반적인 공식과 학습 절차를 제시했습니다. 이를 통해 직접적인 출력 시그니처가 부족한 암시적 특징까지 개입할 수 있으며, 거부 우회 스티어링 실험에서 선형 방식보다 더 정밀하게 모델을 제어함을 입증했습니다.

arXivAI 번역논문

텍스트에서 음성으로: 도구 호출(Tool Calling) LLM 에이전트 평가를 위한 재현 가능하고 검증 가능한 프레임워크

본 연구는 기존의 텍스트 기반 LLM 도구 호출 벤치마크를 데이터셋에 구애받지 않는(dataset-agnostic) 방식으로 오디오 기반 평가로 변환하는 프레임워크를 제안합니다. 이 프레임워크는 텍스트 음성 변환, 화자 변이, 환경 소음 등을 활용하여 기존 주석을 보존한 채 텍스트-오디오 쌍을 생성할 수 있습니다. 광범위한 모델 평가 결과, 성능은 모델과 작업에 따라 크게 달라지며, 특히 오디오 내 인자 값 이해 부족이 주요 실패 원인으로 분석되었습니다.

arXivAI 번역논문

Persian MusicGen: 페르시아 음악을 위한 대규모 데이터셋 및 문화 인지적 생성 모델

본 연구는 페르시아 음악의 독특한 음조와 선법 체계(Dastgah)를 포착하기 위해 900시간 이상의 고품질 오디오 샘플로 구성된 최초의 대규모 페르시아 노래 데이터셋을 구축했습니다. 이 데이터를 활용하여 최첨단 생성 모델인 MusicGen을 미세 조정(fine-tuning)하였으며, 그 결과 미세 조정된 모델이 페르시아 스타일 관습에 더 부합하는 음악을 성공적으로 생성함을 입증했습니다.

arXivAI 번역논문

SpeechLLM을 이용한 스트리밍 음성-텍스트 번역

본 연구는 스트리밍 음성-텍스트 번역을 위한 새로운 LLM 기반 아키텍처를 제안합니다. 기존 시스템의 문제점인 느린 속도와 연쇄 오류 문제를 해결하기 위해, 이 모델은 토큰 생성 여부뿐만 아니라 충분한 오디오 입력 확인까지 학습합니다. 실험 결과, 이 시스템은 비스트리밍 방식에 근접한 높은 번역 품질을 유지하면서도 1~2초의 낮은 지연 시간을 달성했습니다.

arXivAI 번역논문

연구의 그래프: 연구 아이디어 생성을 위한 지도 학습으로서의 인용 진화 그래프

본 연구는 논문 간의 구조적 관계를 활용하여 연구 아이디어 생성을 돕는 'Graphs of Research (GoR)'라는 지도 학습 방법을 제안합니다. GoR은 시드 논문을 중심으로 인용 위치, 빈도, 출판 시간 등을 고려한 참고 문헌 진화 유향 비순환 그래프(DAG)를 구축하고, 이를 LLM의 미세 조정에 활용합니다. 이 방법은 기존의 정적 검색이나 단순 프롬프트 엔지니어링 방식보다 우수하며, GPT-4o 기반 베이스라인 대비 SOTA 성능을 달성하여 자동화된 과학 혁신 가속화에 기여할 수 있음을 입증했습니다.

arXivAI 번역논문

Composed Image Retrieval 벤치마크에 멀티모달 구성 (Multimodal Composition)이 정말 필요한가?

본 연구는 Composed Image Retrieval (CIR) 벤치마크에서 높은 성능이 반드시 '멀티모달 구성(multimodal composition)' 능력 때문인지 의문을 제기합니다. 조사 결과, 상당수의 CIR 쿼리가 참조 이미지나 텍스트 수정 사항 중 단일 모달리티만으로 해결될 수 있는 '유니모달 지름길(unimodal shortcuts)'을 이용하고 있음을 발견했습니다. 따라서 높은 CIR 성능은 진정한 멀티모달 구성 능력보다는 이러한 단순한 유니모달 신호에 의존할 가능성이 높습니다.

arXivAI 번역논문

Lexicon-Grammar 테이블의 LMF로의 변환: 프랑스어에 대한 적용

본 글은 프랑스어 동사를 담고 있는 Lexicon-Grammar 테이블을 LMF(Lexical Markup Framework) 형식으로 변환하는 실험 결과를 다룹니다. 이 변환 과정을 통해 기존의 주요 정보 소스였던 Lexicon-Grammar를 다양한 NLP 환경에서 사용 가능한 표준화되고 상호 운용성 높은 형태로 만드는 것을 목표로 합니다.

arXivAI 번역논문

AI 에이전트의 종합적 평가 및 실패 진단

본 논문은 복잡한 다단계 프로세스를 수행하는 AI 에이전트의 현재 미흡한 평가 방식을 개선하기 위한 종합적인 프레임워크를 제시합니다. 이 프레임워크는 하향식(top-down) 에이전트 수준 진단과 상향식(bottom-up) 구간 수준(span-level) 평가를 결합하여, 분석을 독립적인 구간별 평가로 분해하고 각 판정에 대한 근거를 생성할 수 있습니다. TRAIL 벤치마크에서 이 프레임워크는 GAIA와 SWE-Bench 모두에서 기존 최고 성능의 베이스라인 대비 여러 지표에서 높은 개선율을 입증했습니다.

arXivAI 번역논문

우크라이나 법률 텍스트에 대한 파운데이션 모델(Foundation Models)의 토크나이저 비옥도(Tokenizer Fertility) 및

본 연구는 우크라이나 법률 텍스트를 처리하는 다양한 파운데이션 모델들의 토큰화 효율성과 성능을 비교 분석했습니다. 273개의 실제 판결문 데이터를 사용하여 5개 제공업체의 7개 모델을 벤치마킹한 결과, 모델 간 토크나이저 비옥도에 최대 1.6배의 큰 차이가 있으며 이는 API 비용 증가로 직결됩니다. 또한, NVIDIA Nemotron Super 3 (120B)가 높은 종합 점수를 기록하며 Mistral Large 3를 능가했으나, 가장 중요한 실무적 제언으로 형태론적으로 풍부한 언어에서는 Few-shot prompting보다 Zero-shot이 더 신뢰할 수 있는 기본 설정임을 제시했습니다.

arXivAI 번역논문

Chain-of-Procedure: 절차적 QA를 위한 계층적 시각-언어 추론

본 논문은 복잡한 절차의 중간 이미지를 기반으로 다음 행동 단계를 추론하는 시각적 절차 질의응답(VP-QA) 과제를 다룹니다. 이를 위해 새로운 멀티모달 벤치마크인 ProcedureVQA를 제안하고, 현재 VLM이 가진 교차 모달 검색 및 단계 분해의 한계를 분석했습니다. 이 문제를 해결하기 위해 시각적 단서 기반 검색, 의미론적 분해, 다음 단계 생성을 결합한 계층적 추론 프레임워크인 Chain-of-Procedure (CoP)를 제시하고 그 성능을 입증했습니다.

arXivAI 번역논문

적응형 윈도잉을 이용한 추측적 디코딩(Speculative Decoding)을 위한 성능 중심 정책 최적화

본 논문은 LLM 추론 속도를 높이는 Speculative Decoding 기법을 개선하기 위해, 초안 모델(draft model)의 정책 최적화 방식을 제안합니다. 기존 방법들이 토큰 레벨 지도 학습에 의존했던 한계를 극복하고, 윈도우 레벨에서 성능 중심의 최적화를 수행하는 강화 학습 프레임워크인 PPOW를 제시했습니다. PPOW는 적응형 윈도잉과 다양한 보상 함수를 결합하여 추측적 디코딩 효율성을 크게 향상시켰습니다.

arXivAI 번역논문

Frontier LLM에서의 조기 결론 (Premature Closure) 정량화 및 완화

본 기사는 대규모 언어 모델(LLMs)에서 발생하는 '조기 결론(Premature closure)' 문제를 다루며, 이를 불확실성 하에서의 부적절한 확신으로 정의합니다. 연구진은 구조화 및 개방형 의료 작업에 다섯 가지 Frontier LLM을 평가한 결과, 높은 비율로 답변을 제공하는 경향을 발견했습니다. 특히 정답 선택지가 제거된 MedQA와 AfriMed-QA 같은 상황에서 모델들은 여전히 높은 오작동률을 보였으며, 이는 안전 지향적 프롬프팅만으로는 해결되지 않는 근본적인 문제임을 시사합니다.

이전9 / 42전체 42페이지 중 9페이지다음