본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터arXiv cs.CL836건

arXivAI 번역논문

Edit-level Majority Voting을 통한 LLM 기반 문법 오류 교정 (GEC)의 과잉 교정 문제 완화

본 기사는 LLM 기반 문법 오류 교정(GEC)의 주요 문제인 과잉 교정을 완화하기 위한 새로운 Training-free 추론 방법을 제안합니다. 이 방법은 모델 수정이나 추가 학습 없이, 단일 모델이 생성한 여러 후보군에 대해 Edit-level Majority Voting을 수행하는 것이 핵심입니다. 영어, 체코어 등 9개 언어의 다양한 벤치마크에서 테스트되었으며, 기존 방식보다 우수한 성능과 안정적인 교정 품질을 입증했습니다.

arXivAI 번역논문

Perplexity를 넘어: 저차원 사전 학습(Low-Rank Pre-Training)에 대한 기하학적 및 스펙트럼 연구

본 연구는 대규모 언어 모델(LLM)의 메모리 효율성을 높이는 저차원 사전 학습(Low-rank pre-training) 방법론들이 전체 랭크 학습과 비교하여 어떤 근본적인 차이를 가지는지 기하학적 및 스펙트럼 관점에서 심층 분석합니다. 기존 연구가 퍼플렉시티 같은 단일 지표에 의존했던 한계를 넘어, 다양한 모델 규모와 다섯 가지 저차원 방법론을 네 가지 차원의 16가지 지표로 평가했습니다. 그 결과, 저차원 방법론들은 검증 퍼플렉시티가 유사하더라도 전체 랭크 학습과 동일한 솔루션을 찾지 않으며, 각기 기하학적으로 구별되는 분지로 수렴함을 입증했습니다.

arXivAI 번역논문

보상 비상관 정책 최적화 (Reward-Decorrelated Policy Optimization)를 통한 다중 목적 및 혼합 보상 강화학습

본 논문은 다중 작업 및 혼합 보상 환경에서 발생하는 불안정한 스칼라 어드밴티지 구축 문제를 해결하기 위해 '보상 비상관 정책 최적화(Reward-Decorrelated Policy Optimization, RDPO)'를 제안합니다. RDPO는 크기 인식 분위수 정규화와 마할라노비스 화이트닝을 결합하여 이질적인 보상 분포 전반에 걸쳐 어드밴티지 할당의 안정성을 높입니다. 이를 LongCat-Flash 모델에 적용한 결과, 지시 이행, 글쓰기 품질, 어려운 프롬프트에 대한 강건성이 향상되는 효과를 입증했습니다.

arXivAI 번역논문

주석 스키마 전반에 걸친 강건한 선전 분류를 위한 계층적 프롬프팅 (Hierarchical Prompting) 기반 미세 조정

본 연구는 소셜 미디어의 노이즈가 많은 환경에서 선전(Propaganda)을 탐지하기 위해 의도에 초점을 맞춘 새로운 분류 체계를 도입하고, 이를 기존 스키마와 비교 평가했습니다. GPT-4.1-nano, Phi-4 14B, Qwen2.5-14B, Qwen3-14B 등 네 가지 언어 모델을 사용하여 세 가지 차원에서 분류 작업을 수행했으며, 그 결과 미세 조정(fine-tuning)의 중요성을 입증했습니다. 특히, 계층적 프롬프팅(HiPP) 방식은 모호하거나 일치도가 낮은 새로운 스키마에서 유용하며, Qwen 모델들이 전반적으로 강력한 성능을 보였고 Phi-4 14B가 GPT-4.1-nano보다 우수한 성능을 나타냈습니다.

arXivAI 번역논문

FlowCompile: 구조화된 LLM 워크플로우를 위한 최적화 컴파일러

FlowCompile은 구조화된 LLM 워크플로우의 최적화를 위한 새로운 컴파일러입니다. 이 시스템은 머신러닝 컴파일러에서 영감을 받아, 배포 전에 전체 워크플로우 설계 공간을 전역적으로 탐색하여 다양한 정확도-지연 시간 트레이드오프를 아우르는 재사용 가능한 구성 세트를 구축합니다. FlowCompile은 각 서브 에이전트의 프로파일링과 구조 인식 프록시를 결합하여 단 한 번의 컴파일 타임 패스를 통해 워크플로우 수준의 성능을 예측하며, 기존 방법보다 우수한 속도 향상을 입증했습니다.

arXivAI 번역논문

RTLC -- Research, Teach-to-Learn, Critique: Feynman 학습 기법에서 영감을 받아 미세

본 글은 LLM 기반 평가 시스템의 한계를 극복하기 위해 'RTLC (Research, Teach-to-Learn, Critique)'라는 3단계 프롬프팅 레시피를 제안합니다. RTLC는 Feynman 학습 기법을 차용하여 입력에 교육적 스캐폴드를 적용하고, 여러 후보 판결(N=10)을 도출한 후, 자체 비판자 역할을 통해 최종적으로 하나의 정제된 판결을 내리는 방식입니다. 이 방법은 기존의 단일 샷 프롬프팅이나 자기 일관성 투표보다 JudgeBench-GPT와 같은 어려운 쌍체 비교 항목에서 높은 성능 향상을 보여주었습니다.

arXivAI 번역논문

조절 가능한 난이도와 안전성을 갖춘 소형 LLM의 지도 미세 조정 (Supervised Fine-Tuning)을 통한 아동용 영어 독서 스토리

본 연구는 대규모 언어 모델(LLMs)을 활용한 아동용 영어 스토리 생성의 교육적 한계점, 즉 높은 난이도와 운영 비용 문제를 해결하고자 합니다. 기존 전문가 커리큘럼과 GPT-4o 및 Llama 3.3 70B로 생성된 데이터를 사용하여 세 가지 소형 LLM(8B 파라미터)을 미세 조정하는 방법을 제안합니다. 이 방법론은 모델의 규모보다 '제어 가능성'에 초점을 맞추어, 교육자가 아동의 독서 수준과 안전성을 정밀하게 조절할 수 있는 저렴하고 효과적인 영어 스토리 생성 시스템을 구축했습니다.

arXivAI 번역논문

Senses Wide Shut: Omnimodal LLM에서의 표현-행동 간극 (Representation-Action Gap)

본 논문은 옴니모달 LLM이 감각 입력과 모순되는 텍스트 주장을 포착하는 '충돌 탐지' 능력을 측정하기 위해 IMAVB라는 새로운 영화 기반 벤치마크를 제안했습니다. 연구 결과, 모델들은 출력에서 거짓 주장을 거부하지 못하는 경향을 보였으며, 이는 내부 은닉 상태에는 전제-지각 불일치가 안정적으로 인코딩되어 있음을 보여주는 '표현-행동 간극(Representation-Action Gap)'이 존재함을 입증했습니다. 이 간극은 모델의 번역 단계에 병목 현상을 야기하며, 이를 개선하기 위한 초기 개입으로 Probe-guided logit adjustment (PGLA)가 제안되었습니다.

arXivAI 번역논문

훌륭한 에이전트적 친구는 단순히 말로만 조언하지 않는다: 그들은 당신의 가중치(Weights)를 업데이트할 수 있다

기존의 Multi-agent LLM 시스템은 자연어 메시지 교환에 의존하여 높은 비용과 오버헤드를 발생시킵니다. 본 논문에서는 송신자의 은닉 상태를 수신자 전용 가중치 섭동(weight perturbation)으로 컴파일하는 새로운 통신 인터페이스인 TFlow (Thought Flow)를 제안합니다. TFlow는 모델의 컨텍스트 확장이나 영구적인 변경 없이도 인스턴스 수준의 적응을 가능하게 하며, 실험 결과에 따르면 기존 텍스트 기반 방식 대비 정확도를 유지하면서 처리 토큰과 추론 시간을 크게 절감하는 효율성을 입증했습니다.

arXivAI 번역논문

초소형 규모에서의 Dense vs Sparse 사전 학습: Active-Parameter vs Total-Parameter 매칭

본 연구는 초소형 규모에서 Dense Transformer와 Mixture-of-Experts (MoE)를 비교하며, 파라미터 예산 설정 방식에 따른 성능 차이를 분석했습니다. 특히 활성 파라미터(active parameter) 매칭 조건에서는 MoE가 더 낮은 검증 손실을 달성하여 우위를 보였으나, 전체 파라미터(total parameter) 매칭 조건에서는 Dense 모델이 여전히 경쟁력을 유지하는 것으로 나타났습니다. 이는 초소형 환경에서 MoE의 이점이 활성 파라미터에 국한되며, 저장 용량 측면에서는 Dense 학습을 능가하기 어렵다는 것을 시사합니다.

arXivAI 번역논문

EVA-Bench: 음성 에이전트 평가를 위한 새로운 엔드투엔드 (End-to-end) 프레임워크

EVA-Bench는 음성 에이전트의 성능을 종합적으로 평가하기 위해 설계된 새로운 엔드투엔드(End-to-end) 프레임워크입니다. 이 프레임워크는 동적인 다회차 대화 시뮬레이션과 실제 음성 특유의 실패 모드를 모두 포괄하여 현실적인 평가 환경을 제공합니다. EVA-Bench는 태스크 완료, 충실도, 오디오 음성 충실도를 측정하는 EVA-A와 대화 진행, 간결성, 발화 타이밍을 측정하는 EVA-X라는 두 가지 복합 지표를 도입하여 에이전트 아키텍처 간의 비교 가능성을 높였습니다.

arXivAI 번역논문

추론은 어디에서 무너지는가? 은닉 상태 전송 기하학 (Hidden-State Transport Geometry)을 통한 단계별 환각 탐지

본 논문은 LLM이 다단계 추론 과정에서 발생하는 환각을 탐지하는 새로운 방법을 제시합니다. 기존 방식들이 전체 출력에 대한 단일 신뢰도 점수를 부여하거나 첫 오류를 국소화하는 데 실패했던 것과 달리, 이 방법은 환각을 '은닉 상태 궤적'의 기하학적 속성으로 정의합니다. 올바른 추론 과정은 안정적인 매니폴드를 따라 이동하며, 오류는 전송 비용이 국소적으로 벗어나는 현상으로 나타나며, 이를 단일 순전파로 첫 오류를 정확히 국소화할 수 있습니다.

arXivAI 번역논문

논증 재구성(Argument Reconstruction)을 위한 LLM 기반 시스템

본 연구는 자연어 텍스트로부터 추상적 논증 그래프를 재구성하기 위한 엔드 투 엔드(end-to-end) 대규모 언어 모델(LLM) 기반 시스템을 제시한다. 이 시스템은 다단계 파이프라인을 통해 논증 구성 요소(전제 및 결론)와 그들 간의 논리적 관계(지지, 공격, 언더컷)를 식별하고 유향 비순환 그래프(DAG)로 표현한다. 실험 결과, 본 시스템은 논증 구조를 효과적으로 복구하며 다양한 주석 체계에 걸쳐 합리적인 성능을 보여주어 확장 가능한 논증 재구성의 잠재력을 입증했다.

arXivAI 번역논문

부정 무시 (Negation Neglect): 모델이 학습 과정에서 부정을 학습하지 못할 때

본 기사는 LLM(Large Language Models)이 특정 주장이 거짓임을 경고하는 문서로 미세 조정될 때도 해당 주장을 사실로 오인하게 되는 '부정 무시(Negation Neglect)' 현상을 다룹니다. 이 현상은 모델이 문맥상으로 부정문을 인식함에도 불구하고, 주장 자체를 마치 사실처럼 받아들이는 문제를 보여줍니다. 실험 결과, 부정문 포함 여부가 모델의 믿음 비율에 큰 영향을 미치며, 이는 AI 안전 및 학습 과정에서의 근본적인 편향을 시사합니다.

arXivAI 번역논문

WARDEN: 6시간의 학습 데이터로 수행하는 멸종 위기 원주민 언어 전사 및 번역

본 논문은 학습 데이터가 극도로 부족한 호주의 멸종 위기 원주민 언어 Wardaman의 전사 및 번역 시스템인 WARDEN을 소개합니다. 기존의 대규모 통합 모델 방식으로는 처리하기 어려운 저자원(Low-resource) 환경에서, WARDEN은 별도의 음소 전사 모델과 영어 번역 모델로 구성된 2단계 아키텍처를 채택했습니다. 이 시스템은 Sundanese 언어로부터 토큰을 초기화하고 도메인 특화 지식을 활용하는 방식으로 성능을 극대화하여, 단 6시간의 데이터만으로도 강력한 결과를 달성합니다.

arXivAI 번역논문

Plug-and-Play 속성 제어 텍스트 생성을 위한 QLoRA PEFT 모듈의 출력 결합성 (Output Composability)

본 논문은 기존 PEFT(Parameter-efficient fine-tuning) 방식이 새로운 작업 조합에 대응하기 위해 매번 별도의 미세 조정이 필요하다는 한계를 지적하고, 이를 극복할 세 가지 일반화 방법을 탐구합니다. 특히, 추론 시 개별적으로 학습된 PEFT 모듈의 출력을 결합하는 방법(Output Composability)을 제안하며, 이는 다른 접근 방식들보다 일관되게 우수한 성능을 보여줍니다. 이 방법은 감성 제어와 같은 다중 속성 제어에서 평균 2% 포인트의 성능 향상을 입증했습니다.

arXivAI 번역논문

Large Language Models에서의 확장 가능한 토큰 수준 환각 탐지 (Scalable Token-Level Hallucination

본 논문은 LLM이 생성하는 환각(hallucinations) 문제를 해결하기 위해 TokenHD라는 통합 파이프라인을 제안합니다. 기존의 단계별 분석 방식은 낮은 입도와 확장성 문제에 직면해 있었으나, TokenHD는 대규모 합성 주석 엔진과 중요도 가중치 전략을 통해 토큰 수준에서 환각을 탐지할 수 있습니다. 이 방법론은 자유 형식 텍스트에서 직접 작동하며, 작은 규모의 탐지기만으로도 큰 추론 모델에 필적하는 높은 성능과 뛰어난 확장성을 입증했습니다.

arXivAI 번역논문

Action Guidance로부터 Agentic Policy 학습하기

본 논문은 LLM 기반 에이전트 강화학습(Agentic RL)에서 기본 정책의 탐색 한계를 극복하기 위해 ActGuide-RL을 제안합니다. 이 방법은 값비싼 SFT 대신 일상적인 인간 상호작용 데이터에서 얻은 액션 데이터를 '계획 스타일 참조 가이드'로 활용하여, 에이전트가 보상 상태에 도달하는 데 필요한 외부 안내를 제공합니다. ActGuide-RL은 가이드와 비가이드를 혼합 학습하고 최소 개입 원칙을 적용함으로써, 오프-폴리시 리스크를 줄이고 검색 에이전트 벤치마크에서 높은 성능 향상을 입증했습니다.

arXivAI 번역논문

SAGE: LLM 지식 평가를 위한 확장 가능한 자동화된 강건성 증강 (Scalable Automated Robustness

LLMs는 표준 지식 평가에서 강점을 보이지만, 질문 변형에 취약하다는 문제가 있습니다. 이에 본 논문은 확장 가능한 자동화된 강건성 증강 프레임워크인 SAGE(Scalable Automated Generation of Robustness BEnchmarks)를 제안합니다. SAGE는 루브릭 기반 검증기 VariantQual과 강화 학습을 통해 최적화된 변형 생성기 VariantGen으로 구성되어, 낮은 비용으로 고품질의 대규모 강건성 증강 벤치마크 구축이 가능함을 입증했습니다.

arXivAI 번역논문

저자원 언어를 위한 수어 인식 및 번역: 과제와 향후 경로

본 체계적 검토는 아제르바이잔 수어(AzSL)를 사례 연구로 삼아, 자원이 부족한 수어 언어를 위한 인식 및 번역 기술 문헌을 종합합니다. 이 글은 커뮤니티 공동 설계, 방언 다양성 포착 등 8가지 실행 가능한 교훈과 함께 세 가지 주요 패러다임 전환(데이터 중심 AI, 사용자 적응형 시스템, 작업 특정적 평가)을 제안합니다. 궁극적으로 기술 로드맵은 경량화된 아키텍처와 오프라인 배포를 포함하며, 문화적 진정성과 윤리적 거버넌스를 위해 청각 장애인 커뮤니티 중심의 협력이 필수적임을 강조합니다.

이전13 / 42전체 42페이지 중 13페이지다음