본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터arXiv cs.CL836건

arXivAI 번역논문

Grep만 있으면 충분할까? Agent Harness가 Agentic Search를 어떻게 재편하는가

본 논문은 LLM 에이전트 워크플로우에서 검색 전략(grep vs. 벡터 검색)의 선택이 에이전트 아키텍처 및 도구 호출 방식과 어떻게 상호작용하는지 실증적으로 분석합니다. 실험 1에서는 커스텀 하네스와 제공자 CLI를 사용하여 grep과 벡터 검색을 비교했으며, 모델이 인라인 또는 파일 기반으로 도구 결과를 받는 경우 모두에서 grep이 일반적으로 더 높은 정확도를 보였습니다. 또한, 전체 성능은 사용되는 에이전트 하네스와 도구 호출 스타일에 크게 의존함을 보여줍니다.

arXivAI 번역논문

FutureSim: 적응형 에이전트(Adaptive Agents)를 평가하기 위한 세계 사건 재현

FutureSim은 AI 에이전트가 새로운 정보에 적응해야 하는 역동적이고 개방적인 환경에서 그 능력을 평가하기 위해 설계된 근거 기반 시뮬레이션입니다. 이 시스템은 실제 세계의 사건들을 시간 순서대로 재현하며, 에이전트들이 지식 차단 시점 이후의 세계 사건을 예측하고 연대기적 정보와 상호작용하는 능력을 테스트합니다. 연구 결과, FutureSim은 장기적인 개방형 적응 능력과 불확실성 추론 등 신흥 AI 연구 방향을 탐구할 수 있는 현실적인 벤치마크 환경을 제공함을 입증했습니다.

arXivAI 번역논문

ATLAS: 에이전트 방식인가 아니면 잠재적 시각적 추론인가? 둘 모두를 위해 단 한 단어면 충분하다

본 기사는 중간 시각적 상태와 시각적 추론 분야의 두 가지 유망한 접근 방식인 에이전트 방식과 잠재적 추론의 한계를 극복하는 ATLAS 프레임워크를 제안합니다. ATLAS는 '기능적 토큰'이라는 단일 이산적 단어를 사용하여 에이전트 작업과 잠재적 시각적 추론 역할을 모두 수행할 수 있게 합니다. 이를 통해 복잡한 중간 시각 콘텐츠 생성 없이도 기존 학습 방식과의 호환성을 유지하며 성능을 향상시킵니다.

arXivAI 번역논문

제한된 상호작용을 통한 Text-Tabular 모델링 기반 AI Agent의 의사결정 예측

본 연구는 AI 에이전트가 제한된 상호작용 횟수만으로 상대방의 다음 의사결정을 예측하는 방법을 탐구합니다. 이를 위해 협상 및 흥정 게임을 '타겟 적응형 텍스트-테이블 예측' 문제로 정식화했습니다. 제안된 모델은 테이블 파운데이션 모델에 LLM-as-Observer라는 새로운 특징 추출 방식을 결합하여, 소형 동결 LLM의 은닉 상태를 의사결정 지향적 특징으로 활용합니다. 실험 결과, 이 Observer 특징이 기존 방식보다 우수한 성능을 보여 상대방의 숨겨진 의사결정 신호를 효과적으로 포착할 수 있음을 입증했습니다.

arXivAI 번역논문

루프 해결하기: 언어 및 추론을 위한 Attractor Models

Attractor Models는 기존 Transformer의 한계를 극복하고 언어 모델링 및 추론 능력을 향상시키는 새로운 접근 방식입니다. 이 모델은 백본 모듈이 제안한 출력 임베딩을 Attractor 모듈이 암시적 미분(implicit differentiation)을 통해 얻은 그래디언트를 사용하여 고정점(fixed point)으로 정제합니다. 그 결과, 학습 메모리는 유효 깊이에 관계없이 일정하게 유지되며, 반복 횟수는 수렴에 따라 적응적으로 결정됩니다. 실험적으로 Attractor Models는 대규모 언어 모델 사전 학습과 소형 모델을 이용한 추론 모두에서 기존의 표준 Transformer 및 루프 구조를 능가하는 성능을 보여주었습니다. 특히, 작은 규모임에도 불구하고 까다로운 추론 작업에서 높은 정확도를 달성하며, 프런티어 모델들이 실패하는 영역에서도 강력함을 입증했습니다.

arXivAI 번역논문

PRISM-X: 인간 및 시뮬레이션 사용자를 활용한 개인화된 미세 조정 (Personalised Fine-Tuning) 실험

본 연구는 대규모 피험자 내 실험을 통해 개인화된 언어 모델과 일반 모델을 비교 평가했습니다. 그 결과, 선호도 미세 조정(P-DPO)은 일반 모델 및 개인화 프롬프팅 모두를 유의미하게 능가하는 성능을 보였습니다. 그러나 개인의 선호도 데이터에 적응시키는 것은 다양한 인구 집단의 통합된 선호도로 학습하는 것에 비해 큰 이득이 없는 것으로 나타났습니다. 또한, 미세 조정은 아첨이나 관계 지향적 행동 같은 단기적인 편향을 증폭시켜 장기적으로 해로울 수 있으며, 시뮬레이터는 인간의 복잡한 판단과 피드백 역학을 재현하는 데 한계가 있음을 보여주었습니다.

arXivAI 번역논문

CANTANTE: 대조적 신용 할당 (Contrastive Credit Attribution)을 통한 에이전트 시스템 최적화

본 논문은 LLM 기반 멀티 에이전트 시스템의 최적화 문제를 근본적인 '신용 할당(credit-assignment)' 문제로 정의하고, 이를 해결하기 위한 프레임워크인 CANTANTE를 제안합니다. CANTANTE는 동일한 쿼리에 대해 여러 결합 구성의 롤아웃을 대조하여, 시스템 수준의 보상을 개별 에이전트별 업데이트 신호로 분해하는 방식을 사용합니다. 이 방법은 프로그래밍(MBPP), 수학적 추론(GSM8K), 멀티홉 질의응답(HotpotQA) 등 다양한 벤치마크에서 기존 최적화 도구 대비 높은 성능 향상과 낮은 추론 비용을 입증했습니다.

arXivAI 번역논문

무엇이 시각-언어 내비게이션 (Vision-and-Language Navigation)을 제한하는가?

본 논문은 시각-언어 내비게이션(VLN)의 성능 저하 원인을 지각적 불안정성과 공간적 접지 부족에서 찾고, 이를 해결하기 위해 StereoNav이라는 견고한 Vision-Language-Action 프레임워크를 제안합니다. StereoNav은 목표 위치 사전 지식(Target-Location Priors)을 도입하여 도메인 전반에 걸쳐 안정적인 시각적 가이드를 제공하며, 스테레오 비전과 깊이 인식을 활용해 모션 블러 및 조명 변화 같은 시각적 방해 요소를 완화합니다. 실험 결과, StereoNav은 적은 파라미터와 데이터로도 최첨단 성능을 달성했으며, 실제 로봇 배포를 통해 내비게이션 신뢰성을 크게 향상시켰습니다.

arXivAI 번역논문

단순하고 통합된 스케일링을 통한 올림피아드 수준의 금메달급 추론 달성

본 논문은 사후 학습된 추론 백본을 올림피아드 수준의 문제 해결사로 변환하는 단순하고 통합적인 레시피를 제시합니다. 이 방법론은 역-퍼플렉시티 커리큘럼을 사용한 SFT와 검증 가능한 보상을 활용하는 2단계 RL 파이프라인을 통해 증명 탐색 및 자기 점검 능력을 주입하며, 테스트 시간 스케일링으로 성능을 극대화합니다. 이 레시피를 적용한 SU-01 모델은 수학 및 물리 올림피아드 대회에서 금메달 수준의 추론 성능과 강력한 일반화 능력을 입증했습니다.

arXivAI 번역논문

LLM 사전 학습을 통한 페르소나 벡터 (Persona Vectors) 추적

본 논문은 LLM 내부에서 '악함'이나 '아첨' 같은 특정 특성을 나타내는 '페르소나 벡터(persona vectors)'를 추적하고 그 형성 과정을 분석합니다. 연구진은 OLMo-3-7B의 사전 학습 과정 전반에 걸쳐 이 벡터들을 추적한 결과, 페르소나 벡터가 매우 초기 단계인 OLMo-3 사전 학습 초기에 이미 형성되며 사후 학습을 거친 지시 모델에서도 효과적으로 유지됨을 발견했습니다. 또한, 다양한 유도 전략들이 각기 다른 질적인 측면의 페르소나를 드러냄을 확인하고, 이 표현이 초기 사전 학습에서 안정적으로 형성되는 핵심 특징임을 입증했습니다.

arXivAI 번역논문

FIND: 인도 언어들을 위한 멀티모달 금융 추론 및 질의응답을 향하여

본 기사는 인도 언어 환경에서의 금융 의사결정 및 수치 추론의 어려움을 다루며, 이를 평가하기 위한 새로운 벤치마크 FinVQA를 소개합니다. FinVQA는 영어, 힌디어, 벵골어 등 여러 인도 언어를 포함하며, 다양한 금융 도메인과 네 가지 질문 형식으로 구성된 18,900개의 샘플을 제공합니다. 또한, 이 문제를 해결하기 위해 충실한 수치 추론, 멀티모달 그라운딩, 구조화된 의사결정을 결합한 FIND 프레임워크를 제안하여 평가 및 모델링 패러다임을 구축했습니다.

arXivAI 번역논문

LLM 기반 설득이 Frontier LLM의 가드레일 우회를 가능하게 함

본 논문은 강력한 가드레일을 갖춘 Frontier LLM들이 특정 민감 주제에 대한 요청을 거부하는 현상을 분석했습니다. 연구진은 '논쟁적인 에세이 작성'이라는 대화 시뮬레이션을 통해, 오직 자연어 압박(natural-language pressure)만을 사용하여 다른 Frontier급 LLM들로 하여금 이러한 금지된 콘텐츠를 생성하도록 설득할 수 있음을 입증했습니다. 이 과정에서 동료 비교 설득이나 인식적 의무 재구성 같은 다양한 논쟁적 수법들이 효과적인 것으로 나타났습니다.

arXivAI 번역논문

언어 모델(Language Models) 내 페르소나 의존적 선호도(Persona-Dependent Preferences) 조사

본 기사는 대규모 언어 모델(LLMs)이 특정 작업과 출력을 선호하는 '선호도'를 가지며, 이 선호도가 사후 학습 및 시스템 프롬프트에 의해 형성됨을 탐구합니다. 연구진은 Gemma-3-27B와 Qwen-3.5-122B 모델의 잔차 스트림 활성화에 선형 프로브를 적용하여 '선호도 벡터'를 식별했습니다. 이 벡터는 다양한 페르소나 전반에 걸쳐 공유되는 핵심 표현으로, 이를 통해 특정 페르소나의 선택을 인과적으로 제어(steering)할 수 있음을 입증했습니다.

arXivAI 번역논문

Sequence-to-Sequence 구구조 구문 분석을 위한 사전 학습된 Encoder-Decoder Transformer 활용

본 논문은 심층적인 자연어 이해를 위해 중요한 구구조 구문 분석(Syntactic Constituent Parsing)에 대해, 기존의 작업 특화형 파서를 넘어선 시퀀스 투 시퀀스 프레임워크를 제안합니다. 특히 BART, mBART, T5와 같은 사전 학습된 Encoder-Decoder 아키텍처를 활용하여 이 분야의 격차를 해소하고자 합니다. 연구진은 이러한 모델들을 선형화된 구문 트리 생성에 미세 조정하고, 다양한 벤치마크에서 평가한 결과, 제안된 접근 방식이 기존 시퀀스 투 시퀀스 모델보다 우수하며 최신 작업 특화형 파서와 경쟁할 만한 성능을 보임을 입증했습니다.

arXivAI 번역논문

LLM Refinement은 실제로 무엇을 개선하는가? 문서 수준의 문학 번역에 대한 체계적 연구

본 논문은 문서 규모의 문학 번역에 대한 반복적인 자기 개선(Iterative self-refinement) 전략을 체계적으로 연구합니다. 9개의 LLM과 7개 언어 쌍을 대상으로 실험한 결과, 가장 효과적이고 안정적인 향상을 가져오는 방법은 문서 수준 MT 후 세그먼트 수준의 개선을 적용하는 것임을 발견했습니다. 또한, 오류 특정 프롬프트보다 단순하고 일반적인 개선 프롬프트가 일관되게 우수하며, 개선으로 인한 이득은 주로 유창성, 스타일, 용어에서 나타나고 적절성에서의 개선은 제한적이라는 결론을 제시합니다.

arXivAI 번역논문

Phasor Memory Networks: 확장 가능한 명시적 메모리를 위한 안정적인 BPTT (Backpropagation Through

본 연구는 명시적 메모리 아키텍처의 오랜 난제였던 BPTT 과정 중 발생하는 그래디언트 불안정성 문제를 해결하기 위해 Phasor Memory Network (PMNet)을 제안합니다. PMNet은 복소 단위 원 상의 위상 회전을 통해 순환 상태 업데이트를 제한함으로써, 특수한 초기화 없이도 그래디언트 노름을 보존하고 발산을 본질적으로 방지합니다. 이 모델은 확장된 계층적 메모리 트리를 활용하여 장거리 의존성 검색에서 높은 정확도를 달성하며, 소형 크기에도 불구하고 대규모 모델과 동등한 롱 컨텍스트 강건성을 입증했습니다.

arXivAI 번역논문

Rosetta에서 Match-Up까지: 인간 및 LLM 벤치마크를 포함한 언어 퍼즐 쌍 코퍼스

본 논문은 고등학교 언어학 경시대회에서 사용되는 Rosetta Stone 및 Match-Up 형식의 언어 퍼즐 쌍 코퍼스를 구축하는 방법을 제시합니다. 기존 Rosetta Stone 퍼즐을 대응하는 Match-Up 형태로 변환하는 체계적인 절차를 제안하여, 새로운 퍼즐 생성 과정을 가속화합니다. 연구진은 이 쌍으로 이루어진 데이터셋을 인간 참가자와 대규모 언어 모델(LLMs) 모두에게 평가했으며, 해결사들은 전형적으로 '전부 아니면 전무' 패턴을 보인다는 것을 발견했습니다.

arXivAI 번역논문

외부화된 공격-방어 공동 진화를 통한 모델 불가지론적 평생 LLM 안전성 (Model-Agnostic Lifelong LLM Safety

본 논문은 LLM이 적대적 프롬프트에 취약하다는 문제점을 해결하기 위해 EvoSafety라는 새로운 안전성 프레임워크를 제안합니다. 기존의 폐쇄적인 안전 패러다임과 달리, EvoSafety는 외부 구조를 중심으로 구축되어 지속 가능하고 재사용 가능한 공격 및 방어 메커니즘을 제공합니다. 특히, 적대적 기술 라이브러리를 통해 포화 이후에도 취약점 조사가 가능하며, 메모리 검색으로 증강된 경량 보조 모델을 사용하여 모델 불가지론적인 안전성 향상과 강건성을 확보했습니다.

arXivAI 번역논문

덴마크 망명 결정의 신뢰성 평가를 위한 주석가로서의 LLMs: 분류 성능 및 집계 지표를 넘어선 오류 평가

본 연구는 법률 NLP 태스크인 망명 결정 텍스트 내 신뢰성 평가 및 감정 식별을 위한 LLM 기반 주석 작업을 조사합니다. 특히, 고품질의 전문가 주석과 메타데이터를 갖춘 덴마크어 데이터셋 RAB-Cred를 소개하고, 다양한 open-weight 모델과 프롬프트 조합을 사용하여 zero-shot 및 few-shot 분류 성능을 체계적으로 평가했습니다. 연구는 단순히 분류 성능 지표를 넘어 LLM이 범하는 오류의 일관성, 클래스 혼동 패턴, 그리고 인간 신뢰도와의 상관관계 등 심층적인 오류 분석에 초점을 맞추어, LLMs 활용의 잠재력과 한계를 동시에 제시합니다.

arXivAI 번역논문

LIFT: 테이블 명시화를 위한 라스트 마일 미세 조정 (Last-Mile Fine-Tuning)

Lift는 사전 학습된 LLM이 비정형 텍스트에서 초기 테이블을 추출하고, 미세 조정된 SLM이 이 테이블의 오류를 수정하는 '라스트 마일 미세 조정(last-mile fine-tuning)' 파이프라인입니다. 이 접근 방식은 단 1,000개의 학습 예시만으로도 기존 엔드 투 엔드 미세 조정보다 높은 성능을 보여주었으며, 특히 입력 형식의 가변성에 대한 견고성을 입증했습니다.

이전11 / 42전체 42페이지 중 11페이지다음