본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터arXiv cs.AI2770건

arXivAI 번역논문

MOT-SR: 대규모 언어 모델(LLM)을 활용한 다중 목적 도구 증강 과학 방정식 발견

MOT-SR은 LLM과 외부 분석 도구를 결합하여 과학적 방정식을 발견하는 새로운 프레임워크입니다. 정확도, 복잡성, 일반화를 동시에 최적화하는 다중 목적 평가를 통해 기존 기호 회귀 모델의 한계를 극복했습니다.

llmsymbolic-regressionmulti-objective-optimizationscientific-discovery

arXivAI 번역논문

AMTFV: LLM 자기 수정(Self-Correction)을 위한 에이전트 기반 수학적 도구 흐름 검증

LLM의 수학적 문제 해결 신뢰성을 높이기 위해 에이전트 기반의 수학적 도구 흐름 검증 방식인 AMTFV를 제안합니다. 검증 모델링과 실행을 분리하여 정확한 계산을 지원하며, DeepSeek, GPT, Gemini 등 다양한 모델에서 기존 베이스라인보다 높은 성능을 입증했습니다.

arXivAI 번역논문

FriendBench: 인간과 멀티모달 거대 언어 모델(Multimodal Large Language Models)의 이자 관계 친밀도 추론

멀티모달 거대 언어 모델(MLLM)이 대화 클립을 통해 두 사람의 친밀도를 추론하는 능력을 평가하는 새로운 벤치마크 FriendBench를 소개합니다. 26개 모델을 대상으로 텍스트, 오디오, 비디오 모달리티를 분석하여 인간과 모델의 추론 방식 차이를 규명했습니다.

arXivAI 번역논문

DungeonBench: Dungeons & Dragons 전투에서의 규칙 중심 전술적 추론을 위한 벤치마크

Dungeons & Dragons 전투를 활용하여 규칙 중심의 전술적 추론 능력을 평가하는 새로운 벤치마크인 DungeonBench를 소개합니다. 이 벤치마크는 단순한 전투를 넘어 자원 관리와 장기적인 생존 전략을 포함한 복잡한 의사결정 능력을 테스트합니다.

arXivAI 번역논문

AgentHPOBench: 순차적 하이퍼파라미터 최적화 도구로서의 LLM 에이전트 평가를 위한 벤치마크

LLM 에이전트의 순차적 하이퍼파라미터 최적화(HPO) 능력을 평가하기 위한 새로운 벤치마크인 AgentHPOBench를 소개합니다. 30개의 머신러닝 태스크를 통해 에이전트가 실험 로그를 해석하고 후속 설정을 제안하는 능력을 측정합니다.

arXivAI 번역논문

설명 가능성-성능 계수(Explainability-Performance Coefficient)에 대한 인간 중심적 검증

딥러닝 모델의 설명 충실도를 객관적으로 평가하기 위해 설명 가능성-성능 계수(EPC)를 제안합니다. EPC는 특징 선택 희소성과 모델 성능 간의 트레이드오프를 정량화하며, 다양한 모달리티에서 인간의 판단과 높은 일치성을 보임을 입증했습니다.

arXivAI 번역논문

TraceViT: 시각적 추상 추론을 위한 근거 기반 추적 감독 (Grounded Trace Supervision)

TraceViT는 ARC 벤치마크를 위해 제안된 루프형 시각적 추론 모델로, 중간 단계의 변환 과정을 단계별로 감독하는 '추적 감독(Trace Supervision)' 방식을 사용합니다. 의미론적으로 단조로운 변환 체인을 통해 모델이 논리적인 추론 단계를 밟도록 유도하며, ARC-AGI-1에서 높은 성능을 입증했습니다.

arXivAI 번역논문

온폴리(On-Policy) 상호작용은 언제 도움이 되는가? 가치 기반 모방 학습(Value-Based Imitation Learning)에서의

본 연구는 가치 기반 모방 학습(Value-Based Imitation Learning)에서 전문가와의 온폴리(On-Policy) 상호작용이 미치는 영향을 분석합니다. 상호작용을 통해 학습자의 표현력 요구 사항을 완화하고 전문가의 가치 함수를 효율적으로 실현할 수 있음을 입증합니다.

arXivAI 번역논문

CENDRe: 자연 도메인 표현을 활용한 개념 추출 (Concept Extraction)

CENDRe는 CNN 기반 시계열 데이터의 개념 추출(Concept Extraction)을 위한 새로운 방법론을 제안합니다. 기존 방식의 한계인 주파수 특징 간과, 개념 수 정의 문제, 국소화 불일치를 해결하여 시간 및 주파수 도메인 모두에서 정확한 패턴을 식별합니다.

arXivAI 번역논문

로컬 컴퓨터 사용 에이전트(Computer-Use Agents)의 추론 시간 스케일링(Inference-Time Scaling) 재고: 실패

로컬 환경에서 컴퓨터 사용 에이전트(CUA)의 추론 시간 스케일링 효과를 체계적으로 분석한 연구입니다. 문맥적, 시간적, 구조적, 병렬적 스케일링이 로컬 모델의 성능 향상에 미치는 한계와 수확 체감 현상을 실증적으로 규명했습니다.

arXivAI 번역논문

DualG-MRAG: 멀티모달 검색 증강 생성 (Multimodal RAG)을 위한 거시적 추론(Macro-Reasoning)과 미시적

멀티모달 RAG의 복잡한 멀티홉 추론 문제를 해결하기 위해 거시적 추론과 미시적 매칭을 분리한 DualG-MRAG 프레임워크를 제안합니다. 이 모델은 그래프 구조를 활용해 검색 노이즈를 줄이고 정밀한 증거 매칭을 수행합니다.

arXivAI 번역논문

OSReward: 교차 플랫폼 컴퓨터 사용 보상 모델을 위한 표준화된 평가 체계 구축

컴퓨터 사용 에이전트(CUA)의 성능을 평가하기 위한 표준화된 벤치마크인 OSReward를 제안합니다. VLM 판사의 신뢰성을 분석하고, 저비용으로 고성능 보상 신호를 제공하는 오픈 보상 모델 OS-Shepherd를 공개합니다.

arXivAI 번역논문

PAIChecker: SWE-bench 유사 벤치마크에서의 PR-Issue 불일치 발견 및 검증

SWE-bench 유사 벤치마크에서 PR과 이슈 간의 불일치 문제를 분석하고, 이를 검증하기 위한 멀티 에이전트 시스템인 PAIChecker를 제안합니다. 연구 결과, 벤치마크 인스턴스의 약 13.6%에서 불일치가 발견되었으며 PAIChecker는 높은 정확도로 이를 탐지합니다.

arXivAI 번역논문

AISPA: 대규모 언어 모델(LLM) 애플리케이션을 위한 사용자 중심 시스템 프롬프트 감사

LLM 애플리케이션의 시스템 프롬프트를 체계적으로 감사하기 위한 사용자 중심 프레임워크 AISPA를 제안합니다. 88개 상용 AI 제품의 프롬프트를 분석하여 보호적 지침과 문제적 지침의 현황 및 격차를 규명했습니다.

arXivAI 번역논문

PAC-MAN: 휴머노이드 피구의 전신 안전을 위한 인지 인식형 CBF-RL

휴머노이드의 전신 피구 동작을 위해 인지 인식형 CBF-RL 프레임워크인 PAC-MAN을 제안합니다. 온보드 카메라의 세그멘테이션 정보만으로 공을 인식하며, 제어 장벽 함수(CBF)와 적대적 동작 사전을 결합해 안전한 회피 반사를 구현합니다.

arXivAI 번역논문

MonoVoc: 경량 단안 오픈 보캐블러리(Open-Vocabulary) 3D 가우시안을 위한 기하학(Geometry)과

MonoVoc는 3D 기하학적 재구성과 의미론적 통합을 분리하여 메모리 효율을 극대화한 새로운 3D 가우시안 파이프라인을 제안합니다. 단안 비디오를 통해 경량화된 객체 수준의 의미론적 가우시안 맵을 생성하며, 기존 방식 대비 메모리 사용량을 10배 이상 절감합니다.

arXivAI 번역논문

Theia: Data-Free Distillation을 위한 Incidents1M 데이터셋의 대규모 멀티모달 캡셔닝 및 자동 검증

재난 관리 도메인을 위한 대규모 멀티모달 데이터셋 구축 및 자동 검증 방법론을 제안합니다. Incidents1M 데이터셋에 Qwen3.5를 활용해 고품질 캡션을 생성하고, 이미지-맹목적 LLM-as-a-Judge 파이프라인으로 데이터 없는 지식 증류(DFKD)를 위한 검증 체계를 구축했습니다.

arXivAI 번역논문

MemHarness: 기억은 재생되는 것이 아니라 재구성된다

기존의 정적인 메모리 재생 방식 대신, 현재 컨텍스트에 맞춰 과거 경험을 재구성하는 LLM 에이전트 프레임워크 MemHarness를 제안합니다. GRPO를 통한 엔드 투 엔드 학습으로 부정적 전이를 방지하고 추론 능력을 향상시킵니다.

arXivAI 번역논문

ObjectStream: 스트리밍 비디오 이해를 위한 메모리 앵커로서의 잠재 객체 (Latent Objects)

ObjectStream은 스트리밍 비디오 이해를 위해 잠재 객체(Latent Objects)를 메모리 앵커로 활용하는 training-free 프레임워크입니다. 동결된 Video-LLM에서 객체를 직접 유도하여 메모리 효율성을 높이면서도 객체의 정체성과 상태 변화를 효과적으로 추론합니다.

arXivAI 번역논문

Tycho: ARC-AGI-3를 위한 프로그래밍 방식 월드 모델을 활용한 능동적 추상화 (Active Abstraction)

ARC-AGI-3 환경에서 프로그래밍 방식의 월드 모델을 활용해 능동적 추상화를 수행하는 코딩 에이전트 시스템 Tycho를 소개합니다. Tycho는 관찰 데이터를 구조화하여 가설을 모델링하고 테스트하며, 모델의 구축과 수리 시점을 결정하는 능동적 추상화 과정을 통해 높은 효율성을 달성합니다.

1 / 139전체 139페이지 중 1페이지다음