본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터arXiv cs.AI2770건

arXivAI 번역논문

하나의 인간, $N$개의 에이전트: 부정확하고 상관관계가 있는 신뢰도 하의 LLM 에이전트 함대를 위한 감사 예산 할당

제한된 감사 예산 하에서 다수의 LLM 에이전트를 효율적으로 검증하기 위한 수학적 모델을 제안합니다. 에이전트의 신뢰도가 부정확하거나 오류 간 상관관계가 존재할 때, 신뢰도 기반 감사가 무작위 감사보다 비효율적이게 되는 임계값을 분석합니다.

arXivAI 번역논문

진실을 알지 못해도 정직함에 비용을 지불하기: LLM 마켓플레이스 에이전트를 위한 평판 페널티 설계

LLM 에이전트 상인이 이익을 위해 제품 속성을 조작하는 문제를 해결하기 위해, 실제 진실(ground truth) 없이도 작동하는 평판 페널티 메커니즘인 CARP를 제안합니다. CARP는 정직한 판매자를 보호하면서 거짓말하는 에이전트의 판매량을 억제하여 소비자 후생을 극대화합니다.

arXivAI 번역논문

PathView-Bench: 멀티모달 거대 언어 모델(MLLM)이 병리 이미지의 미세한 다중 스케일 이해를 달성할 수 있는가?

병리 이미지 분석을 위한 MLLM의 다중 스케일 시각적 이해 능력을 평가하는 새로운 벤치마크 PathVU를 소개합니다. 기존 벤치마크의 한계를 넘어 영역 국소화, 시각적 인식, 공간 추론 등 미세한 분석 능력을 정밀하게 측정합니다.

arXivAI 번역논문

보이지 않는 것을 교정하기: 멀티모달 추론기(Multimodal Reasoners)의 인지 증류(Perception Distillation)를

멀티모달 추론기의 인지 실패와 추론 오류를 구분하기 어려운 문제를 해결하기 위해 Perception-Correction Distillation(PCD) 기법을 제안합니다. PCD는 하류 실패와 교사-학생 불일치를 결합하여 인지적 오류가 발생한 시점을 정밀하게 식별하고 증류를 강화합니다.

arXivAI 번역논문

AgentMap: 온톨로지 매칭을 위한 동치 및 하위 포함 관계 공동 발견

AgentMap은 온톨로지 매칭에서 동치 관계와 하위 포함 관계를 동시에 발견하는 하이브리드 온톨로지 매칭(HOM) 프레임워크를 제안합니다. LLM 기반의 멀티 에이전트 시스템을 활용하여 의미론적 검색과 계층적 탐색을 수행하며, 기존 베이스라인을 능가하는 성능을 입증했습니다.

arXivAI 번역논문

불균형한 고위험 의사결정 지원을 위한 비용 민감적 컨포멀 예측(Cost-Sensitive Conformal Prediction) 및 인간

고위험 의사결정 시스템에서 클래스 불균형과 비대칭적 오류 비용 문제를 해결하기 위한 컨포멀 예측(CP) 연구를 다룹니다. Mondrian CP를 활용해 소수 클래스의 커버리지를 개선하고, 인간 검토 예산 내에서 기대 비용을 최소화하는 방안을 제시합니다.

arXivAI 번역논문

DLAM: 시간적 제약 조건을 갖춘 분포적 잠재 행동 (Distributional Latent Actions with Temporal

DLAM은 시각-언어-행동(VLA) 모델의 데이터 부족 문제를 해결하기 위해 비디오에서 분포적 잠재 행동을 추출하는 새로운 모델입니다. 각 전이를 가우시안 분포로 표현하여 시간적 일관성을 높이고, 재귀적 합성 과정에서의 오차 누적을 방지합니다.

arXivAI 번역논문

OmegaUse-OfficeVal: 경제적 근거를 바탕으로 한 장기적 오피스 스위트 작업에서의 LLM 에이전트 벤치마킹

LLM 에이전트의 오피스 스위트 작업 수행 능력을 경제적 관점에서 평가하는 새로운 벤치마크 OmegaUse-OfficeVal을 소개합니다. 인간의 노동 시간과 비용을 기준으로 에이전트의 효율성과 가치를 측정하며, 오픈 소스로 공개되었습니다.

arXivAI 번역논문

CT 파운데이션 모델의 해부학적 맥락화 적응 (Anatomy Contextualized Adaptation)

CT 시각-언어 파운데이션 모델의 해부학적 맥락을 강화하기 위한 경량 프레임워크 ACA를 소개합니다. ACA는 기존 모델을 동결한 상태에서 해부학적 수준의 정렬을 수행하여 전역적 맥락을 보존하면서도 높은 효율성을 보여줍니다.

arXivAI 번역논문

APEX-Accounting

Mercor와 Ramp가 협력하여 개발한 APEX-Accounting 벤치마크를 소개합니다. 이 벤치마크는 프론티어 모델이 계정 조정, 비용 발생 등 실제 회계 업무를 수행할 수 있는 능력을 평가합니다.

arXivAI 번역논문

AI 에이전트가 개방형 AI 연구를 수행할 수 있는가? 두 가지 사례 연구를 통한 초기 증거

AI 에이전트가 개방형 AI 연구를 자동화할 수 있는지 검증하기 위해 '섀도우 평가'라는 새로운 방법론을 제안합니다. NeurIPS 제출 논문을 대상으로 실험한 결과, 에이전트가 엔지니어링 작업은 수행할 수 있으나 연구의 핵심 질문을 해결하는 데는 한계가 있음을 확인했습니다.

arXivAI 번역논문

임시 팀워크(Ad-Hoc Teamwork)에서의 태스크 불가지론적 적응을 위한 파트너 능력 추정

자율 에이전트가 파트너의 숨겨진 능력을 추정하여 임시 팀워크(AHT) 환경에서 효과적으로 협업할 수 있도록 돕는 CE-CM 방법론을 제안합니다. 이 방식은 태스크 불가지론적 능력 벡터를 추론하여 멀티 태스크 환경에서도 온라인으로 신념을 정교화하며, 인간의 행동 다양성을 고려한 CE-CM-Div를 통해 협업 성능을 높였습니다.

arXivAI 번역논문

관련 의도 생성을 통한 이커머스 검색 내 아이템 발견 가능성 개선

이커머스 검색에서 사용자의 암시적 의도를 생성하여 아이템 발견 가능성을 높이는 '발견 증강 검색' 시스템을 제안합니다. 2단계 하이브리드 아키텍처를 통해 LLM의 품질과 소형 언어 모델(SLM)의 효율성을 결합하여 비용 문제를 해결했습니다.

arXivAI 번역논문

AI 팀원의 사회적 비용: 인공 팀원이 소규모 팀 의사결정 시 인간 간의 의사소통을 어떻게 재편하는가

AI 팀원이 소규모 팀의 의사결정 과정에서 인간 간의 의사소통 역학을 어떻게 변화시키는지 연구했습니다. AI는 대화에서 높은 점유율을 보이지만 정보 기여도는 낮았으며, 인간 팀원 간의 반응성과 사회적 영향력을 감소시키는 사회적 비용을 발생시켰습니다.

arXivAI 번역논문

ScratchSim: 표면 스크래치 탐지를 위한 절차적 합성 데이터 파이프라인

BlenderProc를 활용하여 표면 스크래치 탐지를 위한 대규모 합성 데이터 생성 파이프라인인 ScratchSim을 제안합니다. 합성 데이터로 사전 학습 후 실데이터로 미세 조정하는 전략이 실데이터 전용 학습보다 우수한 성능을 보임을 입증했습니다.

arXivAI 번역논문

멀티모달 공간 추론을 위한 시각적 신용 감사 (Visual Credit Audit)

멀티모달 모델의 공간 추론 능력을 정확히 평가하기 위한 '시각적 신용 감사(VCA)' 방법론을 제안합니다. VCA는 모델의 정답이 실제 시각적 근거에 기반한 것인지, 아니면 텍스트 문맥에 의한 것인지 분리하여 분석합니다.

arXivAI 번역논문

BayesAME: 베이지안 능동 모델 평가 (Bayesian Active Model Evaluation)

대규모 생성 모델의 벤치마크 평가 비용을 줄이기 위해 코어셋 크기를 자동으로 결정하는 순차적 베이지안 프레임워크 BayesAME를 제안합니다. 모델의 잠재 능력을 확률 변수로 모델링하여 성능 추정치와 불확실성을 정량화하고 최적의 평가 항목을 선택합니다.

arXivAI 번역논문

SciFigAlign: 원고 증거와 시각 자료의 미세 조정된 정렬을 통한 과학적 도표 점수 산정

과학적 도표의 품질을 원고의 맥락과 정렬하여 평가하는 새로운 멀티모달 모델 SciFigAlign을 제안합니다. 기존 IQA나 LLM 방식의 한계를 극복하기 위해 CLIP과 SciBERT를 결합한 미세 조정 모델을 통해 도표의 명확성, 관련성 등을 정밀하게 산정합니다.

arXivAI 번역논문

SciFigQual-Bench: 전체 논문 문맥을 활용한 과학적 도표 품질 평가 벤치마크

과학 논문의 도표 품질을 평가하기 위해 텍스트 문맥을 활용하는 새로운 벤치마크 SciFigQual-Bench를 제안합니다. 명확성, 캡션 적합성 등 5개 차원을 통해 이미지와 논문 문맥 간의 일치성을 검증하며, 교차 모달 평가 프레임워크인 SFQ-Agent를 통해 자동화된 평가 성능을 입증했습니다.

arXivAI 번역논문

MemSecBench: 지속성에서 결과 및 복구에 이르는 에이전트 메모리 오염 추적

에이전트 메모리 시스템의 보안 취약점을 평가하기 위한 새로운 벤치마크인 MemSecBench를 소개합니다. 악의적인 지시문이 장기 메모리에 저장되어 이후 행동에 미치는 영향과 복구 가능성을 다양한 환경에서 추적합니다.

이전2 / 139전체 139페이지 중 2페이지다음