Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

LLM 시대 운임 협상 최적화: Anchor-and-Resume 프레임워크

본 논문은 동적 가격 책정 환경에서 발생하는 화물(Freight) 운임 협상 문제를 다룹니다. 기존의 시간 의존적 양보(concession) 모델들은 고정된 매개변수($eta$)를 사용해 실시간 시장 변화에 대응하기 어렵고, 가격 변동 시 모노토니성(monotonicity) 위반 문제가 발생했습니다. 이에 연구진은 'Anchor-and-Resume'라는 2-인덱스 프레임워크를 제안합니다. 이 방식은 스프레드(spread)에서 파생된 $eta$를 사용하여 각 화물 적재물의 마진 구조에 맞는 양보 자세를 취하며, 동시에 가격 변동과

4월 23일5

arXiv논문

건축 기반 적격성 확보: ALT 휴리스틱 압축 기법 AAC 소개

본 논문은 A* 알고리즘의 최단 경로 추정치에 사용되는 ALT (A*, Landmarks, and Triangle inequality) 휴리스틱을 개선한 새로운 모듈 AAC(Architecturally Admissible Compressor)를 제안합니다. AAC는 아키텍처 설계 단계에서부터 적격성(admissibility)이 보장되는 미분 가능한 랜드마크 선택 기법입니다. 이 덕분에 수렴, 보정(calibration), 투영 과정 없이도 모든 매개변수 설정에서 휴리스틱의 적격성을 유지합니다. 실제 배포 환경에서는 기존 클래식한 최

4월 23일5

arXiv논문

상황 기반 대화 추천: 동적 및 암묵적 선호도 추론 (SiPeR)

본 논문은 시각적 장면과 자연어 대화를 결합하여 맥락에 맞는 추천을 제공하는 '상황 기반 대화 추천(Situated Conversational Recommendation, SCR)' 분야의 복잡성을 다룹니다. 기존 방식보다 사용자의 동적이고 암묵적인 선호도 이해가 필수적이며, 주변 환경이 관심사에 큰 영향을 미치기 때문입니다. 이를 해결하기 위해 연구진은 새로운 프레임워크인 '상황 기반 선호도 추론(Situated Preference Reasoning, SiPeR)'을 제안했습니다. SiPeR은 (1) 현재 장면이 사용자 요구를 충

4월 23일4

arXiv논문

V-tableR1: 테이블 기반 다중 모드 추론을 위한 프로세스 감독 강화학습

본 논문은 멀티모달 LLM(MLLMs)의 시각적 추론 능력을 향상시키기 위해 V-tableR1이라는 프로세스 감독 강화학습 (process-supervised RL) 프레임워크를 제안합니다. 기존 MLLMs는 최종 결과에만 초점을 맞춰 복잡한 다단계 추론 과정이 불투명하거나 표면적인 패턴 매칭에 의존하는 경향이 있습니다. V-tableR1은 테이블의 결정적 그리드 구조를 활용하여 이러한 문제를 해결하며, 전문 비평가 VLM(Critic VLM)을 이용해 정책 VLM(Policy VLM)이 생성한 명시적인 시각적 사고 과정(chain

4월 23일4

arXiv중요논문

평균 대신 커버리지: 신뢰성 높은 검색 평가를 위한 의미론적 계층화

검색 증강 생성(RAG)의 정확도와 견고성을 저해하는 주요 병목 지점은 검색 품질입니다. 현재 평가는 임의로 구성된 쿼리 세트에 의존하여 내재적 편향을 가집니다. 본 논문은 검색 평가를 통계적 추정 문제로 공식화하고, 평가 데이터셋 구축이 메트릭 신뢰도를 근본적으로 제한함을 보여줍니다. 이를 해결하기 위해 '의미론적 계층화(semantic stratification)' 기법을 제안합니다. 이 방법은 문서들을 엔티티 기반 클러스터의 해석 가능한 전역 공간에 조직화하고, 누락된 영역(strata)에 대한 쿼리를 체계적으로 생성하여 평가

4월 23일4

arXiv중요논문

VTouch++: 양손 조작을 위한 비전 기반 촉각 데이터셋

본 논문은 복잡한 물리적 상호작용이 필수적인 양손(bimanual) 조작 작업을 위한 새로운 멀티모달 데이터셋인 VTOUCH++를 소개합니다. 기존 연구의 한계점이었던 풍부한 물리적 신호, 체계적인 작업 구성, 대규모 스케일 문제를 해결하기 위해 비전 기반 촉각 센싱을 활용하여 고화질 상호작용 데이터를 제공합니다. 또한 매트릭스 스타일의 작업 설계를 채택하고 자동화된 데이터 수집 파이프라인을 구축하여 확장성을 확보했습니다. 이 데이터셋은 크로스모달 검색(cross-modal retrieval) 및 실제 로봇 평가를 통해 그 효과가검

4월 23일4

arXiv논문

MOMO: 로봇 스킬 학습을 위한 통합 인터랙티브 프레임워크

산업용 로봇이 다양한 환경과 작업에 유연하게 적응하려면 여러 상호작용 방식의 결합이 필요합니다. 본 논문은 이러한 요구를 충족하는 'MOMO'라는 통합 프레임워크를 제시합니다. MOMO는 물리적 접촉(Kinesthetic touch), 자연어 명령어(Natural language), 그래픽 웹 인터페이스(Graphical web interface) 세 가지 상호작용 양식을 결합하여 로봇 스킬을 학습하고 적응시킵니다. 특히, 이 프레임워크는 에너지 기반 인간 의도 감지, 안전한 언어 적응을 위한 도구 기반 LLM (Tool-based

4월 23일4

arXiv논문

LLM의 지식 저장 방식 혁신: Knowledge Capsules 소개

대규모 언어 모델(LLMs)은 지식을 파라미터 가중치에 인코딩하여 업데이트나 확장이 어렵습니다. 기존의 검색 증강 생성 (RAG) 방식은 외부 지식을 컨텍스트로 추가하지만, 이는 어텐션 메커니즘 내에서 토큰 경쟁을 유발하며 영향력이 간접적이고 불안정합니다. 본 논문에서는 Knowledge Capsules라는 구조화된 비모수 메모리 유닛을 제안합니다. 이 캡슐들은 정규화된 관계 지식을 나타내며, 외부 키 값 주입 (External Key Value Injection, KVI) 프레임워크를 통해 모델의 어텐션 계산에 직접 참여하도록 만

4월 23일4

arXiv논문

프론티어 AI 샌드박스 취약점, 형식 검증(Formal Verification)으로 막는다

최근 발생한 Claude Mythos 샌드박스 탈출 사건은 최첨단 AI 모델을 담는 인프라 자체의 취약점을 드러냈습니다. 본 논문은 이러한 아키텍처적 결함을 사전에 찾아내기 위해 Z3 기반의 형식 검증 엔진인 COBALT를 제안합니다. COBALT는 C/C++ 코드에서 CWE-190, 191, 195와 같은 산술 취약점 패턴을 식별하며, NASA cFE 등 실제 운영 코드를 통해 그 효용성을 입증했습니다. 나아가, 검증된 전처리 과정(COBALT), 실행 제약 조건 설정(VERDICT), 출력 통제(DIRECTIVE-4), 런타임(

4월 23일6

arXiv논문

소셜 미디어의 은폐 광고 탐지 데이터셋 CHASM 공개

본 논문은 소셜 미디어에서 일반 게시물처럼 위장하여 소비자를 속이는 '은폐 광고(covert advertisements)'를 탐지하기 위한 새로운 데이터셋 CHASM을 소개합니다. 현재 LLM 기반의 소셜 미디어 중재 평가 지표들은 이러한 은폐 광고 문제를 간과하고 있습니다. CHASM은 중국 소셜 플랫폼 Rednote의 실제 시나리오를 바탕으로 4,992개의 고품질, 익명화된 수동 큐레이션 데이터로 구성되어 있으며, 제품 경험 공유 게시물 형태가 많아 탐지 난이도가 높습니다. 실험 결과, 현재 MLLM들은 제로샷(zero-shot

4월 23일3

arXiv논문

LLM을 활용한 소프트웨어 제품 라인 초기 검증 방법론 연구

본 논문은 대규모 언어 모델(LLMs)이 반정형 텍스트 형태의 청사진(blueprints)을 직접 분석하여 소프트웨어 제품 라인(Software Product Line, SPL)의 초기 검증 작업을 수행할 수 있는지 연구했습니다. 12개의 최신 LLM과 16가지 표준 기능 모델 분석 연산(AOs)을 사용하여 성능을 평가한 결과, 추론에 최적화된 모델들(예: Grok 4 Fast Reasoning, Gemini 2.5 Pro)이 평균 88~89%의 높은 정확도를 보여, 기존 솔버 기반 오라클(FLAMA)의 정답률에 근접함을 입증했다는

4월 23일5

arXiv논문

데이터 감사로 LVLM 성능 향상: EVIAN 프레임워크 소개

대규모 비전-언어 모델(LVLMs)의 성능은 학습 데이터 품질에 크게 좌우되지만, 기존 데이터셋들은 일관성 없는 품질과 미묘한 오류를 잡아낼 수 없는 한계가 있습니다. 본 논문은 이러한 문제를 해결하기 위해 EVIAN (Explainable Visual Instruction-tuning Data AuditiNg)이라는 자동화된 프레임워크를 제안합니다. EVIAN은 모델의 응답을 시각적 설명, 주관적 추론, 사실적 주장 등 구성 요소로 분해하여 분석하는 '분해 후 평가(Decomposition-then-Evaluation)' 패러다임

4월 23일4

arXiv논문

생성형 AI 평가의 패러다임 전환: MaSH 루프 프레임워크

기존 생성형 AI 평가는 벤치마크를 통해 모델을 고립된 예측 기계로 간주하거나, 이상적인 성능에 초점을 맞추는 경향이 있습니다. 이로 인해 AI가 작동하는 복잡한 사회기술적 과정(sociotechnical processes)과 그 속에서 형성되는 가치가 무시되기 쉽습니다. 본 논문은 생성형 AI를 단일한 시스템으로 평가하는 대신, '다원주의적 사회기술 시스템 (pluralist sociotechnical system)'으로 접근해야 한다고 주장합니다. 이를 위해 '기계-사회-인간 (Machine-Society-Human, MaSH)

4월 23일4

arXiv논문

조합적 혁신과 다중 에이전트 검색으로 연구 아이디어 생성 강화

본 논문은 과학적 진보에 필수적인 새로운 연구 아이디어를 효율적으로 발굴하는 방법을 제시합니다. 방대한 학술 문헌 속에서 독창적인 방향을 찾는 것이 어려워지면서, 기존의 대규모 언어 모델(LLM) 기반 방법만으로는 반복적이거나 깊이가 부족한 아이디어가 생성되는 한계가 있었습니다. 이에 연구진은 조합적 혁신 이론에 영감을 받은 다중 에이전트 순차 계획 검색 전략(multi-agent iterative planning search strategy)을 제안했습니다. 이 프레임워크는 지식 탐색과 LLM 기반의 다중 에이전트 시스템을 결합해

4월 23일4

arXiv논문

다국어 LLM 데이터 필터링: 언어 간 품질 전이 전략

대규모 언어 모델(LLMs)의 발전과 함께 데이터 큐레이션은 단순히 양을 늘리는 것에서 질적 필터링으로 초점이 이동하고 있습니다. 하지만 많은 저자원 언어는 자체적으로 고품질 데이터를 확보하기 어렵습니다. 본 연구는 임베딩 공간 내 품질 마커가 언어 간 일관성을 가질 수 있다는 가정 하에, 고자원 언어가 저자원 언어의 데이터 필터링을 지원할 수 있는 방법을 탐구합니다. 다양한 필터링 전략(예: 교차 언어 전이, Q3 샘플링)을 평가한 결과, 대규모 다국어 풀링 방식이 단일 언어 기준보다 높은 성능을 보였습니다. 특히 고자원 언어의

4월 23일5

arXiv중요논문

LayerTracer: 범용 LLM 아키텍처 분석 프레임워크

본 논문은 기존 트랜스포머(Transformer), Mamba 등 다양한 구조를 가진 대규모 언어 모델(LLM)의 아키텍처적 한계를 극복하기 위해 'LayerTracer'라는 범용 분석 프레임워크를 제안합니다. LayerTracer는 모델의 은닉 상태(hidden states)를 레이어별로 추출하고 이를 어휘 확률 분포에 매핑하여 두 가지 핵심 요소를 동시에 분석합니다. 첫째, **태스크 입자(task particle)**는 목표 토큰 확률이 급격히 상승하는 최초의 레이어를 찾아 모델의 작업 시작점을 파악합니다. 둘째, **취약층(

4월 23일4

arXiv중요논문

Vision Mamba의 성능 향상을 위한 고급 이산화 전략 비교

본 논문은 State Space Model (SSM) 기반 비전 모델인 Vision Mamba가 사용하는 Zero-Order Hold (ZOH) 방식의 한계를 지적하며, 이를 개선할 고급 이산화 전략들을 제시합니다. ZOH는 샘플링 간격 동안 입력 신호가 일정하다고 가정하여 동적인 시각 환경에서 시간적 충실도를 떨어뜨립니다. 연구진은 Vision Mamba 프레임워크 내에서 총 6가지 방식(ZOH, FOH, BIL, POL, HOH, RK4)을 비교 평가했습니다. 그 결과, Polynomial Interpolation (POL)과

4월 23일3

arXiv논문

pAI/MSc: 인간 협업을 위한 학술 연구 워크플로우 시스템

pAI/MSc는 학술 연구 과정을 지원하는 오픈 소스, 모듈형 다중 에이전트 시스템입니다. 이 시스템은 과학적 아이디어를 완전히 자동화하거나 자율적으로 수행하려는 것이 목적이 아닙니다. 대신, 특정 가설을 문헌 기반의 수학적 증명과 실험적 근거를 갖춘 출판 가능한 초안으로 만드는 데 필요한 인간의 개입(steering) 횟수를 극적으로 줄이는 것을 목표로 합니다. 특히 머신러닝 이론 및 관련 정량 분야에 중점을 두고 설계되었습니다.

4월 23일4

arXiv논문

기존의원격 감지(Remote Sensing) 분야에서 변화 탐지는 단순히 변화가 발생한 위치를 식별하는 데

기존의 원격 감지(Remote Sensing) 기반 변화 탐지 기술은 단순히 '어디서' 변화가 발생했는지 식별하는 데 그치고, '무엇이 어떻게' 변화했는지 자연어로 설명하는 능력은 부족했습니다. 본 논문에서는 이러한 한계를 극복하기 위해 RSRCC (Remote Sensing Regional Change Comprehension Benchmark)라는 새로운 벤치마크를 제안합니다. RSRCC는 총 126k 개의 질문으로 구성되어 있으며, 특히 특정 의미적 변화에 대한 추론(fine-grained reasoning)을 요구하는 국소화

4월 23일3

arXiv논문

개체를시간 흐름에 따라 자동으로 식별하는 것은 개체군 규모 추정, 이동 경로 분석 등 생태 및 보존 과학의

개체를 시간 경과에 따라 자동으로 식별하는 것은 생물다양성 및 보존 연구의 핵심 과제입니다. 최근 이미지나 음향 데이터 기반의 자동 식별 기술이 발전하고 있지만, 이 기술들이 실제 생태학적 현장에 적용되는 데 어려움을 겪고 있습니다. 본 논문은 문제의 근본적인 원인이 알고리즘 성능 자체의 문제가 아니라, 방법론 개발 및 평가 방식과 실제 생태학 데이터 수집/활용 과정 간의 불일치에 있다고 지적합니다. 따라서 자동 식별 기술의 발전은 단순히 알고리즘 개선을 넘어, '어떤 질문'을 던지고 '어떤 종류의 오류가 중요한지' 등 생태학적 맥

4월 23일3

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드