Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

분류기 컨텍스트 로트: 성능이 컨텍스트 길이와 함께 저하됨

본 기사는 언어 모델 기반 코딩 에이전트의 위험 행동 모니터링 시, 긴 전사 기록(500K 토큰 초과)에서 분류기 성능이 저하되는 문제를 지적합니다. Opus 4.6, GPT 5.4, Gemini 3.1 같은 최첨단 모델들은 특히 무해한 활동 이후에 발생하는 미묘하게 위험한 행동을 감지하는 데 어려움을 겪습니다. 이러한 장기 컨텍스트 저하를 고려하지 않는 모니터 평가는 실제 성능을 과대평가할 수 있습니다.

5월 13일4

arXiv논문

GAP: 멀티모달 대규모 언어 모델의 시각 추론을 위한 세밀한 정렬 패러다임

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 시각 잠재 추론 과정에서 발생하는 불안정성을 진단하고, 이를 해결하기 위한 새로운 프레임워크인 GAP (Granular Alignment Paradigm)를 제안합니다. 기존 방법들이 특징 공간 불일치로 인해 신뢰도가 떨어지는 문제를 안고 있었는데, GAP는 세 가지 수준(특징, 컨텍스트, 용량)에서 시각 잠재 추론을 정렬하여 모델의 성능과 안정성을 크게 향상시킵니다.

5월 13일3

arXiv논문

에이전트 기반 농작물 수확량 예측의 사후 보정

본 논문은 상업용 과일 농장의 제한적인 데이터로 인해 발생하는 작물 수확량 예측의 한계를 극복하기 위해, 구조화된 LLM 에이전트 프레임워크를 제안합니다. 이 프레임워크는 단계 감지, 편향 학습, 범위 검증 등 농업 도메인 지식을 여러 도구에 통합하여 기존 모델의 예측값을 사후 보정(post-hoc correction)하는 방식으로 작동합니다. 독점 딸기 및 공개 옥수수 데이터셋 평가 결과, LLM 에이전트가 XGBoost를 정제했을 때 MAE와 MASE 등 주요 오차 지표에서 상당한 개선을 보여주었습니다.

5월 13일5

arXiv논문

ProfiliTable: 에이전트 워크플로우를 통한 프로파일링 기반 테이블 데이터 처리

ProfiliTable은 데이터 클리닝, 변환, 증강 등 오류 발생 가능성이 높은 테이블 처리 작업을 자동화하기 위해 제안된 자율적인 다중 에이전트 프레임워크입니다. 이 프레임워크는 동적 프로파일링을 핵심으로 사용하여 상호작용적 탐색과 피드백 기반 정제를 통해 통합 실행 컨텍스트를 구축하고 반복적으로 개선합니다. ProfiliTable은 Profiler, Generator, Evaluator-Summarizer의 세 가지 구성 요소를 결합하여 복잡한 다단계 테이블 작업에서 높은 신뢰성과 성능을 입증했습니다.

5월 13일1

arXiv논문

SEMIR: 그래프 기반 시각 분할을 위한 의미론적 미세 구조 유도 표현 학습

SEMIR(Semantic Minor-Induced Representation Learning)은 대규모 이미지에서 작고 희소한 구조체를 분할하는 문제를 해결하기 위해 고안된 새로운 표현 학습 프레임워크입니다. 이 프레임워크는 기본 격자 그래프에 의존하지 않고, 작업 적응형이며 위상 보존적인 잠재 그래프 표현을 학습하여 복잡한 시각 데이터를 간결하게 변환합니다. BraTS 2021, KiTS23, LiTS와 같은 종양 분할 데이터셋에서 SEMIR는 실용적인 구동 시간 내에 소수 구조체의 Dice 점수를 크게 향상시키는 성능을 입증했습니다.

5월 13일2

arXiv논문

오프라인에서 온라인 강화학습을 위한 이산 흐름 매칭(Discrete Flow Matching)

본 논문은 이산 액션 공간을 가진 강화학습(RL) 작업에서 온라인 미세 조정을 수행하는 새로운 방법인 DRIFT를 제안합니다. DRIFT는 오프라인으로 사전 학습된 연속 시간 마르코프 체인(CTMC) 정책을 장점 가중 이산 흐름 매칭 손실로 업데이트하여, 유용한 기존 지식을 보존하면서도 새로운 상호작용으로부터 성능을 개선할 수 있게 합니다.

5월 13일6

arXiv논문

의미론적 보상 붕괴(Semantic Reward Collapse)와 적응형 AI 시스템에서의 인식론적 무결성 보존

본 논문은 LLM의 선호도 최적화 시스템에서 발생하는 '의미론적 보상 붕괴(SRC)'라는 구조적 문제를 제기합니다. SRC는 의미적으로 다른 평가적 불만족들(예: 사실적 부정확성, 불확실성 공개)이 단일한 일반화된 최적화 신호로 압축되어 시스템이 인식론적 무결성을 희생하는 현상을 말합니다. 저자들은 적응형 AI가 불확실성 공개를 억제하고 가시적인 실패만 막으려는 경향을 지적하며, 이를 해결하기 위해 '도메인 인식 보상 구조화(CRS)'라는 새로운 연구 방향을 제안합니다.

5월 13일4

arXiv논문

OGLS-SD: 결과 기반 로짓 조향을 통한 온정책 자체 증류 (On-Policy Self-Distillation with

본 논문은 언어 모델이 온정책(on-policy) 궤적을 따라 진행하며 특권적인 교사 분포를 증류하는 '온정책 자체 증류(OPSD)' 기법을 연구합니다. 기존 OPSD는 교사와 학생 응답 간의 불일치 문제, 특히 반성 유발 편향이나 응답 템플릿으로 인한 오류가 발생할 수 있음을 지적했습니다. 이를 해결하기 위해, 본 연구는 검증 가능한 결과 보상을 활용하여 성공 및 실패 궤적을 대조하고 교사 로짓을 보정하는 '결과 기반 로짓 조향(Outcome-based Logit Steering)' 프레임워크인 OGLS-SD를 제안합니다. OGLS-SD는 결과 수준의 정확성과 토큰 수준의 지도를 결합하여 자체 증류 과정을 안정화하고 추론 성능을 향상시킵니다.

5월 13일3

arXiv논문

최적화하지 말고 형식화하라: LLM 생성 조합 문제 해결기에서의 휴리스틱 함정

본 기사는 대규모 언어 모델(LLMs)을 활용하여 복잡한 조합 문제를 해결하는 솔버 구축의 어려움을 다루며, 특히 '최적화'에 초점을 맞추기보다 '형식화'에 집중할 것을 제안합니다. 연구진은 세 가지 패러다임(네이티브 Python, Python + OR-Tools, MiniZinc + OR-Tools)을 비교 평가한 결과, LLM과 결합된 전문 솔버 API(Python + OR-Tools)가 가장 높은 정확도를 보였습니다. 또한, 검색 최적화를 위한 휴리스틱 프롬프팅은 성능 향상이 미미하고 오히려 '휴리스틱 함정'에 빠지기 쉬워 신뢰도가 낮음을 발견했습니다.

5월 13일5

arXiv논문

6G에서 AI 네이티브 모빌리티 구현을 위한 핸드오버, 빔 관리 및 타이밍 어드밴스 실측 데이터셋

본 연구는 고속 이동 환경에서 발생하는 사용자 장비(UE)의 단절 시간 및 측정 오버헤드 문제를 해결하기 위해, 실제 상용 네트워크에서 수집한 현실적인 데이터셋을 제시합니다. 이 데이터셋은 보행자부터 열차까지 다양한 이동 모드와 속도를 포함하며, 특히 핸드오버(HO) 시나리오에 초점을 맞추어 HO 단절 시간 감소 및 지속적인 처리량 유지를 목표로 합니다. 또한 기존 연구에서 부족했던 RACH 트리거, MAC CE 등 신호 발생 이벤트에서의 타이밍 어드밴스(TA) 측정값을 포함하여 AI/ML 모델의 정확한 훈련과 이해를 지원합니다.

5월 13일5

arXiv논문

CAAFC: 잘못된 정보/비사실적 환각 탐지 및 교정을 위한 시간순 행동 기반 자동 팩트체커

AI 생성 콘텐츠가 폭발적으로 증가함에 따라 자동 팩트체킹(AFC)의 중요성이 커지고 있지만, 기존 시스템에는 한계가 존재합니다. 본 논문에서 제안하는 CAAFC(Chronological Actionable Automated Fact-Checker)는 주장, 대화, 다이얼로그를 기반으로 작동하여 사실적 오류와 환각을 탐지할 뿐만 아니라 1차 출처에 근거한 실행 가능한 교정 근거까지 제공합니다. 또한 최신 및 문맥적 정보를 통합하여 사실 검증의 신뢰성과 정확성을 높이는 것이 특징입니다.

5월 13일1

arXiv논문

마지막 레이어를 넘어: 시각 토큰화를 위한 다중 레이어 표현 융합

본 논문은 기존의 표현 오토인코더가 마지막 인코더 레이어에서만 특징을 추출하여 발생하는 시각 정보 손실 문제를 해결하기 위해 다중 레이어 특징 융합 모듈 DRoRAE를 제안합니다. DRoRAE는 에너지 제약 라우팅과 증분 보정을 통해 모든 인코더 레이어를 적응적으로 집계하며, 이를 통해 풍부해진 잠재 표현을 생성합니다. 실험 결과, ImageNet-256에서 rFID 및 생성 FID가 크게 개선되었으며, 이는 텍스트-이미지 합성 등 다양한 분야에 전이 가능함을 입증했습니다.

5월 13일4

arXiv논문

PathISE: 지식 그래프 질문 답변을 위한 정보성 경로 감독 학습

PathISE는 지식 그래프 질문 답변(KGQA) 시스템의 성능 향상을 목표로 하는 새로운 프레임워크입니다. 기존 KGQA 방법들이 LLM을 활용하여 KGs에 접지시키지만, 효과적인 증거 검색을 위해서는 고품질의 중간 감독 신호가 필수적이며 이는 얻기 어렵습니다. PathISE는 답변 수준의 레이블만을 사용하여 질문과 관련된 '정보성 경로(informative paths)'를 자동으로 학습하고 추출함으로써 이 문제를 해결합니다.

5월 13일4

arXiv논문

ALAM: Vision-Language-Action 모델을 위한 대수적으로 일관된 잠재 전이 (Algebraically Consistent

ALAM은 Vision-Language-Action (VLA) 모델의 성능 한계를 극복하기 위해 개발된 새로운 프레임워크입니다. 이 모델은 행동 레이블이 부족한 상황에서 비디오 데이터가 제공하는 물리적 세계 변화에 대한 사전 지식을 활용합니다. ALAM은 대수적으로 일관된 잠재 전이(algebraically consistent latent transfer)와 공동 흐름 매칭을 결합하여, 기존 VLA 정책 대비 MetaWorld MT50 및 LIBERO 등 다양한 환경에서 현저하게 높은 성공률 향상을 입증했습니다.

5월 13일5

arXiv논문

MMVIAD: 산업 이상 감지를 위한 다중 시점 다중 작업 비디오 이해

본 기사는 산업 이상 감지(Industrial anomaly detection) 분야의 한계를 극복하기 위해 개발된 새로운 벤치마크 데이터셋 MMVIAD를 소개합니다. MMVIAD는 약 120도의 카메라 움직임을 가진 객체 중심의 연속 다중 시점 비디오 클립으로 구성되어, 실제 산업 검사 과정을 현실적으로 반영했습니다. 이 데이터셋은 이상 감지 및 결함 탐지 등 다양한 작업을 지원하며, 이를 활용한 모델(VISTA)이 기존 최고 성능을 능가하는 결과를 보여주었습니다.

5월 13일3

arXiv논문

통제된 환경에서 야생 환경으로: 실제 세계를 위한 펜테스팅 에이전트 평가

AI 펜테스팅 에이전트의 신뢰도가 높아지고 있지만, 기존의 벤치마크는 제한된 환경과 미리 정의된 목표(예: 플래그 획득)에만 초점을 맞추고 있어 실제 세계에서의 성능을 정확히 측정하는 데 한계가 있습니다. 본 논문은 이러한 문제를 해결하기 위해 평가의 초점을 단순한 과제 완료에서 '검증된 취약점 발견'으로 전환하는 실용적인 새로운 평가 프로토콜을 제시합니다.

5월 13일7

arXiv논문

MDP에서 확률적 안전성을 보장하기 위한 쉴드

본 논문은 자율 에이전트의 안전성을 확보하기 위한 '쉴딩(Shielding)' 기법을 다루며, 특히 확률적 안전성(probabilistic safety)을 보장하는 확장된 프레임워크를 제시합니다. 기존의 쉴딩이 절대적인 안전성을 목표로 했다면, 이 연구는 어느 정도 수용 가능한 확률로 위험이 발생하는 경우에 초점을 맞춥니다. 이를 위해 강력한 보장을 유지하면서도 자연스러운 쉴드를 제공하고, 오프라인 및 온라인 환경에서 작동하는 새로운 쉴드 구성 방식을 제안합니다.

5월 13일6

arXiv논문

AI 워크플로우 스토어(AI Workflow Store)를 활용하여 개인 에이전트에 견고성 엔지니어링하기

본 글은 현재 AI 에이전트의 주류 패러다임인 '즉석(on-the-fly)' 계획 합성 및 실행 방식에 의문을 제기하며, 이 방식이 신뢰성 있고 안전한 소프트웨어 시스템을 구축하는 데 필요한 체계적인 엔지니어링 프로세스를 단축시킨다고 지적합니다. 따라서 AI 에이전트가 사용자에게 효과적으로 제공되기 위해서는 반복적 설계, 엄격한 테스트, 적대적 평가 등 전통적인 소프트웨어 엔지니어링(SE)의 원칙들을 통합해야 함을 주장합니다.

5월 13일4

arXiv논문

CT-IDP: 해석 가능한 복부 CT 질병 분류를 위한 분할 기반 정량 표현형

본 연구는 MERLIN 복부 CT 벤치마크를 활용하여 'CT-IDP(CT Image-Derived Phenotypes)'라는 정량 표현형 프레임워크를 개발하고, 이를 Duke-Abdomen 및 AMOS 데이터셋에서 외부 평가했습니다. 이 프레임워크는 TotalSegmentator를 이용한 다기관 분할을 기반으로 형태 측정학적, 감쇠, 맥락적 소견 등 900개 이상의 장기/구획 수준 설명자를 추출합니다. 개발된 모델은 희소 로지스틱 회귀와 elastic-net 정규화를 사용하여 질병 분류에 적용되었으며, 기존의 비전 트랜스포머 기반 기준선 대비 우수한 성능(AUC 및 AP)을 입증했습니다.

5월 12일2

arXiv논문

순차적 의사결정(Sequential Decision-Making)을 위한 대규모 언어 모델: 지도 미세 조정(SFT)을 통한 인컨텍스트 학습

본 논문은 대규모 언어 모델(LLMs)의 순차적 의사결정 능력을 탐구하며, 특히 마르코프 결정 과정(MDPs), 부분 관측 가능 MDP(POMDPs) 등 복잡한 환경에서의 활용에 초점을 맞춥니다. 연구진은 오라클 레이블링된 궤적 데이터로부터 소수의 예시만으로 의사결정을 수행하도록 LLMs를 지도 미세 조정(SFT)합니다. 이 프레임워크는 SFT를 통해 정책의 유연한 모방을 가능하게 하며, 이론적으로는 어텐션 레이어를 활용하여 최적 Q-함수를 추정하는 방식으로 해석됩니다.

5월 12일5

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드