© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2266건필터 해제

언어 모델이 기호적 성찰과 모듈형 최적화를 통해 기계 링크지 설계 개선

본 논문은 언어 모델(LLM)이 기계 링크지(mechanical linkage) 설계를 개선하는 새로운 방법을 제시하며, LLM 에이전트가 이산 토폴로지를 탐색하고 수치 최적화기가 연속 매개변수를 피팅합니다. 특히 '기호적 리프팅 연산자'를 통해 시뮬레이터 궤적을 질적 설명자로 변환하여 모델의 해석 가능성을 높였습니다. 실험 결과, 모듈형 LLM 아키텍처는 기존 방식 대비 기하학적 오차와 구조적 결함을 크게 줄이며, 과잉/불충분 구속과 같은 설계 문제를 정확히 진단하고 근거 기반 수정안을 제안할 수 있음을 입증했습니다.

TransVLM: 임의의 컷 전환을 탐지하기 위한 비전-언어 프레임워크 및 벤치마크

본 논문은 기존 샷 경계 탐지(SBD)의 한계를 극복하고, 전환의 연속적인 시간적 구분을 명시적으로 포착하는 '샷 전환 탐지(STD)' 작업을 공식화했습니다. 이를 위해 광유동을 운동 사전 지식으로 통합한 비전-언어 모델 프레임워크인 TransVLM을 제안합니다. TransVLM은 색상 및 운동 정보를 직접 처리하여 시간적 인식을 크게 향상시키며, 합성 데이터 엔진과 포괄적인 벤치마크를 통해 높은 성능을 입증했습니다.

D3-Gym: 데이터 주도 발견을 위한 실세계 검증 가능 환경 구축

본 기술 기사는 과학적 데이터 주도 발견(Data-Driven Discovery)을 위한 검증 가능한 환경 데이터셋인 D3-Gym을 소개합니다. D3-Gym은 네 가지 학문 분야의 239개 실세계 과학 저장소에서 유래한 565개의 작업을 포함하며, 자연어 지시문, 실행 가능 환경, 입력 데이터셋 등 포괄적인 요소를 제공하여 모델 학습에 최적화되어 있습니다. 이 환경을 활용하여 학습된 에이전트는 Qwen3-32B와 같은 대규모 언어 모델에서 상당한 성능 향상을 보여주었으며, 이는 과학 분야에서의 AI 에이전트 발전에 중요한 진전을 의미합니다.

ITS-Mina: 다변수 시계열 예측을 위한 반복적 정제와 외부 주의력을 갖춘 하리스 매미 최적화 기반 전 MLP 프레임워크

ITS-Mina는 다변수 시계열 예측을 위해 제안된 새로운 전 MLP(all-MLP) 프레임워크입니다. 이 모델은 반복적 정제 메커니즘, 선형 복잡도의 외부 주의력 모듈, 그리고 하리스 매미 최적화 기반의 적응형 정규화를 통합하여 성능과 효율성을 동시에 높였습니다. 광범위한 벤치마크 테스트 결과, ITS-Mina는 기존의 다양한 베이스라인 모델 대비 최고 수준의 예측 성능을 입증했습니다.

과학 시각화에서 LLM 에이전트의 상호작용 패러다임 탐색

본 논문은 자연어 지시를 통해 과학 시각화(SciVis) 워크플로우를 생성하는 과정에서 다양한 LLM 에이전트의 상호작용 패러다임을 비교 분석했습니다. 연구진은 구조화된 도구 사용, 컴퓨터 사용, 범용 코딩 등 세 가지 주요 에이전트 유형을 15개 벤치마크 작업에 적용하여 시각화 품질, 효율성, 견고성 등을 측정했습니다. 그 결과, 각 패러다임별로 명확한 트레이드오프가 존재하며, 최적의 SciVis 시스템은 구조화된 도구 사용, 적절한 상호작용 모달리티(CLI/GUI), 그리고 지속적인 기억 메커니즘을 결합해야 함을 제안합니다.

MIFair: 교차성과 다중 클래스 공평성을 위한 상호정보 프레임워크

MIFair는 기계 학습 모델의 공평성을 평가하고 완화하기 위해 상호정보(mutual information)에 기반한 통합 프레임워크입니다. 이 프레임워크는 기존 방법들이 어려움을 겪었던 교차성, 다중 클래스 설정, 복잡한 하위 그룹 구조를 자연스럽게 지원합니다. MIFair는 공평성을 통계적 독립성으로 정의하고, 다양한 공평성 개념과의 동등성을 입증하며, 단일 일관된 프레임워크로 여러 요구사항을 통합하여 실용성과 범용성을 크게 높였습니다.

SpecVQA: 과학적 이미지에서의 스펙트럼 이해 및 시각적 질문 답변을 위한 벤치마크

SpecVQA는 스펙트럼과 같은 고정보 밀도 과학적 이미지에 대한 다중 모달 대형 언어 모델(MLLMs)의 이해 능력을 평가하기 위해 설계된 전문 벤치마크입니다. 이 벤치마크는 7가지 대표적인 스펙트럼 유형을 포함하며, 전문가가 주석 처리한 620개의 이미지와 3,100쌍의 질문-답변 쌍으로 구성되어 있습니다. SpecVQA는 단순 정보 추출뿐만 아니라 도메인 특이적 추론 능력을 테스트하는 것을 목표로 하며, 스펙트럼 데이터 처리를 위한 효율적인 샘플링 및 재구성 기법도 함께 제안합니다.

협업 에이전트 추론 엔지니어링 (CARE): 전문가, 개발자, 헬퍼 에이전트를 활용한 과학적 도메인의 AI 에이전트 체계적 설계 방법론

본 논문은 과학적 도메인에 특화된 대규모 언어 모델(LLM) 에이전트를 체계적으로 설계하기 위한 방법론, '협업 에이전트 추론 엔지니어링(CARE)'을 제시합니다. CARE는 전문가(SME), 개발자, 헬퍼 에이전트가 참여하는 3당사자 워크플로우를 통해 행동 정의, 근거화, 도구 오케스트레이션 및 검증 과정을 명시적으로 관리합니다. 이 방법론은 LLM 성능의 불균형 문제를 해결하고, 아티팩트 기반 접근을 통해 에이전트 시스템의 테스트 가능성, 명시성, 유지보수성을 크게 향상시키는 것을 목표로 합니다.

법률 및 안전 원칙에 기반한 신경-상징적 인과 규칙 합성, 검증 및 평가로 나아가기

본 논문은 기존 AI 시스템의 한계점인 확장성 부족과 목표 오지정 문제를 해결하기 위해 신경-상징적 인과 프레임워크를 개선한 내용을 다룹니다. 핵심적으로, 고수준 자연어 목표와 안전 원칙을 입력받아 형식적인 규칙으로 합성하고 검증하는 메타 레벨 레이어를 추가했습니다. 이 파이프라인은 LLM을 활용하여 후보 원인을 분해하고 논리 규칙을 생성하며, 이후 문법적/논리적 일관성 및 안전성을 철저히 검사하여 신뢰할 수 있는 규칙 기반 시스템 구축을 가능하게 합니다.

좋은 터미널 에이전트 벤치마크 작업의 기준: 적대적, 어렵고 명료한 평가 설계 가이드라인

본 문서는 터미널 에이전트(terminal-agent)의 성능을 측정하는 벤치마크 작업을 설계하기 위한 심층적인 가이드라인을 제공합니다. 저자는 단순히 프롬프트 작성에 의존하는 일반적인 오류를 지적하며, 좋은 벤치마크는 반드시 적대적(adversarial), 어렵고(difficult), 명료해야 한다고 주장합니다. 이 가이드는 AI 생성 지시사항이나 보상 해킹 같은 흔한 실패 모드를 식별하고 방지하여, 보다 신뢰할 수 있는 평가 환경을 구축하는 데 도움을 줍니다.

DEFault++: 트랜스포머 아키텍처를 위한 자동화된 결함 탐지, 분류 및 진단

DEFault++는 트랜스포머 아키텍처에 특화된 자동화 결함 진단 기술로, 주의력 메커니즘과 주변 구성 요소의 미묘한 결함을 탐지하고 분류하며 근본 원인을 식별합니다. 이 방법은 3단계 계층적 학습 구조를 사용하며, 트랜스포머 아키텍처에서 유래된 '결함 전파 그래프(FPG)'를 통해 동작을 측정하고 프로토타입 매칭 및 지도 학습 기반 대조 학습을 결합하여 해석 가능한 진단을 제공합니다. DEFault-bench라는 체계적인 벤치마크와 함께 개발되어, 높은 탐지율과 분류 정확도를 입증했으며 실제 개발자 연구에서도 수정 행동 선택 능력을 크게 향상시켰습니다.

희소 오토인코더는 개념 다양체를 포착하는가?

본 논문은 희소 오토인코더(SAEs)가 신경망에서 개념 다양체(concept manifolds)를 포착하는 방식에 대한 이론적 프레임워크를 제시한다. SAE는 전통적으로 개념이 독립적인 선형 방향에 존재한다고 가정하지만, 실제 데이터의 개념들은 연속적인 저차원 다양체를 따라 조직화되어 있다. 연구진은 SAE가 이러한 다양체를 전역적으로(global) 포함하는 원자 그룹을 할당하거나, 국소적으로(local) 기하학적 영역을 타일링하여 포착할 수 있음을 이론적으로 증명했다.

Crab: 에이전트 샌드박스를 위한 의미 인식 체크포인트/복원 런타임

Crab은 자율 에이전트가 작동하는 샌드박스 환경에서 상태를 효율적으로 체크포인트 및 복원(C/R)하기 위한 투명 호스트 측 런타임을 제안합니다. 기존 방식의 비효율성(애플리케이션 수준만 보거나, 매 턴마다 전체 체크포인트를 수행하는 것)을 극복하고, 에이전트와 OS 간의 의미적 격차를 해소하는 것이 핵심입니다. eBPF 기반 인스펙터와 조정기 등을 활용하여 복구에 필요한 상태 변화만을 식별적으로 포착함으로써, 복원 정확도를 높이고 체크포인트 오버헤드를 획기적으로 줄였습니다.

집단적 공격과 지원을 갖춘 논증 프레임워크의 분할

본 연구는 이면성(defeasible) 요소 간의 지원 관계를 통합한 새로운 논증 형식에 대한 분할 기법을 제안합니다. 특히, 집단적 공격(SETAFs)과 이면성 논증 프레임워크(BAFs)를 모두 포괄하는 일반화된 집합 기반 논증 프레임워크(BSAFs)를 기반으로 합니다. 연구는 구조화된 논증 및 비평탄한 가정 기반 논증을 자연스럽게 다루며, 다양한 형태의 분할 스키마와 그 정합성을 제시합니다.

단일 편향 너머의 균형 계산

기존의 나시 균형이나 상관 균형 같은 개념들은 단일 플레이어의 편향에는 강하지만, 연합에 의한 조정된 다자간 편향에는 취약합니다. 본 논문은 이러한 한계를 극복하기 위해, 편향 동기를 소멸시키도록 요구하는 대신 이를 최소화함으로써 존재가 보장되는 새로운 해법 개념을 제안합니다. 구체적으로, 이 연구는 편향 연합의 평균 이익과 연합 내 최대 이익을 최소화하는 균형에 초점을 맞추고, 이에 대한 계산 알고리즘 및 복잡도 하한을 제시하며, 이를 Exploitability Welfare Frontier(EWF) 해결에 적용합니다.

LLM 기반 트레이딩 카드 생성에서 절차적 관련성으로: 포켓몬 사례 연구

본 논문은 트레이딩 카드 게임(TCG)의 반복적인 플레이 경험 문제를 해결하기 위해 LLM과 이미지 확산 모델을 활용한 '절차적 콘텐츠 생성(PCG)' 방법을 제안한다. 이 방법은 개인화되고 무한한 카드 디자인을 가능하게 하여, 단순한 콘텐츠 제작을 넘어 플레이어와 카드를 연결하는 '절차적 관련성'을 부여하는 것을 목표로 한다. 사용자 연구를 통해 제시된 파이프라인이 높은 만족도를 보이며, 미래의 게임 시스템 및 메타게임 진화에 새로운 방향성을 제시함을 입증했다.

의미론을 넘어: 소규모 언어 모델을 기반으로 한 기계 번역에서의 세밀한 감정 보존 측정

본 논문은 소규모 언어 모델(SLMs)을 활용하여 기계 번역(MT) 과정에서 미묘한 감정 뉘앙스를 보존하는 방법을 탐구한다. 연구진은 EuroLLM, Aya Expanse, Gemma와 같은 최신 SLM들을 사용하여 GoEmotions 데이터셋 기반의 다섯 개 유럽 언어에 걸쳐 감정 보존 성능을 평가했다. 또한, 감정 인식 프롬프팅 기법과 MT 평가를 위한 ModernBERT의 효용성도 함께 분석하여 감정적 충실도를 높이는 방안을 제시한다.

AI 가 좋은 동료 검토자가 될 수 있을까? 동료 검토 프로세스, 평가 및 미래에 대한 조사

본 기술 기사는 대형 언어 모델(LLMs)이 학술 논문의 동료 검토(peer review) 프로세스 전반에 걸쳐 어떻게 활용될 수 있는지 포괄적으로 조사합니다. LLM을 이용한 생성 기술, 반박 및 메타 검토와 같은 후속 작업 처리 방법, 그리고 인간 중심부터 LLM 기반까지의 다양한 평가 방법을 다룹니다. 궁극적으로 이 조사는 전체 동료 검토 워크플로우에 LLM 시스템을 구축하고 통합하기 위한 실용적인 지침과 방향성을 제시하는 것을 목표로 합니다.

시각적 프라이밍이 비전-언어 모델의 협력 행동에 미치는 영향

본 논문은 반복 죄수의 딜레마(IPD)를 사용하여 시각적 프라이밍이 비전-언어 모델(VLMs)의 협력 행동에 미치는 영향을 조사합니다. 연구는 행동 개념을 담은 이미지 노출과 색상 지정 보상 행렬이 VLM의 의사결정 패턴을 어떻게 변화시키는지 분석했습니다. 그 결과, VLM의 행동은 이미지 콘텐츠와 색상 단서 모두에 민감하게 반응하며, 모델별로 이러한 민감도와 완화 효과가 다름을 보여주었습니다.

가정 기반 논증 프레임워크의 분할 (Splitting Assumption-Based Argumentation Frameworks)

본 논문은 계산 복잡도가 높은 가정 기반 논증(ABA) 프레임워크의 적용 가능성 문제를 다룹니다. 기존의 해결책인 '분할' 기법을 개선하여, 그래프 기반 구체화가 아닌 지식베이스 자체에서 분할 개념을 조사하고 이를 ABAFs에 대한 파라미터화된 버전으로 일반화하는 새로운 접근 방식을 제안합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.