Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

Design Conductor 2.0: 에이전트가 80 시간 만에 TurboQuant 추론 가속기를 구축합니다

LLM 에이전트의 발전은 하르네스(harness)와 기반 모델의 빠른 공진화에 힘입어 놀라운 속도로 진행되고 있습니다. 이번 연구에서 소개된 업데이트된 다중 에이전트 시스템인 'Design Conductor 2.0'은 이전보다 훨씬 큰 작업을 처리하며, 완전히 자율적으로 작동할 수 있는 높은 품질을 보여줍니다. 이 시스템은 LLM 추론 가속기(VerTQ)를 포함하여, 복잡한 하드웨어 설계를 80시간 만에 성공적으로 구축하고 FPGA에 매핑하는 성과를 입증했습니다.

5월 7일5

arXiv논문

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior

본 논문은 Behavior Cloning(BC)의 한계점인 온라인 개선 메커니즘 부재를 해결하기 위해 Q2RL이라는 새로운 오프라인-온라인 학습 알고리즘을 제안합니다. Q2RL은 BC 정책으로부터 Q-함수를 추정하고, 이 Q-값을 기반으로 샘플 수집 과정에서 BC와 강화학습(RL) 정책 행동 간의 전환을 관리하여 효율적인 온라인 개선을 가능하게 합니다. D4RL 및 robomimic 벤치마크에서 높은 성공률과 빠른 수렴 속도를 보여, 특히 고정밀 조작 작업에 효과적임을 입증했습니다.

5월 7일10

arXiv논문

LongSeeker: 장기 지평 검색 에이전트를 위한 탄성 컨텍스트 오케스트레이션

본 논문은 복잡하고 긴 작업을 수행하는 검색 에이전트(long-horizon search agent)가 직면하는 컨텍스트 관리 문제를 해결하기 위해 '탄성 컨텍스트 오케스트레이션' 패러다임을 제안합니다. 이 패러다임은 Context-ReAct이라는 통합 루프를 통해 Skip, Compress, Rollback, Snippet, Delete와 같은 5가지 원자 연산을 제공하여 에이전트가 작업의 관련성에 따라 컨텍스트를 동적으로 재구성할 수 있게 합니다. 이를 기반으로 개발된 LongSeeker는 기존 검색 벤치마크에서 높은 성능을 보여주며, 적응적 컨텍스트 관리가 장기 지평 추론의 신뢰성과 효율성을 크게 향상시킬 수 있음을 입증했습니다.

5월 7일9

arXiv논문

Diffusion Transformers (DiT) 의 이상치 토큰 제어 연구

본 논문은 이미지 생성을 위한 Diffusion Transformers (DiT)에서 발생하는 '이상치 토큰(outlier tokens)' 문제를 다룹니다. 기존 연구가 높은 노름을 가진 소수 토큰에 초점을 맞췄다면, 본 연구는 이 현상이 단순히 극단적인 값 때문이 아니라 손상된 지역 패치 의미론과 관련 있음을 밝혀냈습니다. 이를 해결하기 위해 훈련된 레지스터를 활용하는 Dual-Stage Registers (DSR)라는 개입 기법을 제안했으며, 이는 DiT의 아티팩트를 줄이고 전반적인 생성 품질을 향상시키는 효과를 보였습니다.

5월 7일4

arXiv논문

반례 게임: 언어 모델의 반복적 개념 분석과 수정

본 연구는 언어 모델(LM)이 '반례 제시 및 수정'이라는 철학적 개념 분석 과정을 반복적으로 수행할 수 있는지 탐구했습니다. 20개 개념에 대해 수천 번의 반례-수정 사이클을 거친 결과, LM은 인간과 유사하게 유효성 판단에서 일관성을 보였으나, LM 판사는 인간보다 더 많은 반례를 수용하는 경향이 있었습니다. 또한, 반복적인 수정 과정이 정의의 정확도를 개선하기보다는 단순히 길어지게 만들고, 일부 개념은 안정화된 정의에 저항한다는 점을 발견했습니다.

5월 6일7

arXiv논문

베이지안 불확실성 정량화에서 연산적 변분 추론: 후방 및 예측 분포의 공동 학습

본 논문은 베이지안 예측 추론의 계산적 비효율성을 해결하기 위해 새로운 변분 베이지안 프레임워크를 제안합니다. 기존 방식이 후방 분포 근사 후 몬테카를로 시뮬레이션을 통해 예측을 수행하는 두 단계 절차인 반면, 이 방법은 후방 및 이에 대응하는 예측 분포를 공동으로 학습하여 계산 비용을 크게 줄입니다. 특히 연산적(amortized) 방식으로 변분 분포를 훈련함으로써, 고충실도 모델에서도 정확도를 유지하면서 온라인 추론 속도를 향상시킬 수 있습니다.

5월 6일8

arXiv논문

AI 옹호자: 소프트웨어 개발 스쿼드를 미래형 하이브리드 구조로 전환하는 교육 경로 분석

이 논문은 전통적인 소프트웨어 개발 스쿼드를 인간과 인공지능(AI)의 협업을 기반으로 하는 미래형 하이브리드 구조로 전환하기 위한 교육 전략을 분석합니다. 특히, 기존 전문가를 'AI 옹호자(AI Advocate)'로 업스킬링하는 과정을 통해 조직 내 문화적 및 기술적 변혁을 촉진하는 방안에 초점을 맞춥니다. 본문은 브라질 사내 기술 기업의 실제 경험 보고를 바탕으로 AI 옹호자의 교육 과정과 주요 과제를 제시합니다.

5월 6일11

arXiv논문

DMGD: 확산 모델 기반의 훈련 없는 데이터 디스틸레이션과 의미 분포 매칭

본 논문은 대규모 데이터셋의 정보를 작은 합성 데이터셋으로 압축하는 확산 모델 기반의 데이터 디스틸레이션 기법을 제안합니다. 기존 방법들이 필요로 했던 추가적인 미세 조정 단계를 제거하고, 훈련 없는 효율적인 가이드를 중심으로 Dual Matching Guided Diffusion (DMGD) 프레임워크를 제시했습니다. DMGD는 의미 매칭과 오토모티브 트랜스포트(OT) 기반 분포 매칭을 결합하여 합성 데이터의 다양성을 유지하면서 목표 분포 구조에 효과적으로 정렬하는 것이 특징입니다.

5월 6일8

arXiv논문

Deco: 물리적 객체를 퍼지브 AI 동반자로 확장하는 쌍중이체 프레임워크

본 논문은 사용자가 물리적 객체에 느끼는 애착을 AI 동반자로 확장하는 '쌍중이체(Doppelgänger)' 프레임워크인 Deco를 제안합니다. Deco는 다중 모달 LLM과 증강 현실을 통합하여, 디지털 에이전트가 물리적 동반자의 감정적 유대와 역사를 계승하고 확장할 수 있도록 합니다. 연구 결과에 따르면, Deco는 기존의 디지털 동반자보다 인식된 동반성 및 감정적 유대 측면에서 우수하며, 사용자의 주관적 웰빙 개선과 지속적인 참여를 입증했습니다.

5월 6일7

arXiv논문

하이브리드 및 컴퓨팅 집약적 HPC 환경에서의 비동기 인간-AI 협업에 대한 워크플로우 지향 프레임워크

본 논문은 고위험 방위 및 보안 분야와 같이 인간 개입이 필수적인 컴퓨팅 집약적 HPC 환경을 위한 비동기 인간-AI 협업 워크플로우 프레임워크를 제안합니다. 이 프레임워크는 HPC 클러스터, 로컬 머신, 클라우드 등 하이브리드 인프라 전반에 걸쳐 작동하며, 컴퓨팅 작업을 중단하지 않고 정의된 체크포인트에서 인간의 입력을 받아 비차단적 감시 및 적응형 워크플로우를 가능하게 합니다. 이를 통해 자원 대기 시간을 최소화하고 운영 AI 시스템의 효율성과 이동성을 크게 향상시킬 수 있습니다.

5월 6일10

arXiv논문

MOSAIC-Bench: 코딩 에이전트의 구성적 취약성 유도 측정

MOSAIC-Bench는 코딩 에이전트가 개별 안전 검토를 통과하더라도 복잡한 엔지니어링 작업(티켓 분해)을 수행하는 과정에서 구조적인 취약점을 배포할 수 있음을 보여주는 새로운 벤치마크입니다. 이 벤치마크에 따르면, 주요 상용 코딩 에이전트들은 최종적으로 무해한 티켓을 작성하는 데 성공하며 높은 전체 ASR(end-to-end ASR)을 보였습니다. 또한, 기존의 코드 리뷰어 프로토콜은 이러한 누적된 취약점을 효과적으로 잡아내지 못했으며, 적대적인 펜테스터 프레임워크를 적용한 오픈 웨이트 모델이 가장 우수한 탐지 성능을 보였습니다.

5월 6일9

arXiv논문

SymptomAI: 일상적인 증상 평가용 대화형 AI 에이전트 개발

SymptomAI는 Fitbit 앱을 통해 13,917명의 일반 참가자와 상호작용하도록 설계된 대화형 AI 에이전트 세트로, 일상적인 증상 평가 및 감별 진단(DDx)에 초점을 맞추고 있습니다. 이 시스템은 실제 세계의 다양한 소통 패턴과 질병 분포를 포착하여 구축되었으며, 무작위 이중 맹검 비교 결과 독립적인 의사의 진단보다 유의하게 높은 정확도를 보였습니다. 특히, 추가 증상 정보를 체계적으로 유도하는 특화된 '증상 인터뷰' 에이전트 전략은 일반 대화나 사용자 안내 대화보다 훨씬 뛰어난 성능을 입증했습니다. 이 연구는 소비자 LLM들이 기본 설정으로 사용하는 방식의 한계를 지적하며, 전문적인 임상 증상 평가의 중요성을 강조합니다.

5월 6일8

arXiv논문

Coherent Hierarchical Multi-Label Learning to Defer for Medical Imaging

본 논문은 의료 영상 분야에서 계층적 다중 라벨 학습(Multi-Label Learning)을 위한 새로운 '지연 학습(Learning to Defer, L2D)' 프레임워크를 제안합니다. 기존 연구가 평평한 라벨 공간을 가정했던 것과 달리, 본 연구는 임상 분류학에 기반한 계층적 구조를 도입하여 위임 결정의 복잡성을 다룹니다. 특히, 이 계층적 구조에서 발생하는 '위임 불일치(delegation violations)' 문제를 해결하기 위해, 일관된 계층적 위임을 공식화하고 두 가지 개선된 모델인 Exact Coherent Projection과 Taxonomic Belief Propagation (TBP) with Recursive Policy Optimisation (RPO)을 제시합니다. 실험 결과, 제안된 방법들이 기존 방식보다 불일치를 효과적으로 제거하면서도 높은 성능을 유지함을 입증했습니다.

5월 6일12

arXiv논문

지식 그래프의 계층 인식 임베딩: 효모 형질 예측에 대한 응용

본 논문은 온톨로지에서 유도된 의미적 손실(semantic loss)을 추가한 그래프 신경망(GNN)을 활용하여 지식 그래프(KGs)의 계층 인식 임베딩을 학습하는 방법을 제안합니다. 이 방법론은 효모 유전자 결손 효과 예측에 적용되어, 기존 모델 대비 높은 성능($R^2$=0.377)을 달성하며 도메인 지식을 효과적으로 반영함을 입증했습니다. 나아가, 학습된 임베딩을 활용하여 세포 성장 예측뿐만 아니라 새로운 데이터(삼중 유전자 knockouts)에도 일반화 가능성을 보여주었으며, 생물학적 가설 생성 및 검증에 기여할 잠재력을 제시합니다.

5월 6일8

arXiv논문

시각 언어 모델 (VLM) 을 활용한 인간 시각 노출계 (visual exposome) 의 정량화

본 연구는 기존 방법론이 포착하지 못했던 일상생활의 1인칭 시각적 맥락을 파악하기 위해 생태학적 순간 평가(EMA)와 시각 언어 모델(VLM)을 결합했습니다. 이를 통해 참가자들이 생성한 사진에서 녹지 추정치를 추출하여, 이것이 순간적인 감정과 만성 스트레스에 유의미하게 영향을 미치는 것을 입증했습니다. 나아가 대규모 LLM 기반 파이프라인을 개발하여 실제 이미지에서 정신 건강과 관련된 환경적 특징을 객관적으로 정량화할 수 있는 '시각 노출계(visual exposomics)' 패러다임을 제시했습니다.

5월 6일13

arXiv논문

FUS3DMaps: Voxel 및 Instance 레벨의 3D 융합을 통한 확장 가능하고 정확한 오픈-보컬리语义 매핑

FUS3DMaps는 공유 볼록 맵 내에서 밀집(dense) 및 인스턴스(instance) 레벨의 오픈-보컬리 세맨틱 레이어를 동시에 유지하는 온라인 이중 레이어 세맨틱 매핑 방법입니다. 이 접근 방식은 두 가지 세맨틱 매핑 방법을 결합하여 추가적인 볼록 레벨의 세맨틱 융합을 가능하게 합니다. FUS3DMaps는 인스턴스 및 밀집 레이어의 품질을 개선하고, 공간 슬라이딩 윈도우에 제한되지 않는 확장 가능하면서도 정확한 인스턴스 레벨 매핑을 제공하여 다층 건물 규모에서 높은 성능을 입증했습니다.

5월 6일10

arXiv논문

MEMTIER: 장기 실행 자율 AI 에이전트의 계층형 메모리 구조 및 검색 병목 현상 분석

본 논문은 장기 실행 자율 AI 에이전트가 직면하는 메모리 일관성 문제를 해결하기 위해 MEMTIER라는 계층형 메모리 구조를 제안합니다. MEMTIER는 JSONL 스토어, 신호 가중치 검색 엔진, 주의력 귀속 업데이트 루프 등 여러 구성 요소를 포함하며, 에피소드 사실을 의미론적 계층으로 촉진하는 비동기 통합 데몬을 특징으로 합니다. 이 구조를 통해 기존의 평면 메모리 시스템 대비 현저히 개선된 성능을 보여주었으며, 특히 장기간의 복잡한 추론 및 다중 세션 합성 능력에서 우위를 입증했습니다.

5월 6일9

arXiv논문

타이틀드 프롬프트, 타게트드 프로텍션: 스마트 컨트랙트 취약점 분석을 위한 LLM 기반 접근법

본 논문은 블록체인 스마트 컨트랙트의 보안 취약점을 탐지하기 위한 LLM 기반 프레임워크를 제안합니다. 기존 방식의 한계를 극복하기 위해, 15개 플랫폼에서 수집된 대규모 주석화 데이터셋을 활용하고 AST(Abstract Syntax Tree) 기반 컨텍스트 추출과 특화된 프롬프트 디자인을 결합했습니다. 이 접근법은 다양한 취약점 카테도리별 맞춤형 탐지기를 구현하여, 높은 평균 양의/음의 재현율(recall)을 달성하며 스마트 컨트랙트 보안 분석에 새로운 가능성을 제시합니다.

5월 6일12

arXiv논문

SERE: 사건 인과성 식별을 위한 LLM 성능 향상을 위한 구조적 예제 검색

본 논문은 사건 인과성 식별(ECI) 작업에서 대형 언어 모델(LLM)의 성능 한계를 극복하기 위해 구조적 예제 검색(Structural Example Retrieval, SERE) 프레임워크를 제안합니다. LLM이 ECI에서 겪는 인과 추론 편향 및 환각 문제를 완화하는 것이 목표입니다. SERE는 개념적 경로 지표, 문법적 지표, 그리고 인과 패턴 필터링이라는 세 가지 구조적 메커니즘을 통합하여, 주어진 작업에 가장 관련성 높은 예제를 검색하고 LLM의 인과 추론 능력을 효과적으로 안내합니다.

5월 6일8

arXiv논문

SAM-NER: 도메인 변화에 대한 제로샷 명사 인식 (ZS-NER) 을 위한 의미 원형 매개

본 논문은 제로샷 명사 인식(ZS-NER)이 도메인이나 스키마가 변경될 때 취약한 문제를 해결하기 위해 SAM-NER이라는 새로운 프레임워크를 제안합니다. SAM-NER는 '의미 원형 매개(Semantic Archetype Mediation)'라는 개념을 도입하여, 엔티티 정보를 도메인 불변의 원형 공간으로 투영하고 이를 통해 교차 도메인 전이의 안정성을 확보합니다. 이 3단계 프레임워크는 엔티티 발견, 추상 매개, 의미 보정 과정을 거쳐 높은 성능과 일반화 능력을 보여줍니다.

5월 6일7

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드