Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2086건필터 해제

EviLink: 대규모 Text-to-SQL을 위한 불확실성 유도 증거 획득 기반의 다중 경로 스키마 연결 (Schema Linking)

EviLink는 대규모 Text-to-SQL 작업에서 스키마 연결을 불확실성 인지 추론 문제로 재정의한 연구입니다. 다중 가설 그라운딩과 증거 획득 방식을 결합하여 스키마의 완전성, 관련성, 토큰 비용 간의 최적의 균형을 달성합니다.

5월 29일0

arXiv논문

표기법의 중요성: 에이전트 AI 시스템에서의 토큰 최적화 형식에 관한 벤치마크 연구

에이전트 AI 시스템에서 JSON의 토큰 오버헤드를 줄이기 위한 TOON 및 TRON 형식의 효용성을 벤치마크 연구를 통해 분석했습니다. 연구 결과, TRON은 정확도 손실을 최소화하며 최대 27%의 토큰 절감을 달성했으나, TOON은 다회차 파싱 실패와 병렬 호출 붕괴 문제를 보였습니다.

5월 29일0

arXiv논문

NICE: LLM의 사회적 지능을 위한 이론 기반 진단 벤치마크

LLM의 사회적 지능을 정밀하게 측정하기 위한 이론 기반 벤치마크인 NICE를 제안합니다. 사회 이론과 심리 측정 원칙을 바탕으로 구축된 이 프레임워크는 모델의 사회적 역량을 4개 카테고리와 11개 차원으로 세분화하여 진단합니다.

5월 29일0

arXiv논문

FHRFormer: 태아 심박수 (FHR) 시계열 인페인팅 (Inpainting) 및 예측을 위한 자기지도 학습 기반 마스크 트랜스포머

FHRFormer는 태아 심박수(FHR) 데이터의 결측치를 복원하기 위한 자기지도 학습 기반의 마스크 트랜스포머 모델입니다. 시간적 및 주파수 성분을 모두 포착하여 신호 인페인팅과 예측을 수행하며, 웨어러블 모니터링의 신호 탈락 문제를 해결합니다.

5월 29일0

arXiv논문

선호도 기반 최대 만족도(MaxSAT)를 통한 대규모 언어 모델(LLM)의 신뢰할 수 있는 추론

LLM이 복잡한 제약 조건과 사용자 선호도를 해결하기 위해 MaxSAT 문제를 Python 코드로 변환하여 추론하는 하이브리드 방식을 제안합니다. 생성된 코드는 솔버를 통해 실행 가능성과 최적성을 독립적으로 검증받아 추론의 신뢰성을 높입니다.

5월 29일0

arXiv논문

궤적 보상을 넘어: 그래프 모델링을 통한 에이전틱 검색(Agentic Search)의 단계별 신용 할당

에이전틱 검색에서 개별 단계의 기여도를 정량화하기 위해 그래프 모델링 기반의 GDCR 보상 방식을 제안합니다. 잠재적 세계 그래프 내에서 정답 노드까지의 거리를 기준으로 보상을 부여하며, SAPO 알고리즘을 통해 이를 최적화합니다.

5월 29일0

arXiv논문

BitTP: Edge-Devices를 위한 BitLLM 기반의 경량 궤적 예측 모델

자율 시스템을 위한 LLM 기반 궤적 예측 모델을 엣지 디바이스에 배포하기 위해 제안된 BitTP 연구를 소개합니다. 가중치 전용 1.58비트 양자화 방식을 통해 메모리와 지연 시간을 줄이면서도 예측 성능을 향상시켰습니다.

5월 29일0

arXiv논문

개인화된 턴 단위 사용자 대화 만족도 벤치마크

사용자별 기대치와 이전 맥락을 반영한 개인화된 턴 단위 대화 만족도 평가 방법론을 제안합니다. 압축된 사용자 메모리를 활용해 만족도 점수와 불만족 근거를 생성하며, 이를 통해 모델 간의 개인화 성능을 통제된 방식으로 비교할 수 있는 PersTurnBench 벤치마크를 소개합니다.

5월 29일0

arXiv논문

인간의 시험 전략을 활용하여 언어 모델의 근거 기반 주장 사실성 검증 학습시키기

LLM의 근거 기반 주장 사실성 검증을 위해 인간의 시험 전략을 활용한 새로운 방법론을 제안합니다. 명시적 프롬프팅을 통해 토큰 사용량을 80% 이상 절감하면서도 SOTA 성능을 달성했으며, 이를 소형 언어 모델(SLM)로 전이하여 효율성을 극대화했습니다.

5월 29일0

arXiv논문

NaRA: Diffusion LLM의 매개변수 효율적 미세 조정을 위한 노이즈 인식 LoRA

Diffusion LLM의 효율적인 미세 조정을 위해 노이즈 수준을 반영하는 NaRA 기법을 제안합니다. 기존 LoRA가 확산 과정의 동적 특성을 무시하는 한계를 극복하여, 하이퍼네트워크를 통해 노이즈에 따라 변화하는 저차원 행렬을 생성합니다.

5월 29일0

arXiv논문

건물 간 에너지 예측을 위한 불확실성 인지 전이 학습: 견고하고 확장 가능한 구역 단위 에너지 관리를 향하여

Temporal Fusion Transformer(TFT)를 기반으로 건물 간 에너지 예측을 위한 불확실성 인지 전이 학습 프레임워크를 제안합니다. Probe-Only 미세 조정 방식이 전체 미세 조정보다 우수한 전이 성능을 보임을 입증하며, 새로운 전이 견고성 지수(TRI)를 도입했습니다.

5월 29일0

arXiv논문

Multi-Legal-Bench: 관할권, 언어 및 법적 전통에 걸친 LLM의 법률 추론 평가

다양한 관할권과 언어를 아우르는 최초의 교차 언어 법률 벤치마크인 Multi-Legal-Bench를 소개합니다. 6개국 법원 판결문을 활용해 5가지 법률 작업을 정의하고, 다양한 LLM의 성능을 평가하여 언어적 근접성보다 레이블 정렬이 전이 품질에 더 중요하다는 점을 밝혀냈습니다.

5월 29일0

arXiv논문

실제 규제 준수 질의응답을 위한 인용 폐쇄형 검색 및 규칙별 속성 부여

규제 준수 질의응답을 위한 새로운 벤치마크인 RegOps-Bench와 통합 프레임워크 RefWalk를 제안합니다. 기존 RAG의 한계를 극복하기 위해 지식 그래프와 규칙별 속성 부여를 활용하여 인용 정확도와 추적 가능성을 높였습니다.

5월 29일0

arXiv논문

왜 전문 모델이 여전히 중요한가: 의료 인공지능을 위한 이기종 멀티 에이전트 패러다임

범용 LLM과 도메인 특화 모델의 협업을 조율하는 이기종 멀티 에이전트 프레임워크 HetMedAgent를 제안합니다. 실험을 통해 전문 모델이 범용 모델의 한계를 보완하며 의료 의사 결정에서 필수적인 역할을 수행함을 입증했습니다.

5월 29일0

arXiv논문

대조 단계별 가상 단색 영상을 위한 통합 딥러닝 프레임워크

단일 에너지 CT(SECT) 데이터로부터 대조 단계별 특화된 가상 단색 영상을 합성하는 통합 딥러닝 프레임워크를 제안합니다. 대조 단계 정보를 사전 정보로 활용하는 새로운 아키텍처를 통해 하드웨어 비용 문제를 해결하고 영상의 대조도를 향상시킵니다.

5월 29일1

arXiv논문

Transformer 기반 EEG 파운데이션 모델을 위한 위치 인코딩 (Positional Encoding) 전략 벤치마킹

Transformer 기반 EEG 파운데이션 모델의 성능 향상을 위한 다양한 위치 인코딩(Positional Encoding) 전략을 벤치마킹한 연구입니다. 연구 결과, 작업의 종류에 따라 최적의 인코딩 방식이 다르며 SPE와 ACPE 등 각 전략의 특성이 다름을 확인했습니다.

5월 29일1

arXiv논문

LFQ: 저비트 양자화된 LLM의 생성 품질 향상을 위한 로짓 인식 최종 블록 양자화 (Logit-aware Final-block

LLM의 저비트 양자화 과정에서 발생하는 생성 품질 저하 문제를 해결하기 위한 LFQ 기법을 제안합니다. 로짓(Logit) 수준의 교차 엔트로피를 최소화하여 최종 블록을 양자화함으로써, 생성 작업의 정확도를 크게 향상시킵니다.

5월 29일1

arXiv논문

XXLTraffic에서 EvoXXLTraffic으로: 센서 진화 네트워크로의 교통량 예측 확장

기존의 고정된 센서 환경을 넘어, 도로망의 변화와 성장을 반영한 XXLTraffic 및 EvoXXLTraffic 데이터셋을 소개합니다. 센서가 지속적으로 추가되는 진화하는 그래프 환경에서의 초장기 교통량 예측을 위한 새로운 벤치마크를 제안합니다.

5월 29일1

arXiv논문

시맨틱 세그멘테이션을 위한 단일 패스 픽셀 단위 분포 외 탐지(OOD Detection)를 위한 에너지 인식 NECO

모바일 로봇의 시맨틱 세그멘테이션을 위해 단일 패스로 픽셀 단위 OOD 탐지가 가능한 Energy-Aware NECO를 제안합니다. 기하학적 비율과 에너지 점수를 결합하여 엣지 플랫폼에서도 효율적이고 강력한 불확실성 추정이 가능함을 입증했습니다.

5월 29일0

arXiv논문

Hista 및 Numca: LLM 강화학습 (RL)을 위한 효과적인 상태 가치 (State Value) 추정

LLM 강화학습 시 발생하는 상태 가치 추정의 한계를 분석하고, 이를 해결하기 위한 새로운 벤치마크(SVEB)와 두 가지 기술(Numca, Hista)을 제안합니다. 실험을 통해 제안된 방법론이 계산 오버헤드 없이 학습 성능을 향상시킴을 입증했습니다.

5월 29일1

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드