Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AI 2266건필터 해제
ECG로 학습된 인공지능 (Artificial Intelligence) 모델을 통한 심근경색 (Myocardial Infarction) 이후
본 연구는 심근경색(MI) 이후의 결과를 예측하기 위해, 부족한 라벨링 데이터를 극복하는 새로운 AI 모델을 제안합니다. 이 모델은 대조 학습(Contrastive learning)으로 환자 특이적 시계열 정보를 결합하고, 지도 학습 기반 멀티태스크 헤드를 사용하는 사전 학습된 AI 모델을 활용하여 미세 조정됩니다. 그 결과, 기존의 모델보다 월등히 높은 분류 성능(AUC 0.794 vs 0.608)을 달성하며 임상적 ECG 모델링의 중요성을 입증했습니다.
강화학습 기반 콘텐츠 생성기를 위한 지역적 제약 조건 학습
본 논문은 지역적 제약 조건 학습의 장점(시각적 만족도)과 강화학습 기반 생성기의 장점(전역적 속성 보장)을 결합한 하이브리드 콘텐츠 생성 방법을 제시합니다. 구체적으로, Wave Function Collapse (WFC)가 학습한 제약 조건을 사용하여 PCGRL 생성기의 행동 공간을 제한함으로써, 지역적 규칙 준수와 전역적 플레이 가능성을 동시에 달성하는 것을 목표로 합니다.
의인화를 넘어: 생성형 AI를 향한 심층 자기공개에서 인지된 비인간성과 구조적 유사성의 역할 탐색
본 연구는 생성형 AI에 대한 심층 자기공개 과정에서 의인화 외의 요인으로 '인지된 비인간성'과 '구조적 유사성'이 어떤 역할을 하는지 탐색했습니다. 2,400명의 참가자를 대상으로 한 설문 데이터 분석 결과, 이 두 가지 인지(높은 그룹)를 모두 가진 사용자가 자기공개 가능성이 유의미하게 높았으며, 자기공개 깊이에서도 그룹 간 차이가 발견되었습니다. 연구진은 이러한 신뢰 관련 행동이 의인화 외의 요인을 포함할 수 있음을 시사하며, 향후 종단적 또는 실험적 연구가 필요하다고 결론지었습니다.
위치: 보조 에이전트는 접근성 정렬 (Accessibility Alignment)이 필요하다
시각 장애(BVI) 사용자를 위한 보조 에이전트는 접근성 정렬(Accessibility Alignment)이라는 최우선 목표가 필요하다. 현재의 에이전트 AI는 시각적 상호작용과 일반 사용자 중심의 설계 가정을 기반으로 하여, BVI 사용자가 직면하는 고유한 검증 및 상호작용 제약 조건에서 체계적인 실패를 보일 수 있다. 따라서 접근성을 단순한 사용성 문제가 아닌 근본적인 정렬 문제로 다루고, 이를 위한 라이프사이클 지향적 설계 파이프라인을 구축해야 한다.
HetScene: 밀집된 실내 장면 생성을 위한 이질성 인식 확산 모델 (Heterogeneity-Aware Diffusion)
HetScene은 제어 가능하고 물리적으로 타당한 실내 장면 생성을 목표로 하는 이질적 2단계 생성 프레임워크입니다. 기존 방법들이 객체를 균일하게 처리하여 밀집된 복잡한 레이아웃 모델링에 어려움을 겪는 문제를 해결하기 위해, HetScene은 구조적 이질성 관점에서 객체를 주요 객체와 보조 객체로 분해합니다. 이를 통해 실내 레이아웃 합성을 구조적 레이아웃 생성(SLG)과 문맥적 레이아웃 생성(CLG)으로 분리하여 전역적으로 일관된 구조를 먼저 구축한 후, 세부적인 장면을 완성할 수 있습니다.
대조적 근사 정책 최적화 (Contrastive Proximal Policy Optimisation)를 통한 자기지도 온폴리시 강화학습
기존의 대조적 강화학습(CRL)은 주로 오프폴리시 방식과 연속적 행동 공간에 국한되어 있었으나, 본 논문은 이를 온폴리시 방식으로 확장한 CPPO를 제안합니다. CPPO는 보상 함수나 리플레이 버퍼 없이 대조적 Q-값에서 정책 이점을 직접 도출하여 표준 PPO 목적 함수로 최적화합니다. 실험 결과, CPPO는 이산적/연속적 환경 및 단일/다중 에이전트 작업 전반에서 기존 CRL을 능가하며 수작업 보상을 사용하는 PPO와 대등하거나 더 높은 성능을 보였습니다.
불확실성을 동반한 가치 기반 의사결정을 위한 비가중치 순위 지정
본 연구는 지능형 시스템의 자율적 의사결정이 인간의 가치를 준수하도록 돕기 위해 Fuzzy-Unweighted Value-Based Decision Making (FUW-VBDM) 프레임워크를 제안합니다. 이 프레임워크는 정량적 및 정성적 기준을 통합하여 인간 중심의 결정을 생성하며, 특히 사전 가중치 제거와 퍼지 영역 도입을 통해 규범적 편향 문제를 해결하는 것이 핵심입니다. 또한, 불확실성을 다루기 위해 맞춤형 비가중치 순위 지정 방법인 Rankzzy를 제시하고 그 적용 가능성과 우수한 성능을 입증했습니다.
OpenAaaS: 분산된 재료 정보학 (Materials-Informatics) 연구를 위한 개방형 Agent-as-a-Service 프레임워크
본 기사는 분산된 재료 정보학 연구의 한계를 극복하기 위해 OpenAaaS라는 오픈 소스 Agent-as-a-Service 프레임워크를 제안합니다. OpenAaaS는 '코드는 흐르고, 데이터는 머문다' 원칙을 기반으로 하며, 마스터 에이전트가 복잡한 과제를 계획하고 하위 에이전트들이 로컬 데이터 주권을 유지하며 계산을 수행하도록 합니다. 이 아키텍처를 통해 기관 간의 경계를 넘나드는 안전하고 확장 가능한 재료 지능형 설계 및 연구 협업이 가능해집니다.
에이전트 행동을 해석하는 방법
본 글은 자율 에이전트(Autonomous agents)의 장시간 런타임 행동을 이해하고 분석하는 방법을 제시합니다. 핵심적으로, 비구조화된 자연어 형태의 추론 궤적 및 실행 흔적 데이터를 체계적으로 해석하기 위해 ACT*ONOMY라는 분류 체계를 소개합니다. ACT*ONOMY는 3단계 계층 구조와 자동화된 분석 파이프라인을 결합하여 에이전트 행동을 표준화하고, 연구자 및 설계자가 일관되게 이해할 수 있도록 지원합니다.
자아 중심적 공동 장면 모델링을 통한 인과 관계 인식 엔드 투 엔드 자율 주행
본 논문은 기존 자율 주행 시스템이 간과하는 인과적 상호 의존성을 해결하기 위해 'CaAD'라는 새로운 엔드 투 엔드 프레임워크를 제안합니다. CaAD는 공유된 잠재 장면 표현 내에서 자차와 주변 에이전트 간의 인과 관계를 인식하고, 이를 통해 더욱 일관성 있고 신뢰할 수 있는 미래 경로 예측을 수행합니다. 이 프레임워크는 특히 복잡한 상호작용 시나리오에서 강력한 폐루프 계획 성능을 입증했습니다.
의미론적 기반 정규화로서의 약지도 세그멘테이션 (Weakly Supervised Segmentation as Semantic-Based
본 논문은 약지도 의미론적 세그멘테이션(WSSS)의 한계를 극복하기 위해 신경 기호적 관점(neurosymbolic perspective)을 도입합니다. 미분 가능한 퍼지 논리(differentiable fuzzy logic)를 딥 세그멘테이션 모델에 통합하여, 약한 주석과 도메인 특화 사전 지식을 연속적인 논리적 제약 조건으로 활용합니다. 이를 통해 SAM 같은 파운데이션 모델을 개선된 의사 라벨을 생성하는 프롬프트 프리(prompt-free) 세그멘테이션 모델로 미세 조정하며, 기존의 조밀한 지도 학습 베이스라인을 능가하는 높은 정확도를 달성했습니다.
예측 가능한 스케일링 법칙(Scaling Laws)과 추론(Reasoning)의 증명 가능한 이점을 가진 계층적 언어 모델
본 논문은 트리 구조를 가진 합성 언어 제품군을 소개하고, 이 언어를 통해 자기회귀 생성 및 추론의 역할을 분석했습니다. 핵심 방법론은 기존 트랜스포머 모델의 컨텍스트 길이 $k$ 대신 정확한 $k$-gram ansatz를 사용하는 것입니다. 이를 통해 학습된 모델이 생성하는 시퀀스의 분포 통계에 대한 명시적인 점근적 예측을 도출합니다. 분석 결과, 실제 언어와 비교했을 때 하위 선형 컨텍스트는 편차를 보이며, 특히 유한한 메모리를 가진 추론 모델은 $ ext{length } n$의 시퀀스를 샘플링하는 데 필요한 컨텍스트 길이에 대해 $\Omega(n)$의 하한이 존재함을 보여줍니다. 반면, 본 연구진은 단 $\Theta(\log n)$의 작업 메모리만으로도 실제 언어로부터 정확하게 샘플링할 수 있음을 증명하며 지수적인 개선을 제시합니다.
생성형 프레임워크를 이용한 의료 영상에서의 교차 모달리티 이미지 변환
본 연구는 의료 영상 분야에서 재현 가능하고 표준화된 비교 평가를 제공하는 생성형 프레임워크를 제안합니다. 이 프레임워크는 3D Image-to-Image (I2I) 변환 방법론을 체계적으로 비교하며, GANs와 잠재 생성 모델 등 총 7개의 다양한 생성 모델을 활용하여 11개 데이터셋과 77회의 실험을 수행했습니다. 연구 결과, 모든 작업에서 GANs가 잠재 생성 모델보다 우수한 성능을 보였으며, 합성된 영상이 임상의의 시각적 테스트에서도 실제 영상과 구별하기 어려울 정도로 높은 수준임을 입증했습니다.
NAACA: 돌출도 기반 주의 집중 게이팅을 위한 진동 작업 기억을 갖춘 훈련이 필요 없는 신경-청각 주의적 인지 아키텍처
NAACA는 긴 오디오 녹음에서 발생하는 주의력 병목 현상을 해결하기 위해 제안된 훈련이 필요 없는 신경-청각 주의적 인지 아키텍처입니다. 신경 모사형 진동 작업 기억(OWM)을 통해 지각적 돌출도가 감지될 때만 고차원 추론을 트리거함으로써 효율적인 주의력 할당을 수행합니다. XD-Violence 데이터셋 실험 결과, 불필요한 모델 호출을 줄이면서도 AudioQwen의 평균 정밀도(AP)를 53.50%에서 70.60%로 크게 향상시켰습니다.
WidthWall: Hypergraph Neural Networks를 위한 엄격한 표현력 계층 구조
본 연구는 하이퍼그래프 신경망(HGNNs)의 표현력 한계를 분석하고, 이 한계가 'Width Wall'이라는 근본적인 아키텍처적 장벽에 의해 결정됨을 보여줍니다. HGNN의 표현력은 구조적 모티프의 출현 빈도를 측정하는 '준동형 밀도(homomorphism densities)'로 공식화되며, 이는 하이퍼트리 너비(hypertree width)로 인덱싱된 엄격한 계층 구조를 형성합니다. 연구진은 이 프레임워크를 통해 기존 HGNN 아키텍처의 한계를 식별하고, 밀도 인식 모델을 제안하며 실제 응용 사례에서 그 유효성을 검증했습니다.
Canary Tokens를 이용한 AI 웹 스크레이퍼 식별
본 논문은 웹사이트 소유자가 자신들의 콘텐츠를 사용하는 AI 관련 웹 스크레이퍼를 정확하고 자동으로 식별할 수 있는 새로운 기술을 제안합니다. 기존의 스크레이퍼 식별 방법들이 신뢰성이나 확장성에 문제가 있었던 점을 개선했습니다. 이 기술은 방문하는 각 스크레이퍼에게 고유한 'canary tokens'를 포함하는 동적 웹사이트를 호스팅하고, LLM에 사이트 정보를 요청하여 특정 토큰이 포함된 출력을 일관되게 생성하는지 확인하는 방식으로 작동합니다.
Humanwashing -- 그것은 당신에게 불쾌한 기분을 남겨야 한다
AI 의사결정 시스템에서 '인간 참여형(Human in the loop)'이라는 용어가 안전하다는 인상을 주기 위해 과도하게 사용되고 있습니다. 하지만 현재 배포된 많은 AI 시스템은 이 개념에 적절히 해당하지 않습니다. 필자는 인간의 감독(Human oversight)이 편향, 차별, 투명성 등의 우려를 해결하는 가장 인기 있는 제안이지만, 그 의미가 불분명하며 '루프'라는 은유의 무분별한 사용이 시스템을 긍정적으로 보이게 하는 '휴먼워싱(humanwashing)'을 초래한다고 지적합니다.
AnyFlow: On-Policy Flow Map Distillation을 이용한 Any-Step 비디오 확산 모델
AnyFlow는 기존의 Few-step 비디오 생성 기술인 일관성 증류(Consistency Distillation)가 테스트 시 더 많은 샘플링 단계에서 성능 저하를 보이는 한계를 해결하기 위해 제안된 프레임워크입니다. AnyFlow는 모델을 고정된 몇 개의 샘플링 단계에만 증류하는 대신, 전체 ODE 샘플링 궤적을 최적화하여 임의의 시간 간격에 대한 Flow Map 전이 학습으로 전환합니다. 이를 통해 온-정책 증류를 수행하고 테스트 시 이산화 오류 및 노출 편향을 줄여, 샘플링 단계 예산에 따라 성능이 확장되는 Any-step 비디오 확산 모델을 구현했습니다.
ScioMind: 앵커링 기반 신념 역학 및 동적 프로필을 활용한 인지적 근거 기반 다중 에이전트 사회 시뮬레이션
ScioMind는 대규모 언어 모델(LLM)을 활용하여 사회적 의견 역학을 연구하는 인지적 근거 기반 다중 에이전트 시뮬레이션 프레임워크입니다. 이 시스템은 메모리 앵커링 기반 신념 업데이트 규칙, 계층적 메모리 아키텍처, 그리고 동적 에이전트 프로필이라는 세 가지 핵심 구성 요소를 통합합니다. ScioMind는 실제 정책 토론 시나리오에서 양극화, 다양성, 극단화 등의 지표 전반에 걸쳐 높은 행동적 사실성을 보여주며, 기존 LLM 기반 시뮬레이션의 한계를 개선하는 새로운 솔루션을 제시합니다.
궤적 제어형 인간 동작 생성을 위한 다중 조건 조정
본 논문은 텍스트 설명과 공간적 궤적이라는 두 가지 조건을 모두 활용하여 현실적인 인간 동작을 생성하는 '궤적 제어형 인간 동작 생성' 문제를 다룹니다. 기존 방법들이 겪던 조건 충돌 및 표현 불일치 문제를 해결하기 위해, 연구진은 분할 정복(divide-and-conquer) 전략 기반의 CMC 프레임워크를 제안했습니다. CMC는 궤적 유도 하에 단순화된 동작을 생성하는 단계와, 이를 바탕으로 전신 동작을 완성하는 두 개의 직렬 단계로 구성되어 높은 제어 정확도와 동작 품질을 달성합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.