DiscoLoop: 멀티홉 추론 (Multi-hop Reasoning)을 위한 이산 임베딩 (Discrete Embeddings) 및 연속적

대규모 언어 모델 (Large language models)은 사고의 사슬 (Chain-of-Thought, CoT)로서 중간 단계들을 외현화할 수 있을 때 많은 추론 작업에서 강력한 성능을 달성합니다. 그러나 많은 질문들은 모델이 정답을 생성하기 전, 단일 순전파 (forward pass) 내에서 다단계 추론을 내면화할 것을 요구합니다. 우리는 모델이 단일 순전파 내에서 여러 개의 파라미터 지식 (parametric knowledge) 조각들을 결합해야 하는 대표적인 작업인 2-홉 추론 (two-hop reasoning)을 통해 이 과제를 연구합니다. 표준적인 비순환 트랜스포머 (non-recurrent Transformers)는 깊이 국소 저장 (depth-local storage) 문제로 인해 어려움을 겪습니다. 즉, 초기 레이어에서 학습된 사실들이 2-홉 검색 (second-hop retrieval)이 일어나는 지점에서는 사용 불가능해집니다. 우리는 루프 트랜스포머 (Looped Transformers)가 동일한 메모리를 재사용함으로써 이 문제를 완화하지만, 여전히 불완전하게 일반화된다는 것을 발견했습니다. 우리는 남아있는 병목 현상이 표현력 (representational)의 문제임을 보여줍니다. 2-홉 추론 작업에서, 첫 번째 루프는 종종 올바른 가교 엔티티 (bridge entity)를 거의 완벽하게 디코딩 가능하게 만들지만, 그에 상응하는 은닉 상태 (hidden state)는 가교 토큰 임베딩 (bridge token embedding)과 여전히 제대로 정렬되지 않은 상태로 남아 있습니다. 놀랍게도, 별도의 훈련이 필요 없는 간단한 재정렬 (realignment) 개입이 일반화 격차를 거의 해소합니다. 이러한 통찰을 바탕으로, 우리는 순환 (recurrence) 과정에서 이산 임베딩 채널 (discrete embedding channel)과 연속적 은닉 상태 채널 (continuous hidden-state channel)을 모두 전달하는 루핑 아키텍처인 DiscoLoop을 제안합니다. DiscoLoop은 기호 및 합성 언어 멀티홉 추론 (symbolic and synthetic-language multi-hop reasoning) 작업 전반에서 훨씬 적은 훈련 단계로 거의 완벽한 정확도를 달성합니다. 실제 세계의 사전 학습 (pretraining)에 적용했을 때, DiscoLoop은 루프 트랜스포머 (looped-transformer) 베이스라인보다 더 낮은 훈련 손실 (training loss)과 더 강력한 벤치마크 성능을 달성하며, 이는 혼합 채널 (mixed-channel) 설계가 실제 언어 모델링 (language modeling)으로 전이됨을 시사합니다.

Insights

DiscoLoop: 멀티홉 추론 (Multi-hop Reasoning)을 위한 이산 임베딩 (Discrete Embeddings) 및 연속적

요약

핵심 포인트

댓글

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!

AI 시대이기 때문에 더욱 사양과 설계가 필요하다고 생각한다

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!

AI 시대이기 때문에 더욱 사양과 설계가 필요하다고 생각한다