Arxiv 화이트페이퍼 연구 컬렉션 [R]

요약

1,700개의 Arxiv LLM 논문을 연구 관점과 '탐구 라인(inquiring lines)'으로 연결한 큐레이션 컬렉션을 공개했습니다. 주제별 분류를 넘어 공유된 연구 질문을 바탕으로 논문 간의 관계를 구조화하여 제공합니다.

핵심 포인트

1,700개 논문 기반 6,000개 주제 노트 및 7,000개 탐구 라인 구축
단순 주제 분류가 아닌 연구 질문 중심의 연결 구조 제공
관련 연구 탐색을 위한 LLM 전용 프롬프트 포함
패싯 검색을 통한 심층적인 연구 탐색 지원

저는 1,700개의 Arxiv LLM 중심 화이트페이퍼 발췌본을 연구 간의 연결 고리인 "탐구 라인 (inquiring lines)"으로 엮어낸, 직접 큐레이션한 컬렉션을 출시했습니다. 이는 단순히 주제별 연결이 아니라, 공유된 연구 관점을 바탕으로 합니다. 1,700개의 논문에 대해 연구를 분류하는 6,000개의 주제 노트(정렬 (alignment), 기계론적 해석 (mechinterp), 강화학습 (RL) 등)가 있습니다. 그리고 공유된 연구 질문(예: 무엇이 LLM의 추론을 설명하는가?)을 통해 구축된 7,000개의 탐구 라인이 있습니다.

이 컬렉션은 한정되어 있기 때문에, 각 탐구 라인은 컬렉션에 포함되지 않은 관련 연구를 찾기 위해 LLM에 바로 입력할 수 있는 프롬프트를 제공합니다. 또한 패싯 검색(faceted search, 예: 추론 실패 & 추론 흔적)을 통해 탐구 라인을 탐색할 수도 있습니다.

제가 이것을 만든 이유 중 하나는, 논문 자체가 자신의 연구 질문과 관련 연구 및 방법론에 매우 밀접하게 집중되어 있어, 서로 다른 도메인에 있는 유사한 프로젝트를 찾기가 어렵기 때문입니다(예: 정렬 솔루션으로서의 페르소나 vs 챗봇 대화에 사용되는 페르소나 vs 페르소나와 "감정적" 상태 및 추론).

이 프로젝트는 Max20 계정이 제공할 수 있는 모든 역량을 쏟아부어야 할 만큼 깊이 빠져들게 된 거대한 토끼굴과 같았습니다. 앞으로 매주 새로운 논문을 추가하며 업데이트할 예정입니다.

배경
저는 ChatGPT 출시 이후부터 Arxiv 화이트페이퍼를 읽고 수집해 왔습니다. 처음에는 이를 추적하기 위해 Word에 발췌본을 복사하여 붙여넣었습니다. 그 후 Obsidian으로 옮겼습니다. 약 1,700개의 논문이 담긴 그 보관함(vault)이 이제 온라인에 공개되었습니다. 다른 사람들에게도 이 컬렉션이 유용할지 확인해 볼 때가 되었다고 생각했습니다.

제 화이트페이퍼들은 모두 논문 주제에서 파생된 약 90개의 카테고리로 정리되었습니다. 새로운 방법론, 기술, 모델 등이 논의됨에 따라 새로운 카테고리가 필요해졌습니다. 특정 주제에 대해 글을 쓰고 싶을 때는 해당 주제에 대한 연구 발췌본이 담긴 md 파일을 ChatGPT에 업로드했습니다. 이것이 어느 정도 효과는 있었지만, 컨텍스트(context) 용량이 금방 가득 찼습니다. 그리고 연구가 어떻게 프레임화되었느냐에 따라 관련 연구가 항상 여러 카테고리에 걸쳐 있었습니다. (예: 정렬 (Alignment), 심리학 (Psychology), HCI 등에서의 페르소나 연구)

그래서 저는 플러그인을 사용하여, 공유된 개념을 중심으로 논문들 사이에 내부 및 외부 위키링크 (wikilinks)를 구축하는 주제 노트 (topic notes)를 만들었습니다. 이 모든 것을 온라인으로 옮기면서 저는 또 다른 합성 (synthesis) 계층을 추가했습니다. 제가 '탐구 라인 (Inquiring Lines)'이라고 부르는 것들입니다. 이것들은 가로지르기 (cross-cutting), 긴장 관계 드러내기 (tension-surfacing), 종합하기 (synthesizing), 그리고 프런티어 개척하기 (frontier-opening)와 같은 연구 프레임 (research frames)을 다룹니다. 제 컬렉션에는 6,000개가 있습니다. 각각은 하나의 독립된 페이지이며, 하나의 연구 탐구 라인에 대한 유용한 설명을 담고 있습니다. 이제 이 페이지들에는 관련성 있고 (더 최근의) 연구를 직접 찾아볼 수 있는 프롬프트 (prompts)도 포함되어 있습니다. (제가 모든 주제를 새로운 연구로 일일이 적절히 유지 관리할 수는 없기 때문입니다).

둘러보고 싶으시다면 모두 https://inquiringlines.com/inquiring-lines/ 에 있습니다. AI 시대의 모든 것이 그렇듯, 이것도 진행 중인 작업 (work in progress)입니다. 하지만 그 안에는 풍부한 자료가 많이 들어 있습니다. 한번 살펴보세요.
https://preview.redd.it/8csrq7533v5h1.png?width=1713&format=png&auto=webp&s=5cc9c453049e6336ac530c6aa88d92a2fd7c8a12
/u/Barton5877 님이 r/MachineLearning 에 게시함
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Arxiv 화이트페이퍼 연구 컬렉션 [R]

요약

핵심 포인트

댓글