
AI Data Extraction Toolkit: Claude Code, Cursor 등 다양한 도구의 AI 코딩 데이터 수집 도구
요약
Claude Code, Cursor 등 다양한 AI 코딩 도구의 데이터를 통합 수집할 수 있는 툴킷입니다. 대화 내용, 코드 컨텍스트, 도구 호출 정보 등을 JSONL 형식으로 추출하여 학습 데이터셋 구축을 지원합니다.
핵심 포인트
- Claude Code, Cursor 등 다양한 AI 어시스턴트 지원
- 대화, 코드 스니펫, 도구 호출 등 상세 데이터 추출 가능
- Python 표준 라이브러리 기반으로 추가 의존성 없음
- 학습 데이터셋 및 행동 분석용 데이터 구축 용이
요즘 많은 사람들이 실제 AI 코딩 (AI Coding) 데이터를 수집하고 싶어 하지만, 이 데이터들은 Claude Code, Cursor, Codex, Windsurf 등 다양한 도구에 흩어져 있어 수동으로 정리하기가 매우 번거롭습니다. AI Data Extraction Toolkit은 바로 이러한 목적을 위해 만들어졌습니다.
GitHub:
https://github.com/0xSero/ai-data-extraction
이 도구는 일반적인 AI 프로그래밍 어시스턴트(AI programming assistants)로부터 대화 내용, 코드 컨텍스트 (code contexts), 도구 호출 (tool invocation) 정보를 추출하여 JSONL 형식으로 통합 수출할 수 있으며, 이를 통해 이후 학습 데이터셋 (training sets), 선호도 데이터 (preference data) 또는 행동 분석 (behavior analysis) 용도로 더욱 편리하게 사용할 수 있게 해줍니다.
추출 가능한 데이터는 다음과 같습니다:
- 사용자 메시지 및 AI 답변
- 파일 경로, 줄 번호, 코드 스니펫 (code snippets)
- 코드 디프 (Code diffs) 및 제안된 수정 사항
- 다중 파일 컨텍스트 (Multi-file contexts)
- 도구 호출 (Tool invocations) 및 실행 결과
- 타임스탬프 (Timestamps) 및 메타데이터 (metadata)
현재 Claude Code, Codex, Cursor, Trae, Windsurf, Continue, Gemini CLI 등을 포함하는 여러 스크립트가 포함되어 있습니다. 이 프로젝트는 Python 표준 라이브러리로 구현되어 추가적인 의존성 (dependencies)이 필요하지 않으며, 일반적인 설정 디렉토리와 세션 파일을 자동으로 검색합니다.
AI 프로그래밍 어시스턴트의 실제 사용 데이터를 연구하고 싶다면, 이러한 추출 도구가 엄청난 노가다 작업을 줄여줄 수 있습니다.
제가 Quark Cloud Drive를 통해 「AI 전체 공략집 (지속 업데이트 중)」을 공유해 드렸습니다.
https://pan.quark.cn/s/c7b6691bdf5d
AI 도구의 가장 큰 문제 중 하나는 새로운 세션을 시작할 때마다 마치 기억상실증에 걸린 것처럼 행동한다는 것입니다. 당신이 누구인지, 프로젝트가 어디까지 진행되었는지, 어떤 습관을 피해야 하는지를 매번 다시 설명해야 합니다. Symbiotic AI는 일련의 고정된 파일들을 통해 이 문제를 해결하고자 합니다.
GitHub:
AI 자동 생성 콘텐츠
본 콘텐츠는 X @wsl8297 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기