AI Sheets 소개: 오픈 AI 모델을 사용하여 데이터셋을 구축하고 변환하는 도구

🧭TL;DR

Hugging Face AI Sheets 는 코드 없이 AI 모델을 사용하여 데이터셋을 구축, 보강 및 변환하는 새로운 오픈 소스 도구입니다. 이 도구는 로컬 또는 Hub 에서 배포할 수 있습니다. Hugging Face Hub 의 수천 개의 오픈 모델 (Inference Providers 또는 로컬 모델 포함) 을 사용할 수 있으며, OpenAI 의 gpt-oss 모델을 포함한 다양한 모델을 지원합니다.

무료로 사용해보세요 (설치 불필요): https://huggingface.co/spaces/aisheets/sheets

로컬 설치 및 실행: https://github.com/huggingface/sheets

AI Sheets* 는 (오픈) AI 모델을 사용하여 데이터셋을 구축, 변환 및 보강하는 코드 없는 도구입니다. Hub 와 오픈 소스 AI 생태계와 긴밀하게 통합되어 있습니다.

AI Sheets 는 스프레드시트와 유사한 쉬운 학습 인터페이스를 사용합니다. 이 도구는 작은 데이터셋에서 시작하여 긴/비싼 데이터 생성 파이프라인을 실행하기 전에 빠른 실험을 중심으로 구축되었습니다.

AI Sheets 에서 새로운 열은 프롬프트를 작성하여 생성되며, 필요에 따라 여러 번 반복하고 셀을 편집하거나 유효성을 검사하여 모델이 원하는 것을 가르칠 수 있습니다. 하지만 이 부분은 나중에 더 자세히 다룰 것입니다!

AI Sheets 를 사용하여 다음 작업을 수행할 수 있습니다:

모델을 비교하고 감성 테스트 (vibe test) 합니다. 데이터에서 최신 모델을 테스트하고 싶다고 가정해 보십시오. 프롬프트/질문을 포함하여 데이터셋을 가져올 수 있으며, 각 모델마다 하나의 열을 생성할 수 있습니다. 예: Answer the following: {{prompt}}

여기서 prompt 는 데이터셋의 열입니다. 결과를 수동으로 유효성 검사하거나 LLM 을 판별 프롬프트로 사용하여 새로운 열을 만들 수 있습니다. 예: Evaluate the responses to the following question: {{prompt}}. Response 1: {{model1}}. Response 2: {{model2}}

여기서 model1 과 model2 는 데이터셋의 열이며 다른 모델 응답을 포함합니다.

데이터 및 특정 모델용 프롬프트를 개선합니다. 고객 요청을 처리하고 자동 응답을 제공하는 애플리케이션을 구축하고 싶다고 가정해 보십시오. 고객 요청을 포함한 샘플 데이터셋을 로드하고 다양한 프롬프트와 모델을 사용하여 응답을 생성하기 위해 실행하고 반복할 수 있습니다. AI Sheets 의 멋진 기능 중 하나는 셀을 편집하거나 유효성 검사하여 피드백을 제공할 수 있다는 것입니다. 이러한 예제 셀은 자동으로 프롬프트에 추가됩니다. 실시간으로 데이터를 확인하여 프롬프트를 미세 조정하고 프롬프트에 몇 샷 예제를 매우 효율적으로 추가하는 도구로 생각할 수 있습니다!

데이터셋을 변환합니다. 데이터셋의 열을 정리하고 싶다고 가정해 보십시오. Remove extra punctuation marks from the following text: {{text}}

와 같은 프롬프트를 사용하여 새로운 열을 추가할 수 있으며, 여기서 text 는 정리하려는 텍스트를 포함하는 데이터셋의 열입니다.

데이터셋을 분류합니다. 데이터셋의 일부 콘텐츠를 분류하고 싶다고 가정해 보십시오. Categorize the following text: {{text}}

와 같은 프롬프트를 사용하여 새로운 열을 추가할 수 있으며, 여기서 text 는 분류하려는 텍스트를 포함하는 데이터셋의 열입니다.

데이터셋을 분석합니다. 데이터셋의 주요 아이디어를 추출하고 싶다고 가정해 보십시오. Extract the most important ideas from the following: {{text}}

와 같은 프롬프트를 사용하여 새로운 열을 추가할 수 있으며, 여기서 text 는 분석하려는 텍스트를 포함하는 데이터셋의 열입니다.

데이터셋을 보강합니다. 지번번호가 없는 주소가 있는 데이터셋이 있다고 가정해 보십시오. Find the zip code of the following address: {{address}}

와 같은 프롬프트를 사용하여 새로운 열을 추가할 수 있습니다 (이 경우 정확한 결과를 보장하기 위해 "웹 검색" 옵션을 활성화해야 합니다).

Synthetic 데이터셋 생성. 현실적인 이메일이 필요한 데이터가 있지만, 데이터 프라이버시 이유로 데이터가 제공되지 않는 상황을 가정해 보세요. 프롬프트를 사용하여 다음과 같은 데이터셋을 만들 수 있습니다: pharma companies 분야의 전문가에 대한 짧은 설명을 작성하세요

그리고 열 이름을 person_bio로 지정합니다.

이후 다음 프롬프트를 사용하여 다른 열을 생성할 수 있습니다: 다음 사람으로 작성된 것처럼 현실적인 전문직 이메일을 작성하세요: {{person_bio}}

이제 이를 사용하는 방법을 살펴보겠습니다!

AI Sheets 는 두 가지 방법으로 시작할 수 있습니다: 기존 데이터 가져오기 또는从零开始生成数据集. 데이터를 로드하면 열 추가, 셀 편집 및 내용 재생성 등을 통해 정교화할 수 있습니다.

시작하려면 자연어로 설명하거나 기존 데이터셋을 사용하여从零开始 생성하거나 기존 데이터셋을 가져와야 합니다.

적용 대상: AI Sheets 숙지, 브레인스토밍, 빠른 실험 및 테스트 데이터셋 생성

이를 자동 데이터셋 또는 프롬프트 기반 데이터셋 기능으로 생각해보세요—you describe what you want, and AI Sheets creates the entire dataset structure and content for you.

사용 시기:

AI Sheets 를 처음 탐색 중일 때
테스트 또는 프로토타이핑을 위한 합성 데이터를 필요로 할 때
데이터 정확성과 다양성이 중요하지 않을 때 (예: 브레인스토밍 사용 사례, 빠른 연구, 테스트 데이터셋 생성)
아이디어를 빠르게 실험하고 싶을 때

작동 방식:

프롬프트 영역에서 원하는 데이터셋을 설명하세요
예: "가상의 스타트업 목록으로 이름, 산업 및 슬로건 포함"
AI Sheets 는 스키마를 생성하고 5 개의 샘플 행을 생성합니다
최대 1,000 개의 행으로 확장하거나 프롬프트를 변경하여 구조를 수정하세요

예시
다음 프롬프트를 입력하면:
세계의 도시들, 해당 국가와 함께, 그리고 각기마다 Ghibli 스타일로 생성된 랜드마크 이미지

AI Sheets 는 세 개의 열을 가진 데이터셋을 자동으로 생성합니다.
이 데이터셋에는 5 개의 행만 포함되어 있지만, 이미지를 포함하여 각 열에서 아래로 드래그하여 더 많은 셀을 추가할 수 있습니다! 또한 셀에 항목을 작성하고 다른 항목을 드래그하여 완료할 수도 있습니다.

다음 섹션에서는 데이터셋을 반복하고 확장하는 방법을 보여드리겠습니다.

적용 대상: 현실 데이터를 변환, 분류, 풍부화 및 분석하려는 대부분의 사용 사례

이것은 가장 권장되는 사용 사례로, 실제 데이터를 가져오면从零开始 생성보다 더 많은 제어력과 유연성을 제공합니다.

사용 시기:
AI 모델 사용하여 기존 데이터를 변환 또는 풍부화할 때
합성 데이터를 생성하고 정확성과 다양성이 중요할 때

작동 방식:
XLS, TSV, CSV 또는 Parquet 형식으로 데이터 업로드하세요
파일에는 적어도 하나의 열 이름과 한 줄의 데이터가 포함되어 있는지 확인하세요
최대 1,000 개의 행 (무한한 열) 을 업로드할 수 있습니다
데이터는 친숙한 스프레드시트 형식으로 표시됩니다

팁: 파일에 최소한의 데이터만 포함된 경우, 직접 스프레드시트에 입력하여 더 많은 항목을 추가할 수 있습니다.

데이터가 로드되면 (어떤 방식으로든), 편집 가능한 스프레드시트 인터페이스에서 표시됩니다. 다음 내용을 알아두세요:

AI Sheets 이해하기

**가져온 셀:*수동으로 편집 가능하지만 AI 프롬프트로 수정할 수 없음
*AI 생성 셀:프롬프트 및 피드백 (편집 + 좋아요) 을 사용하여 재생성 및 정교화 가능
*새로운 열:항상 AI 기반이며 완전히 커스터마이징 가능

AI 열 시작하기

새 열 추가

"+" 버튼을 클릭하여 새 열 추가
권장 액션에서 선택:
특정 정보 추출
긴 텍스트 요약
콘텐츠 번역
또는 "{{column}}"와 함께 커스텀 프롬프트 작성

AI 열을 만들었으니 결과를 개선하고 데이터를 확장할 수 있습니다. 수동 편집과 좋아요를 통한 피드백 제공 또는 열 설정 조정으로 결과를 개선할 수 있습니다. 둘 다 적용되려면 재생성이 필요합니다.

1. 더 많은 셀 추가 방법

**다운 드래그:**열의 마지막 셀에서 즉시 추가 행 생성 - 재생성 불필요 - 새 셀은 즉시 생성됨

이를 통해 오류가 발생한 셀도 재생성 가능

2. 수동 편집 및 피드백

**셀 편집:**어떤 셀을 클릭하여 콘텐츠를 직접 편집 - 이는 모델에 선호하는 출력 예시를 제공합니다.**결과 좋아요:**좋아요 버튼으로 좋은 출력 예시 표시 - 피드백을 열의 다른 셀에 적용하려면 재생성 필요.

이러한 수동 편집 및 좋아요가 붙은 셀들은 재생성 또는 열에서 더 많은 셀을 추가할 때 셀 생성 시 퓨샷 예시로 사용됩니다!

3. 열 설정 조정프롬프트 변경, 모델 또는 제공자 전환, 설정 수정 후 재생성하여 더 좋은 결과 얻기.

프롬프트 다시 작성

각 열은 생성 프롬프트 보유
언제든지 편집하여 출력 변경 또는 개선 가능
열은 새 결과와 함께 재생성됨

모델/제공자 전환

다른 성능을 위해 다른 모델을 시도하거나 비교 가능.
특정 작업에 따라 일부는 더 정확하거나 창의적이나 구조화됨.
일부 제공자는 더 빠른 추론과 다른 컨텍스트 길이를 가짐; 선택된 모델을 테스트하기 위해 다른 제공자를 확인하세요.

검색 토글

활성화: 모델이 최신 정보를 웹에서 가져옴
비활성화: 오프라인, 모델만 생성

새 데이터셋에 만족하면 Hub 로 내보내세요! 이는 (1) HF 작업으로 이 스크립트로 더 많은 데이터를 생성하고, (2) 편집 및 좋아요가 붙은 셀의 퓨샷을 포함한 다운스트림 애플리케이션을 위해 프롬프트 재사용할 수 있는 추가적인 이점을 제공합니다.

AISheets 로 만든 데이터셋 예시: 이는 해당 설정 파일을 생성합니다.

더 큰 데이터셋을 생성하려면 위의 설정과 스크립트를 사용하세요, 예를 들어:

hf jobs uv run \
-s HF_TOKEN=$HF_TOKEN \
https://huggingface.co/datasets/aisheets/uv-scripts/raw/main/extend_dataset/script.py \
# 파이프라인 실행용 스크립트
...

이 섹션은 AI Sheets 로 구축할 수 있는 데이터셋 예시를 제공하여 다음 프로젝트를 영감을 줍니다.

AISheets 는 최신 모델을 관심 있는 프롬프트와 데이터에서 테스트하고 싶을 때 완벽한 동반자입니다.

데이터셋을 가져오거나 (从头부터) 생성한 후 테스트하려는 모델과 함께 다른 열을 추가하면 됩니다.

그런 다음 수동으로 결과를 확인하거나 LLM 을 사용하여 각 모델의 품질을 판단하는 열을 추가할 수 있습니다.

아래는 미니 웹 애플리케이션을 비교하기 위해 오픈 프론티어 모델을 비교한 예시입니다. AI Sheets 는 인터랙티브 결과를 보고 각 앱과 놀 수 있게 해줍니다. 또한 데이터셋에는 LLM 을 사용하여 앱의 품질을 판단하고 비교하는 열이 포함되어 있습니다.

위와 같이 설명된 세션에서 내보낸 데이터셋 예시: https://huggingface.co/datasets/dvilasuero/jsvibes-qwen-gpt-oss-judged

설정:

columns:
gpt-oss:
modelName: openai/gpt-oss-120b
...

AI Sheets 는 기존 데이터셋을 보완하고 텍스트 데이터셋 분석에 관여하는 빠른 데이터 분석 및 데이터 과학 프로젝트에 도움을 줄 수도 있습니다.

기존 Hub 데이터셋에 범주를 추가하는 예시는 다음과 같습니다.

매우 유용한 기능은 초기 분류 출력 결과를 검증하거나 수동으로 수정할 수 있으며, 아래에 보인 것처럼 전체 열을 재생성하여 결과를 개선할 수 있다는 점입니다.

Config:

columns:
category:
modelName: moonshotai/Kimi-K2-Instruct
...

다른 사용 사례는 LLM 을 판사 (judge) 접근법으로 사용하여 모델 출력을 평가하는 것입니다. 이는 모델을 비교하거나 기존 데이터셋의 품질을 평가하는 데 유용할 수 있습니다. 예를 들어, Hugging Face Hub 의 기존 데이터셋에 대해 모델을 미세 조정 (fine-tuning) 할 때입니다.

첫 번째 예시에서는 vibe testing 을 판사 LLM 열과 결합했습니다. 판사 프롬프트는 다음과 같습니다:

예시 데이터셋: https://huggingface.co/datasets/dvilasuero/jsvibes-qwen-gpt-oss-judged

Config:

columns:
object_name:
modelName: meta-llama/Llama-3.3-70B-Instruct
...

질문이나 제안 사항이 있다면 Community 탭에서 알려주시거나 GitHub 에서 이슈를 열어주세요.

AI Sheets 소개: 오픈 AI 모델을 사용하여 데이터셋을 구축하고 변환하는 도구

요약

핵심 포인트

댓글