AI Sheets 를 통해 이미지 기능의 힘을 발휘하세요
요약
Hugging Face의 오픈소스 도구인 AI Sheets가 비전(Vision) 기능을 추가하여, 스프레드시트 내에서 이미지 기반 데이터 처리 능력을 혁신적으로 강화했습니다. 사용자는 영수증이나 문서 같은 이미지에서 데이터를 추출하고, 텍스트를 바탕으로 이미지를 생성 및 편집하며, 모든 시각 자료를 구조화된 워크플로우로 관리할 수 있습니다. 이 기능을 통해 제품 카탈로그 분석, 비용 추적, 콘텐츠 캘린더 제작 등 다양한 분야에서 비정형 이미지 데이터의 가치를 극대화하고, 텍스트와 이미지를 통합한 강력한 데이터셋을 구축할 수 있게 되었습니다.
핵심 포인트
- AI Sheets는 코드 없이 AI 모델을 활용하여 데이터셋을 강화하는 오픈소스 도구입니다.
- 비전 기능 추가로 이미지에서 데이터를 추출(OCR, 정보 구조화), 이미지를 설명/분류하고, 텍스트를 기반으로 이미지를 생성 및 편집할 수 있게 되었습니다.
- 영수증이나 문서 같은 비정형 이미지 데이터에서 상인 이름, 총 금액 등 구조화된 정보를 쉽게 추출하여 테이블로 만들 수 있습니다.
- 스프레드시트 내에서 콘텐츠 캘린더처럼 텍스트와 이미지를 동시에 생성하고 편집하며 일관성 있는 시각 자료 라이브러리를 구축할 수 있습니다.
AI Sheets 를 통해 이미지 기능의 힘을 발휘하세요
🧭TL;DR: Hugging Face AI Sheets 는 코드 없이 AI 모델을 활용하여 데이터셋을 강화할 수 있는 오픈소스 도구입니다. 이제 비전 (vision) 지원이 추가되었습니다: 영수증, 문서 등 이미지에서 데이터를 추출하고, 텍스트로 시각 자료를 생성하며, 이미지를 편집—all in a spreadsheet.
Hugging Face AI Sheets 는 오픈 AI 모델을 활용하여 데이터 구축, 변환 및 풍요를 위한 오픈소스 도구입니다. 이제 비전 (vision) 지원이 추가되었습니다: 영수증, 문서 등 이미지에서 데이터를 추출하고, 텍스트로 시각 자료를 생성하며, 이미지를 편집—all in a spreadsheet.
AI Sheets 의 첫 번째 버전은 텍스트 내용을 구조화하고 풍요롭게 하는 것을 매우 쉽게 만들었습니다. 이제 AI Sheets 에 비전 (vision) 을 추가합니다.
이미지는 모든 곳에 있습니다—제품 사진, 영수증, 스크린샷, 다이어그램, 차트, 로고. 이러한 문서에는 추출, 분석 및 변환을 기다리는 구조화된 정보가 포함되어 있습니다. 오늘, 이제 AI Sheets 에서 직접 시각 콘텐츠를 작업할 수 있습니다: 이미지를 보기, 분석하고, 정보를 추출하고, 새로운 것을 생성하며, 실시간으로 편집—all in the same workflow.
이미지는 가치 있는 정보를 포함합니다—제품 카탈로그, 지원 티켓, 연구 보관소, 영수증, 문서. 이제 이미지로 직접 업로드하거나 이미지 데이터셋을 사용할 수 있으며, 비전 모델을 사용하여 내부의 정보를 추출하고 분석하고 구조화할 수 있습니다.
무엇을 할 수 있나요:
이미지를 설명하고 분류- 제품 사진에 캡션을 생성하거나, 문서 유형을 분류하거나, 콘텐츠를 기준으로 이미지를 태그합니다-구조화된 데이터를 추출- 영수증에서 항목을 추출하거나, 차트에서 데이터를 가져오거나, 스캔된 문서에서 텍스트를 가져옵니다-맥락과 메타데이터 추가- 관련 속성, 품질 점수 또는 커스텀 어노테이션으로 이미지를 자동으로 라벨링합니다
텍스트 열과 마찬가지로, 프롬프트를 반복하고, 수동으로 편집할 수 있으며, 엄지손가락 (thumbs-up) 을 사용하여 모델을 원하는 것을 가르칠 수 있습니다. 귀하의 피드백은 더 나은 결과를 위한 few-shot 예제가 됩니다.
예시: 영수증에서 구조화된 비용으로 전환하기
여행에서 돌아온 후 영수증 한 지갑을 가지고 있다고 상상해보세요. AI Sheets 에 업로드하고 다음과 같은 프롬프트를 가진 열을 생성하세요: 이 영수증에서 상인 이름, 날짜, 총 금액 및 비용 범주를 추출하세요
AI Sheets 는 각 영수증을 처리하고 모든 세부 정보를 추출한 깔끔한 테이블을 제공합니다. 실수를 수정하고 엄지손가락 (thumbs-up) 을 사용하여 좋은 결과를 검증하며, 나머지 부분을 개선하기 위해 재생성할 수 있습니다. 최종 데이터셋을 CSV 또는 Parquet 로 내보내어 비용 추적 도구로 사용하세요.
아마도 오래된 가족 노트에서 손으로 쓴 레시피를 디지털화하고 있을지도 모릅니다. 재료, 조리 시간 및 요리 유형을 추출하는 열을 생성하여 개인 보관소를 검색 가능한 구조화된 데이터셋으로 전환하세요.
콘텐츠에 시각 자료를 필요로 하십니까? AI Sheets 는 AI 모델을 사용하여 스프레드시트에서 직접 이미지를 생성하고 편집할 수 있습니다.
무엇을 할 수 있나요:
- 텍스트에서 이미지 생성 - 콘텐츠에 맞는 소셜 미디어 그래픽, 썸네일 또는 일러스트를 생성합니다-
- 기존 이미지 편집 및 변환 - 업로드한 이미지 또는 생성된 시각 자료를 수정하고 변경하며 스타일을 변경하고 요소를 추가하며 구성을 조정합니다
- 대규모로 변형 생성 - 대중과 공명하는 것을 테스트하기 위해 여러 버전 또는 스타일을 생성합니다
- 시각 콘텐츠 라이브러리 구축 - 대규모 콘텐츠 캠페인에서 일관된 브랜드 자산 생산
예시: 시각 자료와 함께 콘텐츠 캘린더 제작
건강한 레시피에 대한 소셜 미디어 포스트 한 달을 계획한다고 상상해보세요. 게시글 제목과 설명이 있는 스프레드시트가 있지만 아직 이미지가 없습니다.
이미지 열을 생성하고 다음과 같은 프롬프트를 입력하세요: Generate an appetizing food photo for: {{title}}. Style: bright, overhead shot, natural lighting.
AI Sheets 는 각 포스트에 대해 고유한 이미지를 생성합니다. 맞지 않나요? 다른 열을 만들어 수정하세요: Transform the image to have a rustic wooden background and add fresh herbs as garnish.
생성 및 편집 프롬프트를 반복하여 시도해 볼 수 있고 다양한 접근법을 시도할 수 있습니다. 전체 콘텐츠 캘린더—텍스트와 시각 자료—all lives in one spreadsheet, ready to schedule or export.
이제 AI Sheets 를 실제로 사용해보겠습니다. 우리는 grandma 에서 찾을 수 있는 것과 같은 손글씨 레시피에 내장된 지식을 풀기 위해 오픈 모델을 사용할 것입니다.
우리는 앱을 간단히 업로드할 수 있는 사진 폴더가 있습니다.
결과물은 다음과 같은 스프레드시트입니다:
스프레드시트의 각 열은 AI 액션을 사용하여 변환, 추출, 쿼리하고 상상할 수 있는 모든 것을 할 수 있습니다.
이것을 실제로 보려면 열 위에 있는 오버레이를 클릭하세요:
이미지 열에는 텍스트 추출, 이미지 질문, 객체 감지, 컬러화, 텍스트 추가 및 생각할 수 있는 모든 커스텀 액션과 같은 이미지 연산이 포함됩니다.
텍스트 열에는 요약, 키워드 추출, 번역 및 커스텀 액션이 포함되어 있습니다.
프롬프트와 모델은 모든 AI 액션을 정의합니다. 손글씨 레시피 데이터셋으로 무엇을 할 수 있는지 확인해보겠습니다!
AI Sheets 는 이미지에서 텍스트를 추출하는 템플릿을 제공합니다:
이 액션의 결과는 전사된 텍스트가 있는 AI 생성 열입니다. 예를 들어 확인해보겠습니다:
위 이미지의 추출된 텍스트는 다음과 같습니다:
MEMORANDUM:
From
To
...
나쁘지 않습니다! 하지만 헤더와 푸터에 인쇄된 텍스트를 포함하고 있고 우리는 레시피 텍스트에 관심이 있습니다. 이 텍스트가 포함된 이유는 우리가 텍스트 추출을 위한 기본 템플릿을 사용했기 때문입니다. 다음과 같습니다:
Extract and transcribe all visible text from the image, including signs, labels, documents, or any written content
이제 커스텀 프롬프트를 시도해보겠습니다.
여기에 추출된 레시피 세부 정보가 있습니다:
-
1 box Duncan Hines Yellow Cake Mix
-
1 box instant lemon pudding
-
2/3 cups water
-
1/2 cup Mazola oil
-
4 eggs
-
Lemon flavoring to taste
-
Put in mixing bowl and beat for 10 minutes
이것은 훌륭합니다! 하지만 더 복잡한 이미지에 대해서는 어떻게 될까요? 기본적으로 AI Sheets 는 속도와 정확도의 균형을 잘 갖춘 모델을 사용하지만 수천 개의 모델을 실험할 수 있습니다. 위의 예는 기본 시각 언어 모델 Qwen/Qwen2.5-VL-7B-Instruct을 사용합니다.
더 어려운 이미지와 함께 SoTA reasoning model, Qwen/Qwen3-VL-235B-A22B-Reasoning 을 테스트해보겠습니다.
모델 간의 비교는 다음과 같습니다:
| Qwen/Qwen2.5-VL-7B-Instruct | Qwen/Qwen3-VL-235B-A22B-Reasoning |
|---|---|
| in large bowl combine meat, onion, bread crumbs 1/2 nutmeg & cheese - as you add sprinkle around. Then blend - Last sprinkle blend again Bake in large pan for 10-15 min. at 350. Let stand 5 min before serving. | in lg bowl combine meat, onion, bread crumbs 1/4 nutmeg & cheese - as you add sprinkle around. then blend - last spinach blend again. Bake in lg pan for 50-60 min. @ 350 - let stand 5 min before serving |
두 모델 모두 매우 유사한 출력을 생성하지만 두 가지 미묘하지만 중요한 세부 사항 (bold): 온도와 핵심 재료인 스파이시니가 있습니다.
추출된 텍스트에 만족하면 이를 더 변환하고 풍부하게 만들 수 있습니다. 새로운 열 (column) 에 대해 다음과 같은 AI 액션을 수행해야 합니다:
우리는 이제 각 레시피를 위한 아름답게 구조화된 HTML 페이지가 있습니다:
마지막으로, AI Sheets 는 Qwen-Image-Edit 와 같은 이미지에서 이미지 모델 (image-to-image models) 을 통합합니다. 이는 이미지를 변환하고 풍부하게 만들기 위해 AI 액션을 실행할 수 있음을 의미합니다.
예를 들어, 레시피에 고전적인 스타일을 적용하고 싶다면 열 (column) 으로 이동하여 다음과 같이 B&W 템플릿을 사용해야 합니다:
결과:
새로운 데이터셋에 만족하면 Hub 로 내보내세요! 조직, 개인 프로필로 내보내거나 커뮤니티와 공유하지 않으려면 비공개로 설정할 수 있습니다.
우리가 만든 데이터셋을 확인해 보세요.
질문이나 제안이 있다면 Community 탭에서 알려주세요 또는 GitHub 에서 이슈를 열어주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기