Epicure: 식품 성분 임베딩 (Food Ingredient Embeddings)의 창발적 기하학 탐색
요약
다국어 레시피 코퍼스를 활용해 개발된 새로운 성분 임베딩 모델 제품군인 Epicure를 소개합니다. LLM을 통해 정규화된 데이터를 바탕으로 Cooc, Chem, Core라는 세 가지 Metapath2Vec 변형 모델을 제안합니다.
핵심 포인트
- 7개 언어, 414만 개의 레시피를 활용한 다국어 데이터셋 구축
- LLM 증강 파이프라인을 통한 성분 데이터의 표준화 정규화
- Cooc, Chem, Core 모델을 통한 화학 및 레시피 문맥의 탐색
- 성분-성분 및 성분-화합물 그래프를 활용한 임베딩 학습
우리는 다국어 레시피 코퍼스 (Multilingual recipe corpus)를 바탕으로 처음부터 다시 학습시킨 세 가지 형제 skip-gram 성분 임베딩 (ingredient embeddings) 제품군인 Epicure를 선보입니다. 우리는 영어, 중국어, 러시아어, 베트남어, 스페인어, 터키어, 인도네시아어, 독일어, 인도-영어 등 7개 언어에 걸친 11개 소스에서 414만 개의 레시피를 수집하였으며, LLM 증강 파이프라인 (LLM-augmented pipeline)을 통해 가공되지 않은 성분 문자열을 1,790개의 표준 항목 (canonical entries)으로 정규화했습니다. 203,508개의 엣지 (edge)를 가진 성분-성분 NPMI 그래프와 15개 카테고리에 걸친 2,247개의 유형화된 화합물 노드 (typed compound nodes)를 포함하는 80,019개의 엣지를 가진 유형화된 FlavorDB 성분-화합물 그래프를 사용하여, 아키텍처와 하이퍼파라미터 (hyperparameters)는 공유하지만 랜덤 워크 (random-walk) 스키마만 다른 세 가지 Metapath2Vec 변형 모델을 시드 (seed)로 삼았습니다. Cooc는 공생 (co-occurrence) 그래프만을 탐색하고, Chem은 유형화된 화합물 메타패스 (metapaths)만을 탐색하며, Core는 제어된 혼합을 통해 주입된 성분-성분 워크를 통해 두 가지를 혼합하여, 각 모델을 화학 대 레시피 문맥 (chemistry-vs-recipe-context) 스펙트럼 상의 서로 다른 지점에 배치합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기