arXiv논문2026. 05. 22. 11:20

Epicure: 식품 성분 임베딩 (Food Ingredient Embeddings)의 창발적 기하학 탐색

요약

다국어 레시피 코퍼스를 활용해 개발된 새로운 성분 임베딩 모델 제품군인 Epicure를 소개합니다. LLM을 통해 정규화된 데이터를 바탕으로 Cooc, Chem, Core라는 세 가지 Metapath2Vec 변형 모델을 제안합니다.

핵심 포인트

7개 언어, 414만 개의 레시피를 활용한 다국어 데이터셋 구축
LLM 증강 파이프라인을 통한 성분 데이터의 표준화 정규화
Cooc, Chem, Core 모델을 통한 화학 및 레시피 문맥의 탐색
성분-성분 및 성분-화합물 그래프를 활용한 임베딩 학습

우리는 다국어 레시피 코퍼스 (Multilingual recipe corpus)를 바탕으로 처음부터 다시 학습시킨 세 가지 형제 skip-gram 성분 임베딩 (ingredient embeddings) 제품군인 Epicure를 선보입니다. 우리는 영어, 중국어, 러시아어, 베트남어, 스페인어, 터키어, 인도네시아어, 독일어, 인도-영어 등 7개 언어에 걸친 11개 소스에서 414만 개의 레시피를 수집하였으며, LLM 증강 파이프라인 (LLM-augmented pipeline)을 통해 가공되지 않은 성분 문자열을 1,790개의 표준 항목 (canonical entries)으로 정규화했습니다. 203,508개의 엣지 (edge)를 가진 성분-성분 NPMI 그래프와 15개 카테고리에 걸친 2,247개의 유형화된 화합물 노드 (typed compound nodes)를 포함하는 80,019개의 엣지를 가진 유형화된 FlavorDB 성분-화합물 그래프를 사용하여, 아키텍처와 하이퍼파라미터 (hyperparameters)는 공유하지만 랜덤 워크 (random-walk) 스키마만 다른 세 가지 Metapath2Vec 변형 모델을 시드 (seed)로 삼았습니다. Cooc는 공생 (co-occurrence) 그래프만을 탐색하고, Chem은 유형화된 화합물 메타패스 (metapaths)만을 탐색하며, Core는 제어된 혼합을 통해 주입된 성분-성분 워크를 통해 두 가지를 혼합하여, 각 모델을 화학 대 레시피 문맥 (chemistry-vs-recipe-context) 스펙트럼 상의 서로 다른 지점에 배치합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Epicure: 식품 성분 임베딩 (Food Ingredient Embeddings)의 창발적 기하학 탐색

요약

핵심 포인트

댓글