본문으로 건너뛰기

© 2026 Molayo

GeekNews헤드라인2026. 05. 29. 00:13

인류의 모든 요리를 2메가바이트로 압축하기

요약

식재료를 1,800개의 원시 요소로 압축하여 맛의 조합을 분석한 연구에 대한 비판적 리뷰입니다. 데이터셋의 언어적 편향성과 특정 지역(아프리카, 중동 등)의 누락을 지적하며, LLM이 조리 기법의 미묘함을 놓칠 수 있음을 경고합니다.

핵심 포인트

  • 식재료 압축 연구의 데이터셋 편향성(영어/중국어 중심) 지적
  • LLM 레시피 생성 시 조리 기법 및 미묘한 비율의 한계
  • 의존성 그래프 기반 레시피 인터페이스의 유용성
  • 지역적 특수 식재료 및 언어적 지역화(Localization)의 필요성

연구 자체는 흥미롭지만 제목은 오해를 부름
더 나은 제목은 “인간이 쓰는 식재료를 1,800개 원시 요소로 압축” 정도일 것 같음
실제 조리법, 즉 준비 방법이나 비율 같은 내용은 거의 없지만, 전 세계적으로 토마토가 소고기와 잘 어울린다는 식의 정보는 맛 조합을 만들 때 꽤 유용하고 흥미로운 자원이 될 수 있음

같이 어울리는 맛의 지도를 다룬 훌륭한 책으로 The Flavor Bible이 있음
1,800개 식재료의 모든 조합을 담지는 않지만, 널리 쓰이는 허브, 향신료, 채소, 고기를 꽤 잘 다룸. 이 책을 압축해도 텍스트 크기는 그리 크지 않을 것 같음
LLM이 만든 레시피의 문제는 조리 기법의 미묘함을 놓친다는 점임. 성공 여부가 한 단계나 비율 하나에 달린 경우가 많고, 예를 들어 “프라이드치킨”은 전 세계에 수많은 변형이 있지만 레시피를 평균낸다고 맛있는 프라이드치킨이 나오지는 않음

내가 놓친 게 아니라면 논문 어디에도 이것이 인류 전체 식재료를 포괄한다는 근거는 없어 보임
11개 데이터 소스가 여러 흔한 요리를 다루지만, 영어와 중국어 소스가 데이터셋의 90%를 차지함. 아프리카와 아랍권도 데이터에 없는데, 이 둘만 해도 세계 인구의 약 25%임
비영어 용어를 모두 AI로 영어 번역한 것도 방법론적으로는 이해되지만 오류 여지가 분명히 있음

예전에 12인분 소고기 스튜를 만들다가 토마토소스를 넣어서 살린 적이 있음
소고기는 잘못 끓이면 질겨지는데, 토마토의 산이 다시 부드럽게 만들어 줌

아, 의존성 그래프 레시피 카드군. 정말 좋음
늘 이런 걸 상상해 왔고, 레시피가 재료를 거대한 구분 없는 목록으로 늘어놓은 뒤 “마른 재료를 깊은 볼에 섞으라”고 하는 게 항상 불만이었음
한동안 이런 구현을 잘 만들면 수익성이 있겠다고 봤지만, 이제는 강력한 인터페이스가 하나 나오자마자 쉽게 복제될 것 같음

“영어, 중국어, 러시아어, 베트남어, 스페인어, 터키어, 인도네시아어, 독일어, 인도식 영어 등 7개 언어의 11개 소스”라면 인류 전체 요리라고 하기는 어려움

그래도 현재 세계 인구의 약 70% 정도는 대표함. 100%는 아니지만 큰 집단 상당수를 포함하긴 함
다만 전 세계적으로 매우 인기 있는 이탈리아, 일본, 그리스, 멕시코 요리가 빠져 있고, 아프리카와 중동도 전혀 없어 불완전함

맞음. 말뭉치를 보면 레시피의 거의 절반이 중국/한국 쪽임
논문에서도 빠르게 인정하긴 하지만, 균형 잡힌 데이터셋은 확실히 아님

[1]에서 이 논문이 설명하는 것의 이전 반복판처럼 보이는 데모를 볼 수 있음
데모가 어떤 식재료를 선택했는지 궁금해서, Peter Gilmore[2]의 “Organum: Nature, Texture, Intensity, Purity”에 나오는 낯선 식재료를 몇 가지 시험해 봄. 그는 호주 시드니 Quay 레스토랑으로 알려져 있음
주니퍼베리, 마카다미아, 니겔라 씨앗, 오렌지꽃수, 레몬버베나 같은 꽤 모험적인 재료를 알고 있고, 참기름과 볶은 참기름도 구분함. 재료 목록에는 “쌀”, “흑미”, “현미”, “찹쌀”만 있는데도 “쌀”을 고르면 볶음밥에는 익힌 자스민쌀을 식혀 쓰라고 하고, 필라프에는 바스마티쌀을 불리고 헹구라고 할 만큼 똑똑함
“양고기”를 고르고 브레이징에 흔히 쓰는 채소를 함께 선택하면 어깨살이나 정강이살 같은 부위를 골라 줌
포도씨유, 오르조, 망고스틴, 레몬머틀은 모르고, karkalla처럼 Peter Gilmore 정도나 쓸 법하고 대부분의 셰프는 들어보지도 못했을 재료도 당연히 모름. 하지만 그런 재료는 지역성이 강하거나 특수한 재료라 큰 한계는 아니라고 봄
“호박씨”는 알지만 “pumpkin”은 모르고 “squash”로 다루는 식이라, 영국식/미국식 영어 사용을 개선하려면 지역화가 더 필요함. “양고기”와 “아보카도”를 조합해 샐러드를 만들길 기대했지만 실패했고, 나중에 보니 재료 목록에 양상추나 루콜라가 없고 미국식 표현인 “salad greens”만 있었음. 다른 샐러드 재료나 닭고기, 혹은 단백질 없이도 시도했지만 샐러드는 만들지 않고, 단백질 덩어리 주변에 토마토 젤(한천)과 아보카도 퓨레를 두른 가짜 고급 요리만 계속 생성함
[1] https://epicure.kaikaku.ai/
[2] https://en.wikipedia.org/wiki/Peter_Gilmore_(chef)

“pumpkin”이 “squash”라는 건 단순한 단어 차이보다 훨씬 큰 문제임
미국인 입장에서는 흔히 쓰는 여러 종류의 squash가 있고, pumpkin은 그중 하나일 뿐임. 떠오르는 건 acorn, butternut, spaghetti이고, 꼼꼼히 따지면 zucchini도 들어감

X/Twitter에서 봤는데, 인간의 요리와 모든 기법, 식재료, 문화적 맥락별 조리 방식을 2메가바이트로 압축할 수 있다고는 믿기 어려움
“도구 호출과 코딩을 할 수 있는 1GB 모델”이라고 해서 써 봤더니 거의 작동하지 않는 것과 비슷함. 기술적으로는 1GB 코딩 모델이 맞지만, 좋은 모델은 아닌 셈임

먹을 만한 인간 음식의 공간은 작음. 식재료도 몇천 개, 조리 기법도 몇천 개뿐이라 고충실도 모델로 쉽게 압축할 수 있음

영어와 독일어는 포함하면서 이탈리아어와 프랑스어를 제외한 음식 모델/말뭉치는 신뢰하기 어려움

표에는 이탈리아, 프랑스 등 여러 요리가 나와 있음. 11개 소스 목록은 언어 기준임
진짜 프랑스어로 쓰인 레시피는 빠져 있지만, 영어로 된 프렌치 어니언 수프 레시피는 분명 있을 것임

“[Claude]가 결정론적 디코딩(temperature 0–0.1)으로 모든 식재료 분류를 수행했다”라고 되어 있는데, 이 맥락에서는 큰 문제는 아니지만 낮은 temperature가 곧 결정론은 아님

맞음. temperature 0은 결정론적 추론의 필요조건도 충분조건도 아님

클릭베이트를 제외하면 꽤 흥미로운 개념임. 이런 임베딩으로 식재료나 맛 프로필에 word2vec 순간이 올 수 있을지 궁금함
다른 사람들이 제대로 짚었듯 더 대표성 있는 데이터 소스로 다시 만들 수 있고, 이 접근의 효과가 어떻게 나올지 기대됨

AI 자동 생성 콘텐츠

본 콘텐츠는 RSS: GeekNews (한국어)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0