X요약2026. 06. 21. 07:07

Tesla AI의 시니어 스태프 엔지니어가 공개한, 아무도 직면하기 싫어하는 ML 시간 배분 현황: 50% 평가, 40% 데이터 클리닝, 8%

요약

Tesla AI 엔지니어가 공개한 ML 작업 시간 배분 현황을 통해 데이터 클리닝과 평가의 중요성을 강조합니다. 모델 학습보다 데이터 품질과 온톨로지 정립이 성능의 한계를 결정짓는 핵심 요소임을 설명합니다.

핵심 포인트

ML 작업의 90%는 평가(50%)와 데이터 클리닝(40%)에 집중됨
데이터 품질은 모델 성능의 상한선(Shannon optimal bound)을 결정함
지속적인 온톨로지 검토와 라벨 업데이트가 필수적임
학습 자체보다 현실 데이터를 정제하는 능력이 진정한 병목임

Tesla AI의 한 시니어 스태프 엔지니어(Sr. Staff Engineer)가 아무도 직면하기 싫어하는 ML(머신러닝) 시간 배분 내역을 공개했습니다:
50% 평가 (evaluation), 40% 데이터 클리닝 (data cleaning), 8% 통합 (integration), 2% 학습 (training).

이 게시물은 2,000회 이상 공유되었으며, 모두가 학습이 단 2%만을 차지한다는 사실에 충격을 받았습니다.
하지만 정말 무서운 부분은 그가 다음에 한 말입니다:
앞의 두 가지 — 평가와 데이터 클리닝 — 는 학습의 노이즈 플로어 (noise floor)를 직접적으로 결정합니다. 모델이 아무리 강력하더라도 이 플로어를 낮출 수는 없습니다. 왜냐하면 그것은 이미 데이터 자체의 Shannon 최적 한계 (Shannon optimal bound)이기 때문입니다.

쉬운 말로 설명하자면: 모델에 주입하는 데이터의 품질이 이미 천장을 용접해 버린 것과 같습니다. 어떤 강력한 모델로 교체하더라도 그 천장은 단 1인치도 움직이지 않을 것입니다.

그 후 그는 더욱 강력한 일침을 가했습니다. 그는 매일 온톨로지 (ontology)에 대해 고민한다고 말했습니다 — 오래된 라벨 (labels)은 지속적으로 검토되어야 합니다. 한 번 하고 끝내는 라벨링 작업이 아닙니다. 프로덕션 시스템 (production systems)에서는 분포 드리프트 (distribution drift)와 엣지 케이스 (edge cases)가 기존 라벨의 결함을 끊임없이 드러냅니다.

이 전문가는 Tesla AI의 자율주행 및 로보틱스 ML을 담당하고 있습니다 — 그는 실험실에서 벤치마크를 실행하는 연구원이 아닙니다. 그는 매일 실제 배포 환경에서 지뢰를 밟으며, 그가 추출해낸 것은 단 네 개의 숫자와 정보 이론 (information theory)에 관한 문장뿐입니다.

그의 답글 중 한 문장이 핵심을 찌릅니다: "천재에게도 좋은 교과서가 필요하다." IQ 180의 천재에게 목차(table of contents)가 모두 뒤섞인 교과서를 준다면, 그들은 선형 대수학 (linear algebra)을 배우지 못할 것입니다. 그들이 충분히 똑똑하지 않아서가 아니라, 당신이 가르치는 내용이 선형 대수학이 무엇인지조차 정의하지 못하고 있기 때문입니다.

온톨로지는 모델을 위한 교과서의 목차와 같습니다. 목차가 엉망이라면 모델은 노이즈를 암기할 수밖에 없습니다. 목차가 명확하다면 모델은 어느 방향으로 추론해야 할지 알게 됩니다.

학습 (training)은 병목 현상 (bottleneck)이 아닙니다.
현실을 정제하는 우리의 능력이 병목입니다.

당신이 매일 최신 최고 모델을 쫓고 있는 동안, 진짜 전문가들은 오래된 라벨과 온톨로지를 검토하고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Tesla AI의 시니어 스태프 엔지니어가 공개한, 아무도 직면하기 싫어하는 ML 시간 배분 현황: 50% 평가, 40% 데이터 클리닝, 8%

요약

핵심 포인트

댓글