X요약2026. 06. 22. 13:48

Tesla AI 엔지니어가 ML 프로젝트의 실제 비중을 공개했네요.

요약

Tesla AI 엔지니어가 밝힌 실제 ML 프로젝트의 비중은 훈련(2%)보다 데이터 정제(40%)와 평가(50%)가 압도적으로 높습니다. 모델의 성능은 결국 데이터의 품질과 정의된 정답의 일관성에 의해 결정됨을 강조합니다.

대부분 훈련이 99%라고 생각하지만, 현실은 평가 50%, 데이터 정제 40%, 통합 8%, 훈련 2%입니다.

여기서 진짜 중요한 건 앞의 두 가지예요.

평가와 데이터 정제가 학습의 노이즈 플로어를 결정합니다. 모델이 아무리 커지고 강력해져도, 데이터 자체가 가진 정보의 한계를 넘을 수 없어요. Shannon 인코딩의 최적 경계이기 때문이죠.

그래서 매일 온톨로지를 생각하고, 오래된 라벨도 계속 검토한다는 게 핵심입니다.

현실 세계에서는 분포 변화와 엣지 케이스가 끊임없이 나타나기 때문에, 한 번 정한 '정답'의 정의가 금방 낡아버립니다.

화려한 모델 크기나 최신 아키텍처에 집착하기 전에,

우리가 무엇을 '학습시키려는가', 그리고 그 정의가 얼마나 깨끗하고 일관된가를 먼저 점검하는 게 진짜 중요한 작업입니다.

이걸 소홀히 하면 아무리 큰 모델을 돌려도 결국 노이즈를 더 정교하게 외우는 데 그칩니다.

Tesla처럼 실제 세상에 배포되는 시스템일수록 이 비중은 더 극단적으로 기울어요.

AI 자동 생성 콘텐츠