공정하게 행동하라! 머신러닝 엔지니어링 (MLE) 에이전트가 공정성 제약 조건을 준수할 수 있는가?
요약
MLE 에이전트가 머신러닝 파이프라인을 자동화할 때 발생할 수 있는 공정성 및 책임 문제를 다룹니다. 기존 벤치마크의 한계를 지적하며, 피부톤 공정성을 중심으로 에이전트의 성능과 신뢰성을 평가하는 새로운 프레임워크를 제안합니다.
핵심 포인트
- MLE 에이전트의 자동화로 인한 책임의 공백 문제 제기
- 기존 벤치마크가 에이전트의 안전성 평가에 불충분함
- 공정성 지향 프롬프트 사용 시에도 에이전트 성능의 높은 분산 확인
- 인간의 가이드와 신뢰성 있는 평가를 위한 에이전트 재설계 필요성
머신러닝 엔지니어링 (Machine Learning Engineering, MLE) 에이전트는 원시 데이터와 자연어 지침으로부터 엔드 투 엔드 (end-to-end) 머신러닝 (ML) 파이프라인 개발을 자동화할 것을 약속하며, 이는 잠재적으로 비기술적 도메인 전문가들도 머신러닝을 사용할 수 있게 만듭니다. 그러나 민감하고 규제가 엄격한 도메인에서 이러한 추상화는 책임의 공백 (responsibility gap)을 생성합니다. 즉, 최종 사용자는 정확성 (correctness), 강건성 (robustness), 공정성 (fairness) 및 규제 준수 (regulatory compliance)에 영향을 미치는 설계 선택 사항에 대한 가시성이 부족할 수 있습니다. 우리는 기존의 벤치마크 (benchmarks)가 MLE 에이전트가 이러한 환경에서 안전하게 적용될 수 있는지 평가하기에는 불충분하다고 주장합니다. 우리는 책임 중심의 평가 프레임워크 (evaluation framework)를 위한 요구 사항 (desiderata)을 제안하고, 책임 제약 조건으로서 피부톤에 따른 공정성에 초점을 맞춘 흑색종 (melanoma) 분류에 대한 탐색적 연구를 수행합니다. 최근의 두 MLE 에이전트를 평가했을 때, 공정성 지향적 프롬프트 (prompts)를 사용했음에도 불구하고 에이전트가 생성한 파이프라인은 높은 분산 (variance)을 보였으며, 예측 품질 (predictive quality)과 공정성 모두에서 수동으로 설계된 베이스라인 (baselines)보다 일관되게 낮은 성능을 보였습니다. 이러한 예비 결과는 인간이 탐색 과정을 안내하고 생성된 ML 파이프라인의 준수 여부 및 품질을 신뢰성 있게 평가할 수 있도록 MLE 에이전트를 재설계하는 방향으로 추가적인 연구가 필요함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기