주요 컨텐츠로 이동

Translated by HaUn Kim - Original Blog Post

작년에는 분류와 회귀를 위한 데이터브릭스 AutoML이라는 도구를 발표하며, 데이터 팀의 역량 강화에 있어 '블랙 박스'가 아닌 '유리 상자' 접근 방식의 중요성을 강조했습니다. 오늘은 이 기능을 예측용 AutoML로 확장하여 예측 문제까지 해결할 수 있다는 기쁜 소식을 전하게 되었습니다.

데이터 팀은 UI를 통해 쉽게 예측을 생성할 수 있으며, 이 생성된 예측은 바로 사용하거나 시작점으로 삼아 추가적으로 조정할 수 있습니다. 이는 주로 이해관계자들이 제품, 지역, 매장 등에 따라 수백, 수천 개의 다양한 예측을 검토해야 하는 상황에서 중요한데, 아직 시작하지 않은 예측의 백로그가 쌓일 수 있기 때문입니다. 따라서 예측에서는 시작 시간을 단순화하고 단축하는 것이 중요합니다. 예측용 AutoML은 데이터 팀을 지원하여 데이터 집합의 예측력을 신속하게 검증하고 예측 프로젝트의 방향을 안내하는 기준 모델을 얻을 수 있도록 도와줍니다.

이제 AutoML을 통해 얼마나 쉽게 예측을 얻을 수 있는지 살펴보겠습니다.

예시: 사탕 생산량 예측

발렌타인데이가 다가오면서 앞으로 몇 주 동안의 사탕 생산량을 예측하고자 합니다. 

작동 방법 

설정 마법사가 시작하기 전에 구성해야 할 사항을 안내합니다. '예측' 문제 유형을 선택하고 데이터 집합을 선택했습니다. 본 예제에서는 Databricks 및 Databricks Runtime 10.3에서 이미 테이블로 생성된 사탕 생산량 데이터 집합을 사용하고 있습니다. 또한, 단변량 예측을 수행할지 아니면 다중 계열 예측을 수행할지도 지정할 수 있습니다.

Follow the setup wizard to easily create your AutoML experiment

AutoML이 실행되면, 필요한 모든 데이터 준비를 처리하고 ProphetARIMA 알고리즘을 활용해 다양한 모델을 학습시킵니다. 또한, 예측 대상 각 시계열에 대해 Hyperopt를 이용하여 하이퍼파라미터 튜닝을 진행합니다. 이런 모든 과정은 Apache Spark™를 통해 완전히 병렬로 실행됩니다. AutoML의 실행이 끝나면, 학습된 여러 모델과 그들의 성능 메트릭(예: SMAPE 및 RMSE)을 확인하여 가장 적합한 모델을 평가할 수 있습니다.

 

데이터 팀 강화하기 

다음으로, AutoML이 '혼합'이라는 사탕 종류에 대한 예측을 생성하는 데 필요한 데이터가 충분하지 않다는 것을 감지하고 경고를 통해 알려주는 것을 확인할 수 있습니다.

AutoML transparently shows you alerts on important steps that were performed in the modeling

AutoML의 가장 큰 장점 중 하나는 그 투명성입니다. AutoML은 수행된 또는 건너뛴 중요한 단계에 대한 정보를 데이터 기반으로 제공합니다. 이를 통해 데이터에 대한 깊은 이해를 바탕으로 필요한 모델 업데이트를 진행할 수 있습니다.

AutoML을 사용하면, 학습된 각 모델에 대한 완전한 Python 노트북과 데이터 탐색 노트북을 확인할 수 있습니다. 이 데이터 탐색 노트북은 모델에 사용된 데이터에 대한 인사이트를 강조하여, 이를 바탕으로 작업을 더욱 쉽게 수행할 수 있게 합니다. 예를 들어, '혼합'이라는 사탕 유형을 데이터 탐색 노트북에서 제거하더라도, 데이터 포인트가 두 개뿐이어서 그 영향이 예측에 크게 미치지 않음을 확인할 수 있습니다.

Automatically generated data exploration notebooks allow you to quickly understand your data

이 노트북들은 데이터 사이언티스트가 자신의 전문 지식을 활용하여 자동 생성된 모델을 업데이트할 수 있게 해주므로, 데이터 사이언티스트에게는 아주 좋은 시작점이 될 수 있습니다.

예상 사탕 생산량을 확인하려면, 가장 성능이 좋은 모델의 노트북을 선택하고, 2022년 1월부터 3월까지의 예측치를 포함한 실제 사탕 생산량과 예측치를 비교한 그래프를 확인할 수 있습니다.

The model notebooks include a view of your forecasts in context of your actual data

AutoML 예측은 단순히 예측을 생성하는 것 외에도 노트북에서 예측에 대한 더 깊은 분석을 제공합니다. 여기서는 예측에 어떻게 트렌드와 계절성이 반영되었는지를 볼 수 있습니다. 전반적으로 사탕 생산량은 할로윈과 연말연시에 맞춰 10월부터 12월까지 증가하는 경향이 있으며, 발렌타인데이를 맞아 2월에는 다시 약간 생산량이 증가하는 것으로 보입니다.

Get additional insights about the generated forecasts

이제 사용할 모델을 찾았으니, 실행 목록에서 모델 이름이나 시작 시간을 클릭한 다음 '모델 등록' 버튼을 클릭하여 모델을 등록할 수 있습니다. 이 곳에서는 모델을 서빙하고 추론 및 예측을 위해 모델을 배포할 수 있습니다.

Register, serve, and deploy models from AutoML

Databricks AutoML 체험하기

Databricks AutoML은 Databricks 머신 러닝 경험의 일부로 공개 미리보기가 제공됩니다. 시작하기 위해선 다음과 같이 진행하세요:

데이터브릭스 UI에서 왼쪽 사이드바를 통해 '머신 러닝' 환경으로 전환하세요. "(+) 만들기"를 클릭하고 "AutoML 실험"을 선택하거나, 실험 페이지로 이동하여 "AutoML 실험 만들기"를 클릭하세요. 설명서에서는 AutoML API의 단일 호출을 확인할 수 있습니다.

Databricks AutoML을 직접 사용해 보시려면, Databricks AutoML에 대한 자세한 정보를 확인하고 AWS, Azure, GCP에서 어떻게 사용하는지 알아보거나, Databricks Academy의 AutoML 예측 과정을 수강해 보세요(단, Databricks Academy 로그인이 필요한 Databricks 고객만 수강 가능합니다).

AutoML을 처음 사용하시는 분들은 태평양 표준시로 2월 10일 오전 10시에 Fabletics에서 개최하는 라이브 데모에 참가해 보세요. AutoML의 기본 사항을 다루며, 어떤 역할이든 AutoML을 활용하여 ML 프로젝트를 빠르게 시작하고 단순화하는 방법을 안내해 드릴 것입니다. 기대하셔도 좋습니다!

Databricks 무료로 시작하기

관련 포스트

모든 엔지니어링 블로그 포스트 보기