안정적이고 재현 가능한 머신러닝 시스템을 위해 개발팀과 운영팀 간의 격차를 해소하며, 프로덕션 환경에서 머신러닝 모델을 배포, 모니터링 및 관리하는 데 필요한 실무 지침과 도구를 소개합니다.
작성자: Databricks 직원
MLOps는 머신 러닝 작업(Machine Learning Operations)을 뜻합니다. MLOps는 머신 러닝 모델을 프로덕션으로 전환하는 프로세스를 간소화하고, 뒤이어 이를 유지관리하고 모니터링하는 데 주안점을 둔 머신 러닝 엔지니어링의 핵심 기능입니다. MLOps는 협업 기능이며, 주로 데이터 사이언티스트, DevOps 엔지니어, IT로 구성됩니다.

MLOps는 머신 러닝과 AI 솔루션 제작과 품질에 대한 유용한 접근법입니다. 데이터 사이언티스트와 머신 러닝 엔지니어는 MLOps 방식을 채택하여 협업을 추진하고 모델 개발과 프로덕션 속도를 증강할 수 있습니다. 이를 위해 ML 모델의 적절한 모니터링, 검증과 거버넌스를 포함해 지속적인 통합과 배포(CI/CD) 관례를 구현해야 합니다.
머신 러닝의 (대량) 생산은 쉽지 않은 일입니다. 머신 러닝 수명 주기는 데이터 수집, 데이터 준비, 모델 훈련, 모델 조정, 모델 배포, 모델 모니터링, 설명 가능성과 같은 복잡한 구성 요소가 많이 모인 형태로 구성되어 있습니다. 또한 데이터 엔지니어링부터 데 이터 사이언스, ML 엔지니어링에 이르기까지 여러 팀에 걸친 협업과 전달이 필요한 일이기도 합니다. 따라서 이 모든 프로세스를 동기화하고 협력이 이루어지는 상태를 유지하려면 극히 엄격한 운영 원칙을 적용해야 합니다. MLOps는 머신 러닝 수명 주기의 실험, 반복과 지속적 개선을 총망라합니다.
MLOps의 주된 장점은 효율성, 확장성과 리스크 완화입니다. 효율성: MLOps를 사용하면 데이터 팀이 모델을 더욱 빨리 배포하고 양질의 ML 모델을 제공하며 배포와 프로덕션 속도를 높일 수 있습니다. 확장성: MLOps는 엄청난 확장성과 관리를 지원하므로 수천 개의 모델을 감독, 제어, 관리, 모니터링하여 지속해서 통합, 제공하고 지속해서 배포할 수 있습니다. 구체적으로 설명하자면, MLOps는 ML 파이프라인 재현성을 제공하므로 여러 데이터 팀에서 좀 더 긴밀하게 결합된 협업을 추진할 수 있고 DevOps 팀과 IT 팀의 갈등이 줄어들며 릴리스 속도도 빨라집니다. 리스크 완화: 머신 러닝 모델에는 철저한 규제 검토와 드리프트 검사가 필요할 때가 많습니다. MLOps를 이용하면 투명성을 강화할 수 있고 그러한 요청에 더욱 빨리 대응할 수 있으며 기업이나 업계의 규정을 더욱 엄격히 준수하는 데 도움이 됩니다.

머신 러닝 프로젝트에서 MLOps의 폭은 프로젝트의 필요에 따라 집중적일 수도, 광범위할 수도 있습니다. 경우에 따라서는 MLOps가 데이터 파이 프라인부터 모델 프로덕션까지 모든 것을 통괄할 수도 있고, 아니면 어떤 프로젝트의 경우 모델 배포 프로세스에만 MLOps를 구현해야 하기도 합니다. 대부분 기업체에서 MLOps 원칙을 활용하는 분야는 다음과 같습니다.
MLOps 모범 사례는 MLOps 원칙을 적용하는 단계에 따라 설명할 수 있습니다.
MLOps는 머신 러닝 프로젝트에만 국한된 일련의 엔지니어링 실무로, 소프트웨어 엔지니어링 분야에서 광범위하게 도입된 DevOps 원칙을 빌려온 것입니다. DevOps는 애플리케이션 전달에 지속해서 반복적이면서 속도도 빠른 접근 방식을 도입했지만, MLOps의 경우 머신 러닝 모델의 프로덕션 돌입까지의 과정에 같은 원칙을 적용합니다. 두 경우 모두 소프트웨어 품질 개선, 패치 적용과 릴리스 속도 가속, 높은 고객 만족도 달성과 같은 결과를 낸다는 점은 같습니다.
MLOps의 여러 개념이 여전히 적용되지만 Dolly와 같은 대규모 언어 모델을 트레이닝할 때는 다른 사항들을 고려해야 합니다. 기존 MLOps 접근 방식과 다른 LLM 트레이닝의 몇 가지 핵심 사항을 살펴보겠습니다.
MLOps 플랫폼은 데이터 사이언티스트와 소프트웨어 엔지니어에게 협업 환경을 제공하여 반복 데이터 탐색, 실시간 공동 작업 기능을 지원하여 실험 추적, 피처 엔지니어링, 모델 관리 등을 간편하게 수행할 수 있게 해 줍니다. 이뿐만 아니라 관리형 모델 전환, 배포와 모니터링까지 가능합니다. MLOps는 머신 러닝 수명 주기의 운영과 동기화 측면을 자동화해줍니다.

Databricks를 사용해 보세요. 완전 관리형 MLflow 환경으로, 세계를 선도하는 개방형 MLOps 플랫폼입니다. https://www.databricks.com/try/databricks-free-ml
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.