주요 컨텐츠로 이동

모델 제공

모든 AI 모델에 대한 배포 및 거버넌스 통합

illustration-nodes-1-gray
video thumb

소개

Databricks Model Serving은 Llama 2, MosaicML MPT, BGE와 같이 Databricks에서 세부 조정하거나 사전 배포한 모델, 또는 Azure OpenAI, AWS Bedrock, AWS SageMaker, Anthropic 등의 기타 모델 공급자가 호스팅하는 모델을 배포, 관리, 쿼리, 모니터링하는 통합 서비스입니다. Databricks의 통합 접근 방식은 모든 클라우드나 공급자에서 호스팅하는 모델을 사용하여 간편하게 실험하고 이를 프로덕션화하여 실시간 애플리케이션에 가장 적합한 후보를 찾을 수 있습니다. 다양한 모델에 대한 A/B 테스트를 수행할 수 있으며, 모델을 배포한 후에는 실시간 프로덕션 데이터에 대한 모델 품질을 모니터링할 수 있습니다. 또한 Model Serving에는 Llama2 70B와 같은 사전 배포된 모델이 있어 RAG(Retrieval Augmented Generation)과 같은 AI 애플리케이션 개발을 시작하고 처리량 보장을 위해 토큰 액세스 또는 프로비저닝된 컴퓨팅을 기준으로 요금을 청구할 수 있습니다.

고객 평가

Simplified deployment

모든 AI 모델에 대한 간소화된 배포

CPU와 GPU를 모두 포함하여 사전 훈련된 오픈 소스 모델부터 자체 데이터를 기반으로 구축된 사용자 지정 모델에 이르기까지 모든 모델 유형을 배포할 수 있습니다. 컨테이너 구축 및 인프라 관리 자동화를 통해 유지 관리 비용을 절감하고 배포 속도를 높여 AI 프로젝트를 구축하고 비즈니스에 필요한 가치를 빠르게 창출하는 데 집중할 수 있습니다.

Simplified deployment

모든 모델에 대한 관리 통합

사용자 정의 ML 모델(예: PyFunc, scikit-learn, LangChain), Databricks의 기초 모델(예: Llama 2, MPT, BGE), 다른 곳에서 호스팅되는 파운데이션 모델(ChatGPT, Claude 2, Cohere, Stable Diffusion)을 포함한 모들 모델을 관리합니다. Model Serving을 사용하면 Databricks에서 호스팅하거나 Azure 및 AWS 기반의 다른 모델 공급자에서 호스팅하는 모델을 포함하여 통합 사용자 인터페이스 및 API에서 모든 모델에 액세스할 수 있습니다.

Effortless batch inference

Effortless batch inference

Model Serving enables efficient AI inference on large datasets, supporting all data types and models in a serverless environment. You can seamlessly integrate with Databricks SQL, Notebooks and Workflows to apply AI models across vast amounts of data in one streamlined operation. Enhance data processing, generate embeddings and evaluate models — all without complex rework.

Simplified deployment

거버넌스 기본 내장

Databricks 또는 다른 모델 공급자에서 호스팅하더라도 모든 모델 공급자에서 적절한 권한을 적용하고, 모델 품질을 모니터링하고, 속도 제한을 설정하고, 계보를 추적할 수 있으므로 엄격한 보안 및 거버넌스 요구 사항을 충족합니다.

Unified with Lakehouse data

데이터 중심 모델

데이터 인텔리전스 플랫폼과 긴밀하게 통합하여 배포를 가속화하고 오류를 줄입니다. 엔터프라이즈 데이터로 증강(RAG) 또는 세부 조정된 다양한 생성형 AI 모델을 쉽게 호스팅할 수 있습니다. Model Serving은 전체 AI 수명 주기에 걸쳐 자동화된 조회, 모니터링, 거버넌스를 제공합니다.

real-time

높은 비용 효율성

CPU와 GPU를 모두 지원하는 고가용성 서버리스 서비스에서 지연 시간이 짧은 API로 모델을 제공합니다. 가장 중요한 요구 사항에 따라 처음부터 쉽게 확장하고 필요에 따라 다시 축소합니다. 하나 이상의 사전 배포된 모델로 빠르게 시작하고 토큰당 지불(비약정 온디맨드 방식) 또는 프로비저닝된 컴퓨팅 워크로드당 지불로 처리량을 보장할 수 있습니다. Databricks가 인프라 관리 및 유지 관리 비용을 처리하므로 기업은 비즈니스 가치를 제공하는 데 집중할 수 있습니다.

다음 리소스로 시작하기

eBook

mlops-virtual-event-thumb

시작할 준비가 되셨나요?