Mosaic AI 파운데이션 Model Serving

Mosaic AI Foundation Model Serving

Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.

* Displayed pricing does not guarantee product availability in that region. For product availability see here: AWS, Azure, GCP, SAP
1. Azure Databricks, as a first-party service on Microsoft Azure, offers unified billing and support by Microsoft
The Premium tier on Azure Databricks corresponds to the Enterprise tier on AWS and GCP
2. Hourly pricing is charged on a per-minute increment
3. Throughput in a single unit of PT capacity varies by model and query shape (input vs. output tokens). Please use the GenAI Calculator to estimate workload-specific throughput and total cost

파운데이션 모델 서빙 DBU 속도 및 처리량

모델	페이-퍼-토큰		프로비저닝된 처리량 스케일링 밴드용¹		입력 대역을 위한 프로비저닝 처리량 (미국, 캐나다, 브라질의 기본 모델에만 사용 가능)³
모델	100만 개의 입력 토큰당 DBU (전역)	100만 개의 출력 토큰당 DBU (전역)	시간당 DBU (전역)	처리량 대역² (최대 토큰/초)	시간당 DBU (전역)	최대 토큰 / 초
현재 모델
Llama 3.1 405B	35.714	142.857	600.000	3,400	150.000	850
Llama 4 Maverick	7.143	21.429	85.715	3,875	85.715	3,875
Llama 3.3 70B	7.143	21.429	342.857	10,500	85.714	2,600
Llama 3.1 70B	해당 사항 없음	해당 사항 없음	342.857	10,500	85.714	2,600
Llama 3.1 8B	2.143	6.429	106.000	23,000	53.571	11,500
Llama 3.2 3B	해당 사항 없음	해당 사항 없음	92.857	22,000	46.429	10,900
Llama 3.2 1B	해당 사항 없음	해당 사항 없음	85.714	35,000	42.857	15,800
GTE	1.857	해당 사항 없음	20.000	9,450	20.000	9,450
BGE 대형	1.429	해당 사항 없음	24.000	11,800	24.000	11,800
레거시 모델
DBRX	해당 사항 없음	해당 사항 없음	171.429	650	171.429	650
Llama 3 70B	해당 사항 없음	해당 사항 없음	212.143	1,000	212.143	1,000
Llama 3 8B	해당 사항 없음	해당 사항 없음	106.000	3,000	106.000	3,000
라마 2 70B	해당 사항 없음	해당 사항 없음	290.800	1,200	290.800	1,200
Llama 2 13B	해당 사항 없음	해당 사항 없음	112.000	980	112.000	980
Mixtral 8x7B	해당 사항 없음	해당 사항 없음	290.857	620	290.857	5,000
MPT-30B	해당 사항 없음	해당 사항 없음	112.000	450	112.000	450
MPT 7B	해당 사항 없음	해당 사항 없음	20.000	2,450	20.000	2,450

²: 처리량 대역은 모델별로 제공되는 최대 처리량(초당 토큰 수)으로, 위의 시간당 가격으로 제공됩니다. 프로비저닝된 처리량 서빙을 통해 모델 처리량은 특정 '처리량 대역' 단위로 제공됩니다. 모델 처리량이 높을수록 고객은 적절한 처리량 대역의 배수를 설정해야 하며, 이때 위의 시간당 가격의 배수로 요금이 부과됩니다.

¹: 표시된 처리량은 토큰 300개당 3500개의 입력/출력을 제공하는 일반적인 실시간 사용 사례를 기반으로 한 예시입니다. 실제 처리량은 사용 사례, 쿼리 형태 및 기타 요인에 따라 달라질 수 있습니다. 임베딩 모델에는 입력/출력 비율이 적용되지 않습니다.

^3: 입장 밴드는 미국, 캐나다, 브라질의 AWS와 미국, 캐나다, 브라질, EU의 Azure에서만 사용 가능합니다. 기본 모델의 세부 조정 버전에는 입장 밴드가 제공되지 않습니다.

14일 무료 체험 후 사용한 만큼 지불하거나 약정 사용 할인 또는 맞춤 요구 사항은 상담을 통해 문의하세요.

무료 체험 시작 문의

Mosaic AI Foundation Model Serving

파운데이션 모델 서빙 DBU 속도 및 처리량

Mosaic AI 파운데이션 모델 서빙 FAQ