Disponibilização do modelo básico do Mosaic AI

Mosaic AI Foundation Model Serving

Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.

* Displayed pricing does not guarantee product availability in that region. For product availability see here: AWS, Azure, GCP, SAP
1. Azure Databricks, as a first-party service on Microsoft Azure, offers unified billing and support by Microsoft
The Premium tier on Azure Databricks corresponds to the Enterprise tier on AWS and GCP
2. Hourly pricing is charged on a per-minute increment
3. Throughput in a single unit of PT capacity varies by model and query shape (input vs. output tokens). Please use the GenAI Calculator to estimate workload-specific throughput and total cost

Taxas de DBU e throughput da disponibilização de modelos básicos

Modelo	Pagamento por token		Throughput provisionado para bandas de dimensionamento¹		Throughput provisionado para a banda de entrada (disponível apenas nos EUA, Canadá e Brasil)³
Modelo	DBU / 1 milhão de tokens de ENTRADA (Global)	DBU / 1 milhão de tokens de SAÍDA (Global)	DBU/hora (Global)	Banda de tava de transferência² (máx. tokens/seg)	DBU/hora (Global)	Máx. de tokens/segundo
Modelos atuais
Llama 3.1 405B	35,714	142,857	600,000	3.400	150,000	850
Llama 4 Maverick	7,143	21.429	85,715	3,875	85,715	3,875
Llama 3.3 70B	7,143	21.429	342,857	10.500	85,714	2.600
Llama 3.1 70B	N/A	N/A	342,857	10.500	85,714	2.600
Llama 3.1 8B	2,143	6,429	106,000	23.000	53,571	11.500
Llama 3.2 3B	N/A	N/A	92,857	22.000	46,429	10.900
Llama 3.2 1B	N/A	N/A	85,714	35.000	42,857	15.800
GTE	1,857	N/A	20.000	9.450	20.000	9.450
BGE grande	1.429	N/A	24,000	11.800	24,000	11.800
Modelos legados
DBRX	N/A	N/A	171,429	650	171,429	650
Llama 3 70B	N/A	N/A	212.143	1.000	212.143	1.000
Llama 3 8B	N/A	N/A	106,000	3.000	106,000	3.000
Llama 2 70B	N/A	N/A	290,800	1.200	290,800	1.200
Llama 2 13B	N/A	N/A	112.000	980	112.000	980
Mixtral 8x7B	N/A	N/A	290.857	620	290.857	5.000
MPT 30B	N/A	N/A	112.000	450	112.000	450
MPT 7B	N/A	N/A	20.000	2.450	20.000	2.450

¹: a banda de throughput é uma taxa de throughput máxima específica do modelo (tokens por segundo) fornecida pelo preço por hora acima. Com a disponibilização de throughput provisionado, a taxa de throughput do modelo é fornecida em incrementos de sua banda de "taxa de throughput" específica; uma taxa de throughput de modelo mais alta exigirá que o cliente defina um múltiplo apropriado da banda de taxa de throughput, que é então cobrada no múltiplo do preço por hora acima.

²: o throughput mostrado é um exemplo baseado em um caso de uso típico em tempo real com entrada/saída de 3500/300 tokens. O throughput real pode variar dependendo do caso de uso, do formato da query e de outros fatores. As proporções de entrada/saída não se aplicam aos modelos de incorporação.

^3: a banda de entrada está disponível somente para a AWS nos EUA, Canadá, Brasil e para a Azure nos EUA, Canadá, Brasil e União Europeia. A banda de entrada não está disponível para as versões ajustadas dos modelos base.

Pague conforme o uso com um teste gratuito de 14 dias ou entre em contato conosco para obter descontos de uso contínuo ou requisitos personalizados.

Inicie o teste gratuito Entre em contato

Mosaic AI Foundation Model Serving

Taxas de DBU e throughput da disponibilização de modelos básicos

Perguntas frequentes sobre a disponibilização do modelo básico do Mosaic AI