Service de modèle de fondation Mosaic AI

Mosaic AI Foundation Model Serving

Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.

* Displayed pricing does not guarantee product availability in that region. For product availability see here: AWS, Azure, GCP, SAP
1. Azure Databricks, as a first-party service on Microsoft Azure, offers unified billing and support by Microsoft
The Premium tier on Azure Databricks corresponds to the Enterprise tier on AWS and GCP
2. Hourly pricing is charged on a per-minute increment
3. Throughput in a single unit of PT capacity varies by model and query shape (input vs. output tokens). Please use the GenAI Calculator to estimate workload-specific throughput and total cost

Service de modèles de fondation – Tarif des DBU et throughput

Modèle	Paiement par jeton		Throughput provisionné pour les bandes de mise à l'échelle¹		Throughput provisionné pour la bande d'entrée (disponible uniquement pour les modèles de base aux États-Unis, au Canada et au Brésil)³
Modèle	DBU/1 million de jetons d'ENTRÉE (Global)	DBU/1 million de jetons de SORTIE (Global)	DBU/heure (Global)	Bande de throughput² (jetons max./sec)	DBU/heure (global)	Jetons max/seconde
Modèles actuels
Llama 3.1 405B	35,714	142,857	600,000	3 400	150 000	850
Llama 4 Maverick	7,143	21,429	85,715	3 875	85,715	3 875
Llama 3.3 70B	7,143	21,429	342,857	10 500	85,714	2 600</td> </tr> <tr> <td>Llama 3.1 70B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">342,857</td> <td class="!text-center">10 500</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 85,714	2 600</td> </tr> <tr> <td>Llama 3.1 8B</td> <td class="!text-center">2,143</td> <td class="!text-center">6,429</td> <td class="!text-center">106,000</td> <td class="!text-center">23 000</td> <td class="!text-center">53,571</td> <td class="!text-center">11 500</td> </tr> <tr> <td>Llama 3.2 3B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">92,857</td> <td class="!text-center">22 000</td> <td class="!text-center">46,429</td> <td class="!text-center">10 900</td> </tr> <tr> <td>Llama 3.2 1B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">85,714</td> <td class="!text-center">35 000</td> <td class="!text-center">42,857</td> <td class="!text-center">15 800</td> </tr> <tr> <td>GTE</td> <td class="!text-center">1,857</td> <td class="!text-center">N/A</td> <td class="!text-center">20,000</td> <td class="!text-center">9 450</td> <td class="!text-center">20,000</td> <td class="!text-center">9 450</td> </tr> <tr> <td>BGE Large</td> <td class="!text-center">1,429</td> <td class="!text-center">N/A</td> <td class="!text-center">24,000</td> <td class="!text-center">11 800</td> <td class="!text-center">24,000</td> <td class="!text-center">11 800</td> </tr> <tr class="bg-navy-600 text-white font-bold"> <td class="!text-center" colspan="7">Modèles hérités</td> </tr> <tr> <td>DBRX</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">171,429</td> <td class="!text-center">650</td> <td class="!text-center">171,429</td> <td class="!text-center">650</td> </tr> <tr> <td>Llama 3 70B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}-->	212,143	1 000</td> <td class="!text-center">212,143</td> <td class="!text-center">1 000</td> </tr> <tr> <td>Llama 3 8B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">106,000</td> <td class="!text-center">3 000</td> <td class="!text-center">106,000</td> <td class="!text-center">3 000</td> </tr> <tr> <td>Llama 2 70B</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> N/A	N/A	290,800	1 200	290,800	1 200
Llama 2 13B	N/A	N/A	112,000	980	112,000	980
Mixtral 8x7B	N/A	N/A	290,857	620	290,857	5 000
MPT 30B	N/A	N/A	112,000	450	112,000	450
MPT 7B	N/A	N/A	20,000	2 450</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 20,000	2 450</td> </tr> </tbody> </table> <p><sup>1</sup> : La bande de throughput est un throughput maximum (en jetons par seconde) propre au modèle, fourni au tarif horaire indiqué ci-dessus.  Dans le cas du service de throughput provisionné, le throughput du modèle est fourni en incréments de la « bande de throughput » spécifique. Pour profiter d'un throughput supérieur, le client devra définir un multiple approprié de la bande de throughput de départ, qui sera facturé en multipliant le tarif horaire ci-dessus.</p> <p><sup>1</sup> :  Le throughput indiqué est un exemple basé sur un cas d'usage typique en temps réel avec un nombre d'entrées/sorties de 3 500/300 jetons. Le throughput réel varie en fonction du cas d'usage, de la forme des requêtes et d'autres facteurs. Les ratios d'entrées/sorties ne s'appliquent pas à l'intégration des modèles.</p> <p><sup>3:</sup> La bande d'entrée est disponible uniquement sur AWS aux États-Unis, au Canada et au Brésil, et sur Azure aux États-Unis, au Canada, au Brésil et en Union européenne. La bande d'entrée n'est pas non plus disponible pour les versions affinées des modèles de base.</p>

Payez à l'utilisation avec un essai gratuit de 14 jours. Ou contactez-nous pour connaître les remises sur engagements de dépenses et nous détailler vos besoins spécifiques.

Démarrez votre essai gratuit Nous contacter

Mosaic AI Foundation Model Serving

Service de modèles de fondation – Tarif des DBU et throughput

FAQ du service de modèle de fondation Mosaic AI