Revenir au contenu principal

Service de modèle de fondation Mosaic AI

Servez des modèles de fondation ouverts haut de gamme pour vos charges de travail d'inférence en batch et en temps réel. Créez des applications rapidement et simplement en profitant de modèles d'IA générative de grande qualité, sans avoir à maintenir votre propre déploiement.

Loading...

Prix des modèles de fondation à la demande

* Disponibilité régionale : AWS, Azure
1. Le prix régional le plus bas est indiqué

2. Le throughput maximal provisionné par bande pour les charges d'inférence par lots est supérieur d'environ 50 % aux charges de travail en temps réel indiquées dans le tableau

3. Le tarif horaire est facturé par tranche d'une minute.

Service de modèles de fondation – Tarif des DBU et throughput

Modèle Pay-Per-Token Throughput provisionné
pour les bandes de mise à l'échelle1
Throughput provisionné pour la bande d'entrée
(disponible uniquement pour les modèles de base aux États-Unis, au Canada et au Brésil)3
DBU/1 million de jetons d'ENTRÉE
(Global)
DBU/1 million de jetons de SORTIE
(Global)
DBU/heure
(Global)
Bande de throughput2
(jetons max./sec)
DBU/heure
(global)
Jetons max/seconde
Modèles actuels
Llama 3.1 405B 35,714 142,857 600,000 3 400 150 000 850
Llama 3.3 70B 7,143 21,429 342,857 9 500 85,714 2 400
Llama 3.1 70B N/A N/A 342,857 9 500 85,714 2 400
Llama 3.1 8B N/A N/A 106,000 19 000 50,000 9 500
Llama 3.2 3B N/A N/A 92,857 22 000 46,429 10 900
Llama 3.2 1B N/A N/A 85,714 35 000 42,857 15 800
GTE 1,857 N/A 20,000 9 450 20,000 9 450
BGE Large 1,429 N/A 24,000 11 800 24,000 11 800
Modèles hérités
DBRX 10,714 32,143 171,429 650 171,429 650
Llama 3 70B N/A N/A 212,143 1 000 212,143 1 000
Llama 3 8B N/A N/A 106,000 3 000 106,000 3 000
Llama 2 70B N/A N/A 290,800 1 200 290,800 1 200
Llama 2 13B N/A N/A 112,000 980 112,000 980
Mixtral 8x7B 7,143 14,286 290,857 5 000 290,857 5 000
MPT 30B N/A N/A 112,000 450 112,000 450
MPT 7B N/A N/A 20,000 2 450 20,000 2 450

1 : La bande de throughput est un throughput maximum (en jetons par seconde) propre au modèle, fourni au tarif horaire indiqué ci-dessus.  Dans le cas du service de throughput provisionné, le throughput du modèle est fourni en incréments de la « bande de throughput » spécifique. Pour profiter d'un throughput supérieur, le client devra définir un multiple approprié de la bande de throughput de départ, qui sera facturé en multipliant le tarif horaire ci-dessus.

1 :  Le throughput indiqué est un exemple basé sur un cas d'usage typique en temps réel avec un nombre d'entrées/sorties de 3 500/300 jetons. Le throughput réel varie en fonction du cas d'usage, de la forme des requêtes et d'autres facteurs. Les ratios d'entrées/sorties ne s'appliquent pas à l'intégration des modèles.

3 : La bande d'entrée n'est pas disponible en dehors des États-Unis, du Canada et du Brésil.  La bande d'entrée n'est pas non plus disponible pour les versions affinées des modèles de base.

Exemples de prix de services avec paiement par jeton

Modèle Jetons d'entrée Jetons de sortie Région Prix unitaire
$/DBU
Prix total
Llama 3.1 405B 4 000 000 1 000 000 États-Unis – Est 0,070 $ 20,00 $
Llama 3.3 70B 4 000 000 1 000 000 États-Unis – Est 0,070 $ 3,50 $

Exemples de tarifs de service de throughput provisionné

Modèle Bandes de throughput Heures/mois Région Prix unitaire
$/DBU
Prix total
Llama 3.1 405B 1 720 États-Unis – Est 0,070 $ 7 560 $
Llama 3.3 70B 1 720 États-Unis – Est 0,070 $ 4 320 $
Llama 3.1 8B 2 720 États-Unis – Est 0,070 $ 5 040 $

Payez à l'utilisation avec un essai gratuit de 14 jours. Ou contactez-nous pour connaître les remises sur engagements de dépenses et nous détailler vos besoins spécifiques.

FAQ du service de modèle de fondation Mosaic AI