Service de modèle de fondation Mosaic AI
Servez des modèles de fondation ouverts haut de gamme pour vos charges de travail d'inférence en batch et en temps réel. Créez des applications rapidement et simplement en profitant de modèles d'IA générative de grande qualité, sans avoir à maintenir votre propre déploiement.
Prix des modèles de fondation à la demande
* Disponibilité régionale : AWS, Azure
1. Le prix régional le plus bas est indiqué
2. Le throughput maximal provisionné par bande pour les charges d'inférence par lots est supérieur d'environ 50 % aux charges de travail en temps réel indiquées dans le tableau
3. Le tarif horaire est facturé par tranche d'une minute.
Service de modèles de fondation – Tarif des DBU et throughput
Modèle | Pay-Per-Token | Throughput provisionné pour les bandes de mise à l'échelle1 |
Throughput provisionné pour la bande d'entrée (disponible uniquement pour les modèles de base aux États-Unis, au Canada et au Brésil)3 |
|||
---|---|---|---|---|---|---|
DBU/1 million de jetons d'ENTRÉE (Global) |
DBU/1 million de jetons de SORTIE (Global) |
DBU/heure (Global) |
Bande de throughput2 (jetons max./sec) |
DBU/heure (global) |
Jetons max/seconde | |
Modèles actuels | ||||||
Llama 3.1 405B | 35,714 | 142,857 | 600,000 | 3 400 | 150 000 | 850 |
Llama 3.3 70B | 7,143 | 21,429 | 342,857 | 9 500 | 85,714 | 2 400 |
Llama 3.1 70B | N/A | N/A | 342,857 | 9 500 | 85,714 | 2 400 |
Llama 3.1 8B | N/A | N/A | 106,000 | 19 000 | 50,000 | 9 500 |
Llama 3.2 3B | N/A | N/A | 92,857 | 22 000 | 46,429 | 10 900 |
Llama 3.2 1B | N/A | N/A | 85,714 | 35 000 | 42,857 | 15 800 |
GTE | 1,857 | N/A | 20,000 | 9 450 | 20,000 | 9 450 |
BGE Large | 1,429 | N/A | 24,000 | 11 800 | 24,000 | 11 800 |
Modèles hérités | ||||||
DBRX | 10,714 | 32,143 | 171,429 | 650 | 171,429 | 650 |
Llama 3 70B | N/A | N/A | 212,143 | 1 000 | 212,143 | 1 000 |
Llama 3 8B | N/A | N/A | 106,000 | 3 000 | 106,000 | 3 000 |
Llama 2 70B | N/A | N/A | 290,800 | 1 200 | 290,800 | 1 200 |
Llama 2 13B | N/A | N/A | 112,000 | 980 | 112,000 | 980 |
Mixtral 8x7B | 7,143 | 14,286 | 290,857 | 5 000 | 290,857 | 5 000 |
MPT 30B | N/A | N/A | 112,000 | 450 | 112,000 | 450 |
MPT 7B | N/A | N/A | 20,000 | 2 450 | 20,000 | 2 450 |
1 : La bande de throughput est un throughput maximum (en jetons par seconde) propre au modèle, fourni au tarif horaire indiqué ci-dessus. Dans le cas du service de throughput provisionné, le throughput du modèle est fourni en incréments de la « bande de throughput » spécifique. Pour profiter d'un throughput supérieur, le client devra définir un multiple approprié de la bande de throughput de départ, qui sera facturé en multipliant le tarif horaire ci-dessus.
1 : Le throughput indiqué est un exemple basé sur un cas d'usage typique en temps réel avec un nombre d'entrées/sorties de 3 500/300 jetons. Le throughput réel varie en fonction du cas d'usage, de la forme des requêtes et d'autres facteurs. Les ratios d'entrées/sorties ne s'appliquent pas à l'intégration des modèles.
3 : La bande d'entrée n'est pas disponible en dehors des États-Unis, du Canada et du Brésil. La bande d'entrée n'est pas non plus disponible pour les versions affinées des modèles de base.
Exemples de prix de services avec paiement par jeton
Modèle | Jetons d'entrée | Jetons de sortie | Région | Prix unitaire $/DBU |
Prix total |
---|---|---|---|---|---|
Llama 3.1 405B | 4 000 000 | 1 000 000 | États-Unis – Est | 0,070 $ | 20,00 $ |
Llama 3.3 70B | 4 000 000 | 1 000 000 | États-Unis – Est | 0,070 $ | 3,50 $ |
Exemples de tarifs de service de throughput provisionné
Modèle | Bandes de throughput | Heures/mois | Région | Prix unitaire $/DBU |
Prix total |
---|---|---|---|---|---|
Llama 3.1 405B | 1 | 720 | États-Unis – Est | 0,070 $ | 7 560 $ |
Llama 3.3 70B | 1 | 720 | États-Unis – Est | 0,070 $ | 4 320 $ |
Llama 3.1 8B | 2 | 720 | États-Unis – Est | 0,070 $ | 5 040 $ |
Payez à l'utilisation avec un essai gratuit de 14 jours. Ou contactez-nous pour connaître les remises sur engagements de dépenses et nous détailler vos besoins spécifiques.