Bereitstellung Mosaic AI Foundation-Modell
Stellen Sie hochmoderne offene Foundation Models für die Anforderungen von Echtzeit- und Batch-Inferenz-Workloads bereit. So können Sie im Handumdrehen mühelos Anwendungen erstellen, die hochwertige GenAI-Modelle nutzen, ohne selbst eine eigene Modellimplementierung betreuen zu müssen.
Foundation-Modell, On-demand-Preise
* Für regionale Verfügbarkeit: AWS, Azure
1. Anzeige des niedrigsten regionalen Preises
2. Die maximale bereitgestellte Durchsatzrate pro Band ist für Batch-Inferenz-Workloads etwa 50 % höher als für die in der Tabelle aufgeführten Echtzeit-Workloads.
3. Die stündliche Abrechnung erfolgt in minutengenauen Schritten.
Foundation-Modellbereitstellung: DBU-Preise und Durchsatz
Modell | Pay-Per-Token | Bereitgestellter Durchsatz für Skalierungsbänder1 |
Bereitgestellter Durchsatz für die Einstiegsbandbreite (nur verfügbar für Basis-Modelle in den USA, Kanada und Brasilien)3 |
|||
---|---|---|---|---|---|---|
DBU/1 Mio. EINGABE-Token (global) |
DBU/1 Mio. AUSGABE-Token (global) |
DBU/h (global) |
Durchsatzband2 (Token/s max.) |
DBU/h (global) |
Max Tokens / Sekunde | |
Aktuelle Modelle | ||||||
Llama 3.1 405B | 35,714 | 142.857 | 600.000 | 3.400 | 150.000 | 850 |
Llama 3.3 70B | 7,143 | 21,429 | 342.857 | 9.500 | 85.714 | 2,400 |
Llama 3.1 70B | N/A | N/A | 342.857 | 9.500 | 85.714 | 2,400 |
Llama 3.1 8B | N/A | N/A | 106.000 | 19.000 | 50,000 | 9.500 |
Llama 3.2 3B | N/A | N/A | 92.857 | 22.000 | 46.429 | 10.900 |
Llama 3.2 1B | N/A | N/A | 85.714 | 35.000 | 42.857 | 15,800 |
GTE | 1.857 | N/A | 20,000 | 9.450 | 20,000 | 9.450 |
BGE Large | 1,429 | N/A | 24.000 | 11.800 | 24.000 | 11.800 |
Ältere Modelle | ||||||
DBRX | 10.714 | 32.143 | 171.429 | 650 | 171.429 | 650 |
Llama 3 70B | N/A | N/A | 212,143 | 1.000 | 212,143 | 1.000 |
Llama 3 8B | N/A | N/A | 106.000 | 3.000 | 106.000 | 3.000 |
Llama 2 70B | N/A | N/A | 290.800 | 1.200 | 290.800 | 1.200 |
Llama 2 13B | N/A | N/A | 112,000 | 980 | 112,000 | 980 |
Mixtral 8x7B | 7,143 | 14,286 | 290,857 | 5.000 | 290,857 | 5.000 |
MPT-30B | N/A | N/A | 112,000 | 450 | 112,000 | 450 |
MPT 7B | N/A | N/A | 20,000 | 2.450 | 20,000 | 2.450 |
2: Das Durchsatzband ist ein modellspezifischer Maximaldurchsatz (Token pro Sekunde), der zum oben genannten Stundenpreis bereitgestellt wird. Beim bereitgestellten Durchsatz wird der Modelldurchsatz in Inkrementen seines spezifischen „Durchsatzbands“ bereitgestellt. Bei einem höheren Modelldurchsatz muss der Kunde ein geeignetes Vielfaches des Durchsatzbands festlegen, das dann mit dem entsprechenden Vielfachen des oben genannten Stundenpreises in Rechnung gestellt wird.
1: Die Durchsatzangabe ist exemplarisch und basiert auf einem typischen Echtzeit-Anwendungsfall mit einem Eingabewert von 3500 und einem Ausgabewert von 300 Token. Der Ist-Durchsatz schwankt je nach Anwendungsfall, Abfrageform und weiteren Faktoren. Eingabe-/Ausgabeverhältnisse gelten nicht für das Einbetten von Modellen.
3: Die Einstiegsbandbreite ist außerhalb der USA, Kanadas, Brasiliens nicht verfügbar. Die Einstiegsbandbreite ist auch nicht für fein abgestimmte Versionen der Basismodelle verfügbar.
Preisbeispiele für die Pay-per-Token-Bereitstellung
Modell | Eingabe-Token | Ausgabe-Token | Region | Einheitenpreis $/DBU |
Gesamtpreis |
---|---|---|---|---|---|
Llama 3.1 405B | 4.000.000 | 1.000.000 | US East | 0,070 $ | 20,00 USD |
Llama 3.3 70B | 4.000.000 | 1.000.000 | US East | 0,070 $ | 3.50 USD |
Preisbeispiele für bereitgestellten Durchsatz
Modell | Durchsatzbänder | Stunden/Monat | Region | Einheitenpreis $/DBU |
Gesamtpreis |
---|---|---|---|---|---|
Llama 3.1 405B | 1 | 720 | US East | 0,070 $ | 7.560 USD |
Llama 3.3 70B | 1 | 720 | US East | 0,070 $ | 4.320 USD |
Llama 3.1 8B | 2 | 720 | US East | 0,070 $ | 5.040 USD |
Nutzungsbasierte Abrechnung mit einer 14-tägigen kostenlosen Testversion oder kontaktieren Sie uns für Rabatte für die verbindliche Nutzung oder benutzerdefinierte Anforderungen.