Direkt zum Hauptinhalt

Bereitstellung Mosaic AI Foundation-Modell

Stellen Sie hochmoderne offene Foundation Models für die Anforderungen von Echtzeit- und Batch-Inferenz-Workloads bereit. So können Sie im Handumdrehen mühelos Anwendungen erstellen, die hochwertige GenAI-Modelle nutzen, ohne selbst eine eigene Modellimplementierung betreuen zu müssen.

Loading...

Foundation-Modell, On-demand-Preise

* Für regionale Verfügbarkeit: AWS, Azure
1. Anzeige des niedrigsten regionalen Preises

2. Die maximale bereitgestellte Durchsatzrate pro Band ist für Batch-Inferenz-Workloads etwa 50 % höher als für die in der Tabelle aufgeführten Echtzeit-Workloads.

3. Die stündliche Abrechnung erfolgt in minutengenauen Schritten.

Foundation-Modellbereitstellung: DBU-Preise und Durchsatz

Modell Pay-Per-Token Bereitgestellter Durchsatz
für Skalierungsbänder1
Bereitgestellter Durchsatz für die Einstiegsbandbreite
(nur verfügbar für Basis-Modelle in den USA, Kanada und Brasilien)3
DBU/1 Mio. EINGABE-Token
(global)
DBU/1 Mio. AUSGABE-Token
(global)
DBU/h
(global)
Durchsatzband2
(Token/s max.)
DBU/h
(global)
Max Tokens / Sekunde
Aktuelle Modelle
Llama 3.1 405B 35,714 142.857 600.000 3.400 150.000 850
Llama 3.3 70B 7,143 21,429 342.857 9.500 85.714 2,400
Llama 3.1 70B N/A N/A 342.857 9.500 85.714 2,400
Llama 3.1 8B N/A N/A 106.000 19.000 50,000 9.500
Llama 3.2 3B N/A N/A 92.857 22.000 46.429 10.900
Llama 3.2 1B N/A N/A 85.714 35.000 42.857 15,800
GTE 1.857 N/A 20,000 9.450 20,000 9.450
BGE Large 1,429 N/A 24.000 11.800 24.000 11.800
Ältere Modelle
DBRX 10.714 32.143 171.429 650 171.429 650
Llama 3 70B N/A N/A 212,143 1.000 212,143 1.000
Llama 3 8B N/A N/A 106.000 3.000 106.000 3.000
Llama 2 70B N/A N/A 290.800 1.200 290.800 1.200
Llama 2 13B N/A N/A 112,000 980 112,000 980
Mixtral 8x7B 7,143 14,286 290,857 5.000 290,857 5.000
MPT-30B N/A N/A 112,000 450 112,000 450
MPT 7B N/A N/A 20,000 2.450 20,000 2.450

2: Das Durchsatzband ist ein modellspezifischer Maximaldurchsatz (Token pro Sekunde), der zum oben genannten Stundenpreis bereitgestellt wird.  Beim bereitgestellten Durchsatz wird der Modelldurchsatz in Inkrementen seines spezifischen „Durchsatzbands“ bereitgestellt. Bei einem höheren Modelldurchsatz muss der Kunde ein geeignetes Vielfaches des Durchsatzbands festlegen, das dann mit dem entsprechenden Vielfachen des oben genannten Stundenpreises in Rechnung gestellt wird.

1: Die Durchsatzangabe ist exemplarisch und basiert auf einem typischen Echtzeit-Anwendungsfall mit einem Eingabewert von 3500 und einem Ausgabewert von 300 Token. Der Ist-Durchsatz schwankt je nach Anwendungsfall, Abfrageform und weiteren Faktoren. Eingabe-/Ausgabeverhältnisse gelten nicht für das Einbetten von Modellen.

3: Die Einstiegsbandbreite ist außerhalb der USA, Kanadas, Brasiliens nicht verfügbar.  Die Einstiegsbandbreite ist auch nicht für fein abgestimmte Versionen der Basismodelle verfügbar.

Preisbeispiele für die Pay-per-Token-Bereitstellung

Modell Eingabe-Token Ausgabe-Token Region Einheitenpreis
$/DBU
Gesamtpreis
Llama 3.1 405B 4.000.000 1.000.000 US East 0,070 $ 20,00 USD
Llama 3.3 70B 4.000.000 1.000.000 US East 0,070 $ 3.50 USD

Preisbeispiele für bereitgestellten Durchsatz

Modell Durchsatzbänder Stunden/Monat Region Einheitenpreis
$/DBU
Gesamtpreis
Llama 3.1 405B 1 720 US East 0,070 $ 7.560 USD
Llama 3.3 70B 1 720 US East 0,070 $ 4.320 USD
Llama 3.1 8B 2 720 US East 0,070 $ 5.040 USD

Nutzungsbasierte Abrechnung mit einer 14-tägigen kostenlosen Testversion oder kontaktieren Sie uns für Rabatte für die verbindliche Nutzung oder benutzerdefinierte Anforderungen.

Häufig gestellte Fragen zur Mosaic AI-Foundation-Modellbereitstellung