Passa al contenuto principale

Serving del modello di base Mosaic AI

Offri modelli di base aperti all'avanguardia per carichi di lavoro di inferenza in tempo reale e in batch. Potrai così creare rapidamente e facilmente applicazioni che sfruttano un modello di AI generativa di alta qualità senza dover gestire personalmente la distribuzione del modello.

Loading...

Prezzi modelli di base on-demand

* Per verificare la disponibilità a livello di area: AWS, Azure
1. Viene mostrato il prezzo più basso per l'area in questione

2. Per i carichi di lavoro in inferenza, il throughput massimo fornito per banda è superiore del ~50% a quello mostrato in tabella per i carichi di lavoro in tempo reale

3. Il prezzo orario viene addebitato in incrementi di un minuto

Tariffe in DBU e throughput del serving di modelli di base

Modello Pay-per-token Throughput fornito
per bande scalabili1
Throughput fornito per la banda di ingresso
(disponibile solo per i modelli base negli Stati Uniti, in Canada e in Brasile)3
DBU/1M token di INPUT
(Globale)
DBU/1M token di OUTPUT
(Globale)
DBU/ora
(Globale)
Banda di throughput2
(numero massimo di token/sec)
DBU/ora (Globale) Token massimi/secondo
Modelli attuali
Llama 3.1 405B 35,714 142,857 600,000 3.400 150,000 850
Llama 3.3 70B 7,143 21,429 342,857 9.500 85,714 2.400
Llama 3.1 70B n/a n/a 342,857 9.500 85,714 2.400
Llama 3.1 8B n/a n/a 106,000 19.000 50,000 9.500
Llama 3.2 3B n/a n/a 92,857 22.000 46,429 10.900
Llama 3.2 1B n/a n/a 85,714 35.000 42,857 15.800
GTE 1,857 n/a 20,000 9.450 20,000 9.450
BGE Large 1,429 n/a 24,000 11.800 24,000 11.800
Modelli legacy
DBRX 10,714 32,143 171,429 650 171,429 650
Llama 3 70B n/a n/a 212,143 1.000 212,143 1.000
Llama 3 8B n/a n/a 106,000 3.000 106,000 3.000
Llama 2 70B n/a n/a 290,800 1.200 290,800 1.200
Llama 2 13B n/a n/a 112,000 980 112,000 980
Mixtral 8x7B 7,143 14,286 290,857 5.000 290,857 5.000
MPT-30B n/a n/a 112,000 450 112,000 450
MPT 7B n/a n/a 20,000 2.450 20,000 2.450

1: La banda di throughput è il throughput massimo specifico del modello (espresso in token al secondo) fornito alla tariffa oraria sopra indicata.  Con il Provisioned Throughput Serving, il throughput effettivo del modello viene fornito in incrementi della sua "banda di throughput" specifica; per ottenere un throughput più elevato, il cliente dovrà impostare un multiplo appropriato della banda di throughput, che verrà quindi addebitato al multiplo del prezzo orario di cui sopra.

2: Il throughput mostrato è un esempio basato su un tipico caso d'uso in tempo reale con input/output di 3500/300 token. La velocità effettiva varia a seconda del caso d'uso, della forma della query e di altri fattori. I rapporti input/output non si applicano ai modelli di embedding.

3: La banda di ingresso non è disponibile al di fuori di Stati Uniti, Canada e Brasile.  La banda di ingresso non è inoltre disponibile per le versioni ottimizzate dei modelli base.

Esempi di prezzi per il Pay-Per-Token Serving

Modello Token di input Token di output Regione Prezzo unitario
$/DBU
Prezzo totale
Llama 3.1 405B 4.000.000 1.000.000 USA Est $0,070 $20,00
Llama 3.3 70B 4.000.000 1.000.000 USA Est $0,070 $3,50

Esempi di prezzi per il Provisioned Throughput Serving

Modello Fasce di throughput Ore/mese Regione Prezzo unitario
$/DBU
Prezzo totale
Llama 3.1 405B 1 720 USA Est $0,070 $7.560
Llama 3.3 70B 1 720 USA Est $0,070 $4.320
Llama 3.1 8B 2 720 USA Est $0,070 $5.040

Pagamento a consumo con prova gratuita di 14 giorni oppure contattaci per sconti sui livelli di utilizzo garantiti o requisiti personalizzati.

Domande frequenti sul serving del modello di base Mosaic AI