Serving del modello di base Mosaic AI
Offri modelli di base aperti all'avanguardia per carichi di lavoro di inferenza in tempo reale e in batch. Potrai così creare rapidamente e facilmente applicazioni che sfruttano un modello di AI generativa di alta qualità senza dover gestire personalmente la distribuzione del modello.
Prezzi modelli di base on-demand
* Per verificare la disponibilità a livello di area: AWS, Azure
1. Viene mostrato il prezzo più basso per l'area in questione
2. Per i carichi di lavoro in inferenza, il throughput massimo fornito per banda è superiore del ~50% a quello mostrato in tabella per i carichi di lavoro in tempo reale
3. Il prezzo orario viene addebitato in incrementi di un minuto
Tariffe in DBU e throughput del serving di modelli di base
Modello | Pay-per-token | Throughput fornito per bande scalabili1 |
Throughput fornito per la banda di ingresso (disponibile solo per i modelli base negli Stati Uniti, in Canada e in Brasile)3 |
|||
---|---|---|---|---|---|---|
DBU/1M token di INPUT (Globale) |
DBU/1M token di OUTPUT (Globale) |
DBU/ora (Globale) |
Banda di throughput2 (numero massimo di token/sec) |
DBU/ora (Globale) | Token massimi/secondo | |
Modelli attuali | ||||||
Llama 3.1 405B | 35,714 | 142,857 | 600,000 | 3.400 | 150,000 | 850 |
Llama 3.3 70B | 7,143 | 21,429 | 342,857 | 9.500 | 85,714 | 2.400 |
Llama 3.1 70B | n/a | n/a | 342,857 | 9.500 | 85,714 | 2.400 |
Llama 3.1 8B | n/a | n/a | 106,000 | 19.000 | 50,000 | 9.500 |
Llama 3.2 3B | n/a | n/a | 92,857 | 22.000 | 46,429 | 10.900 |
Llama 3.2 1B | n/a | n/a | 85,714 | 35.000 | 42,857 | 15.800 |
GTE | 1,857 | n/a | 20,000 | 9.450 | 20,000 | 9.450 |
BGE Large | 1,429 | n/a | 24,000 | 11.800 | 24,000 | 11.800 |
Modelli legacy | ||||||
DBRX | 10,714 | 32,143 | 171,429 | 650 | 171,429 | 650 |
Llama 3 70B | n/a | n/a | 212,143 | 1.000 | 212,143 | 1.000 |
Llama 3 8B | n/a | n/a | 106,000 | 3.000 | 106,000 | 3.000 |
Llama 2 70B | n/a | n/a | 290,800 | 1.200 | 290,800 | 1.200 |
Llama 2 13B | n/a | n/a | 112,000 | 980 | 112,000 | 980 |
Mixtral 8x7B | 7,143 | 14,286 | 290,857 | 5.000 | 290,857 | 5.000 |
MPT-30B | n/a | n/a | 112,000 | 450 | 112,000 | 450 |
MPT 7B | n/a | n/a | 20,000 | 2.450 | 20,000 | 2.450 |
1: La banda di throughput è il throughput massimo specifico del modello (espresso in token al secondo) fornito alla tariffa oraria sopra indicata. Con il Provisioned Throughput Serving, il throughput effettivo del modello viene fornito in incrementi della sua "banda di throughput" specifica; per ottenere un throughput più elevato, il cliente dovrà impostare un multiplo appropriato della banda di throughput, che verrà quindi addebitato al multiplo del prezzo orario di cui sopra.
2: Il throughput mostrato è un esempio basato su un tipico caso d'uso in tempo reale con input/output di 3500/300 token. La velocità effettiva varia a seconda del caso d'uso, della forma della query e di altri fattori. I rapporti input/output non si applicano ai modelli di embedding.
3: La banda di ingresso non è disponibile al di fuori di Stati Uniti, Canada e Brasile. La banda di ingresso non è inoltre disponibile per le versioni ottimizzate dei modelli base.
Esempi di prezzi per il Pay-Per-Token Serving
Modello | Token di input | Token di output | Regione | Prezzo unitario $/DBU |
Prezzo totale |
---|---|---|---|---|---|
Llama 3.1 405B | 4.000.000 | 1.000.000 | USA Est | $0,070 | $20,00 |
Llama 3.3 70B | 4.000.000 | 1.000.000 | USA Est | $0,070 | $3,50 |
Esempi di prezzi per il Provisioned Throughput Serving
Modello | Fasce di throughput | Ore/mese | Regione | Prezzo unitario $/DBU |
Prezzo totale |
---|---|---|---|---|---|
Llama 3.1 405B | 1 | 720 | USA Est | $0,070 | $7.560 |
Llama 3.3 70B | 1 | 720 | USA Est | $0,070 | $4.320 |
Llama 3.1 8B | 2 | 720 | USA Est | $0,070 | $5.040 |
Pagamento a consumo con prova gratuita di 14 giorni oppure contattaci per sconti sui livelli di utilizzo garantiti o requisiti personalizzati.