Serving del modello di base Mosaic AI

Offri modelli di base aperti all'avanguardia per carichi di lavoro di inferenza in tempo reale e in batch. Potrai così creare rapidamente e facilmente applicazioni che sfruttano un modello di AI generativa di alta qualità senza dover gestire personalmente la distribuzione del modello.

Prezzi modelli di base on-demand

* Per la disponibilità regionale: AWS, Azure
1. La banda di throughput è definita come una singola unità di capacità disponibile per il throughput fornito. Il throughput in una banda varia in base al modello; vedi la tabella sottostante per i dettagli

2. Per i carichi di lavoro in inferenza, il throughput massimo fornito per banda è superiore del ~50% a quello mostrato in tabella per i carichi di lavoro in tempo reale

3. Il prezzo orario viene addebitato in incrementi di un minuto

Tariffe in DBU e throughput del serving di modelli di base

Modello	Pay-per-token		Throughput fornito per bande scalabili¹		Throughput fornito per la banda di ingresso (disponibile solo per i modelli base negli Stati Uniti, in Canada e in Brasile)³
Modello	DBU/1M token di INPUT (Globale)	DBU/1M token di OUTPUT (Globale)	DBU/ora (Globale)	Banda di throughput² (numero massimo di token/sec)	DBU/ora (Globale)	Token massimi/secondo
Modelli attuali
Claude 3.7 Sonnet	35,714	178.571	n/a	n/a	n/a	n/a
Llama 3.1 405B	35,714	142,857	600,000	3.400	150,000	850
Llama 4 Maverick	7,143	21,429	n/a	n/a	n/a	n/a
Llama 3.3 70B	7,143	21,429	342,857	9.500	85,714	2.400
Llama 3.1 70B	n/a	n/a	342,857	9.500	85,714	2.400
Llama 3.1 8B	2.143	6.429	106,000	19.000	53.571	9.500
Llama 3.2 3B	n/a	n/a	92,857	22.000	46,429	10.900
Llama 3.2 1B	n/a	n/a	85,714	35.000	42,857	15.800
GTE	1,857	n/a	20,000	9.450	20,000	9.450
BGE Large	1,429	n/a	24,000	11.800	24,000	11.800
Modelli legacy
DBRX	10,714	32,143	171,429	650	171,429	650
Llama 3 70B	n/a	n/a	212,143	1.000	212,143	1.000
Llama 3 8B	n/a	n/a	106,000	3.000	106,000	3.000
Llama 2 70B	n/a	n/a	290,800	1.200	290,800	1.200
Llama 2 13B	n/a	n/a	112,000	980	112,000	980
Mixtral 8x7B	7,143	14,286	290,857	620	290,857	5.000
MPT-30B	n/a	n/a	112,000	450	112,000	450
MPT 7B	n/a	n/a	20,000	2.450	20,000	2.450

¹: La banda di throughput è il throughput massimo specifico del modello (espresso in token al secondo) fornito alla tariffa oraria sopra indicata. Con il Provisioned Throughput Serving, il throughput effettivo del modello viene fornito in incrementi della sua "banda di throughput" specifica; per ottenere un throughput più elevato, il cliente dovrà impostare un multiplo appropriato della banda di throughput, che verrà quindi addebitato al multiplo del prezzo orario di cui sopra.

²: Il throughput mostrato è un esempio basato su un tipico caso d'uso in tempo reale con input/output di 3500/300 token. La velocità effettiva varia a seconda del caso d'uso, della forma della query e di altri fattori. I rapporti input/output non si applicano ai modelli di embedding.

^3: La banda di ingresso è disponibile solo per AWS negli Stati Uniti, in Canada e in Brasile, e per Azure negli Stati Uniti, in Canada, in Brasile e nell'UE. La banda di ingresso non è inoltre disponibile per le versioni ottimizzate dei modelli base.

Esempi di prezzi per il Pay-Per-Token Serving

Modello	Token di input	Token di output	Regione	Prezzo unitario $/DBU	Prezzo totale
Llama 3.1 405B	4.000.000	1.000.000	USA Est	$0,070	$20,00
Llama 3.3 70B	4.000.000	1.000.000	USA Est	$0,070	$3,50

Esempi di prezzi per il Provisioned Throughput Serving

Modello	Fasce di throughput	Ore/mese	Regione	Prezzo unitario $/DBU	Prezzo totale
Llama 3.1 405B	1	720	USA Est	$0,070	$7.560
Llama 3.3 70B	1	720	USA Est	$0,070	$4.320
Llama 3.1 8B	2	720	USA Est	$0,070	$5.040

Pagamento a consumo con prova gratuita di 14 giorni oppure contattaci per sconti sui livelli di utilizzo garantiti o requisiti personalizzati.

Comincia la prova gratuita Contatti