Ir para o conteúdo principal

Disponibilização do modelo básico do Mosaic AI

Ofereça modelos básicos abertos de última geração para atender às necessidades de carga de trabalho de inferência em tempo real e em lote. Isso permite criar de forma rápida e fácil aplicações que aproveitam modelos de IA generativa de alta qualidade sem a necessidade de manter sua própria implantação de modelo.

Loading...

Preços do modelo básico sob demanda

* Para disponibilidade regional: AWS, Azure
1. Exibindo o menor preço regional

2. O throughput máximo provisionado por banda para cargas de trabalho de inferência em lote é ~50% maior do que para cargas de trabalho em tempo real exibidas na tabela

3. O preço por hora é cobrado em um incremento por minuto

Taxas de DBU e throughput da disponibilização de modelos básicos

Modelo Pay-Per-Token Throughput provisionado
para bandas de dimensionamento1
Throughput provisionado para a banda de entrada
(disponível apenas para modelos base nos EUA, Canadá e Brasil)3
DBU / 1 milhão de tokens de ENTRADA
(Global)
DBU / 1 milhão de tokens de SAÍDA
(Global)
DBU/hora
(Global)
Banda de tava de transferência2
(máx. tokens/seg)
DBU/hora (Global) Máx. de tokens/segundo
Modelos atuais
Llama 3.1 405B 35,714 142,857 600,000 3.400 150,000 850
Llama 3.3 70B 7,143 21.429 342,857 9.500 85,714 2.400
Llama 3.1 70B N/A N/A 342,857 9.500 85,714 2.400
Llama 3.1 8B N/A N/A 106,000 19.000 50,000 9.500
Llama 3.2 3B N/A N/A 92,857 22.000 46,429 10.900
Llama 3.2 1B N/A N/A 85,714 35.000 42,857 15.800
GTE 1,857 N/A 20.000 9.450 20.000 9.450
BGE grande 1.429 N/A 24,000 11.800 24,000 11.800
Modelos legados
DBRX 10,714 32,143 171,429 650 171,429 650
Llama 3 70B N/A N/A 212.143 1.000 212.143 1.000
Llama 3 8B N/A N/A 106,000 3.000 106,000 3.000
Llama 2 70B N/A N/A 290,800 1.200 290,800 1.200
Llama 2 13B N/A N/A 112.000 980 112.000 980
Mixtral 8x7B 7,143 14.286 290.857 5.000 290.857 5.000
MPT 30B N/A N/A 112.000 450 112.000 450
MPT 7B N/A N/A 20.000 2.450 20.000 2.450

1: a banda de throughput é uma taxa de throughput máxima específica do modelo (tokens por segundo) fornecida pelo preço por hora acima.  Com a disponibilização de throughput provisionado, a taxa de throughput do modelo é fornecida em incrementos de sua banda de "taxa de throughput" específica; uma taxa de throughput de modelo mais alta exigirá que o cliente defina um múltiplo apropriado da banda de taxa de throughput, que é então cobrada no múltiplo do preço por hora acima.

2: o throughput mostrado é um exemplo baseado em um caso de uso típico em tempo real com entrada/saída de 3500/300 tokens. O throughput real pode variar dependendo do caso de uso, do formato da query e de outros fatores. As proporções de entrada/saída não se aplicam aos modelos de incorporação.

3: a banda de entrada não está disponível fora dos EUA, Canadá e Brasil.  A faixa de entrada também não está disponível para as versões ajustadas dos modelos base.

Exemplos de preços de disponibilização de modelos com pagamento por token

Modelo Tokens de entrada Tokens de saída Região Preço unitário
US$ / DBU
Preço total
Llama 3.1 405B 4.000.000 1.000.000 Leste dos EUA US$ 0,070 R$20,00
Llama 3.3 70B 4.000.000 1.000.000 Leste dos EUA US$ 0,070 US$ 3,50

Exemplos de preços de disponibilização de throughput provisionado

Modelo Bandas de throughput Horas / mês Região Preço unitário
US$ / DBU
Preço total
Llama 3.1 405B 1 720 Leste dos EUA US$ 0,070 US$ 7.560
Llama 3.3 70B 1 720 Leste dos EUA US$ 0,070 US$ 4.320
Llama 3.1 8B 2 720 Leste dos EUA US$ 0,070 US$ 5.040

Pague conforme o uso com um teste gratuito de 14 dias ou entre em contato conosco para obter descontos de uso contínuo ou requisitos personalizados.

Perguntas frequentes sobre a disponibilização do modelo básico do Mosaic AI