Disponibilização do modelo básico do Mosaic AI
Ofereça modelos básicos abertos de última geração para atender às necessidades de carga de trabalho de inferência em tempo real e em lote. Isso permite criar de forma rápida e fácil aplicações que aproveitam modelos de IA generativa de alta qualidade sem a necessidade de manter sua própria implantação de modelo.
Preços do modelo básico sob demanda
* Para disponibilidade regional: AWS, Azure
1. Exibindo o menor preço regional
2. O throughput máximo provisionado por banda para cargas de trabalho de inferência em lote é ~50% maior do que para cargas de trabalho em tempo real exibidas na tabela
3. O preço por hora é cobrado em um incremento por minuto
Taxas de DBU e throughput da disponibilização de modelos básicos
Modelo | Pay-Per-Token | Throughput provisionado para bandas de dimensionamento1 |
Throughput provisionado para a banda de entrada (disponível apenas para modelos base nos EUA, Canadá e Brasil)3 |
|||
---|---|---|---|---|---|---|
DBU / 1 milhão de tokens de ENTRADA (Global) |
DBU / 1 milhão de tokens de SAÍDA (Global) |
DBU/hora (Global) |
Banda de tava de transferência2 (máx. tokens/seg) |
DBU/hora (Global) | Máx. de tokens/segundo | |
Modelos atuais | ||||||
Llama 3.1 405B | 35,714 | 142,857 | 600,000 | 3.400 | 150,000 | 850 |
Llama 3.3 70B | 7,143 | 21.429 | 342,857 | 9.500 | 85,714 | 2.400 |
Llama 3.1 70B | N/A | N/A | 342,857 | 9.500 | 85,714 | 2.400 |
Llama 3.1 8B | N/A | N/A | 106,000 | 19.000 | 50,000 | 9.500 |
Llama 3.2 3B | N/A | N/A | 92,857 | 22.000 | 46,429 | 10.900 |
Llama 3.2 1B | N/A | N/A | 85,714 | 35.000 | 42,857 | 15.800 |
GTE | 1,857 | N/A | 20.000 | 9.450 | 20.000 | 9.450 |
BGE grande | 1.429 | N/A | 24,000 | 11.800 | 24,000 | 11.800 |
Modelos legados | ||||||
DBRX | 10,714 | 32,143 | 171,429 | 650 | 171,429 | 650 |
Llama 3 70B | N/A | N/A | 212.143 | 1.000 | 212.143 | 1.000 |
Llama 3 8B | N/A | N/A | 106,000 | 3.000 | 106,000 | 3.000 |
Llama 2 70B | N/A | N/A | 290,800 | 1.200 | 290,800 | 1.200 |
Llama 2 13B | N/A | N/A | 112.000 | 980 | 112.000 | 980 |
Mixtral 8x7B | 7,143 | 14.286 | 290.857 | 5.000 | 290.857 | 5.000 |
MPT 30B | N/A | N/A | 112.000 | 450 | 112.000 | 450 |
MPT 7B | N/A | N/A | 20.000 | 2.450 | 20.000 | 2.450 |
1: a banda de throughput é uma taxa de throughput máxima específica do modelo (tokens por segundo) fornecida pelo preço por hora acima. Com a disponibilização de throughput provisionado, a taxa de throughput do modelo é fornecida em incrementos de sua banda de "taxa de throughput" específica; uma taxa de throughput de modelo mais alta exigirá que o cliente defina um múltiplo apropriado da banda de taxa de throughput, que é então cobrada no múltiplo do preço por hora acima.
2: o throughput mostrado é um exemplo baseado em um caso de uso típico em tempo real com entrada/saída de 3500/300 tokens. O throughput real pode variar dependendo do caso de uso, do formato da query e de outros fatores. As proporções de entrada/saída não se aplicam aos modelos de incorporação.
3: a banda de entrada não está disponível fora dos EUA, Canadá e Brasil. A faixa de entrada também não está disponível para as versões ajustadas dos modelos base.
Exemplos de preços de disponibilização de modelos com pagamento por token
Modelo | Tokens de entrada | Tokens de saída | Região | Preço unitário US$ / DBU |
Preço total |
---|---|---|---|---|---|
Llama 3.1 405B | 4.000.000 | 1.000.000 | Leste dos EUA | US$ 0,070 | R$20,00 |
Llama 3.3 70B | 4.000.000 | 1.000.000 | Leste dos EUA | US$ 0,070 | US$ 3,50 |
Exemplos de preços de disponibilização de throughput provisionado
Modelo | Bandas de throughput | Horas / mês | Região | Preço unitário US$ / DBU |
Preço total |
---|---|---|---|---|---|
Llama 3.1 405B | 1 | 720 | Leste dos EUA | US$ 0,070 | US$ 7.560 |
Llama 3.3 70B | 1 | 720 | Leste dos EUA | US$ 0,070 | US$ 4.320 |
Llama 3.1 8B | 2 | 720 | Leste dos EUA | US$ 0,070 | US$ 5.040 |
Pague conforme o uso com um teste gratuito de 14 dias ou entre em contato conosco para obter descontos de uso contínuo ou requisitos personalizados.