Mosaic AI 파운데이션 Model Serving
실시간 및 배치 추론 워크로드 요구 사항을 모두 충족하는 최신 오픈 파운데 이션 모델을 제공합니다. 이를 통해 자체 모델 배포를 유지 관리할 필요 없이 고품질의 생성 AI 모델을 활용하는 애플리케이션을 빠르고 쉽게 구축할 수 있습니다.
Loading...
파운데이션 모델 서빙 DBU 속도 및 처리량
모델 | Pay-Per-Token | 스 케일링 밴드를 위한 프로비저닝 처리량 for Scaling bands1 |
입장 대역을 위한 프로비전된 처리량 (미국, 캐나다, 브라질의 기본 모델에서만 사용 가능)3 |
|||
---|---|---|---|---|---|---|
100만 개의 입력 토큰당 DBU (전역) |
100만 개의 출력 토큰당 DBU (전역) |
시간당 DBU (전역) |
처리량 대역2 (최대 토큰/초) |
시간당 DBU (전역) |
최대 토큰 / 초 | |
현재 모델 | ||||||
Llama 3.1 405B | 35.714 | 142.857 | 600.000 | 3,400 | 150.000 | 850 |
Llama 3.3 70B | 7.143 | 21.429 | 342.857 | 9,500 | 85.714 | 2,400 |
Llama 3.1 70B | 해당 사항 없음 | 해당 사항 없음 | 342.857 | 9,500 | 85.714 | 2,400 |
Llama 3.1 8B | 해당 사항 없음 | 해당 사항 없음 | 106.000 | 19,000 | 50,000 | 9,500 |
Llama 3.2 3B | 해당 사항 없음 | 해당 사항 없음 | 92.857 | 22,000 | 46.429 | 10,900 |
Llama 3.2 1B | 해당 사항 없음 | 해당 사항 없음 | 85.714 | 35,000 | 42.857 | 15,800 |
GTE | 1.857 | 해당 사항 없음 | 20.000 | 9,450 | 20.000 | 9,450 |
BGE 대형 | 1.429 | 해당 사항 없음 | 24.000 | 11,800 | 24.000 | 11,800 |
레거시 모델 | ||||||
DBRX | 10.714 | 32.143 | 171.429 | 650 | 171.429 | 650 |
Llama 3 70B | 해당 사항 없음 | 해당 사항 없음 | 212.143 | 1,000 | 212.143 | 1,000 |
Llama 3 8B | 해당 사항 없음 | 해당 사항 없음 | 106.000 | 3,000 | 106.000 | 3,000 |
Llama 2 70B | 해당 사항 없음 | 해당 사항 없음 | 290.800 | 1,200 | 290.800 | 1,200 |
Llama 2 13B | 해당 사항 없음 | 해당 사항 없음 | 112.000 | 980 | 112.000 | 980 |
Mixtral 8x7B | 7.143 | 14.286 | 290.857 | 5,000 | 290.857 | 5,000 |
MPT-30B | 해당 사항 없음 | 해당 사항 없음 | 112.000 | 450 | 112.000 | 450 |
MPT 7B | 해당 사항 없음 | 해당 사항 없음 | 20.000 | 2,450 | 20.000 | 2,450 |
2: 처리량 대역은 모델별로 제공되는 최대 처리량(초당 토큰 수)으로, 위의 시간당 가격으로 제공됩니다. 프로비저닝된 처리량 서빙을 통해 모델 처리량은 특정 '처리량 대역' 단위로 제공됩니다. 모델 처리량이 높을수록 고객은 적절한 처리량 대역의 배수를 설정해야 하며, 이때 위의 시간당 가격의 배수로 요금이 부과됩니다.
1: 표시된 처리량은 토큰 300개당 3500개의 입력/출력을 제공하는 일반적인 실시간 사용 사례를 기반으로 한 예시입니다. 실제 처리량은 사용 사례, 쿼리 형태 및 기타 요인에 따라 달라질 수 있습니다. 임베딩 모델에는 입력/출력 비율이 적용되지 않습니다.
3: 입장 밴드는 미국, 캐나다, 브라질 외의 국가에서 사용할 수 없습니다. 입장 밴드는 기본 모델의 세부 조정 버전에서도 사용할 수 없습니다.
토큰당 지불 서빙 가격 예시
모델 | 입력 토큰 | 출력 토큰 | 지역 | 단가 $/DBU |
총 가격 |
---|---|---|---|---|---|
Llama 3.1 405B | 4,000,000 | 1,000,000 | 미국 동부 | $0.070 | $20.00 |
Llama 3.3 70B | 4,000,000 | 1,000,000 | 미국 동부 | $0.070 | $3.50 |
프로비저닝된 처리량 서빙 가격 예시
모델 | 처리량 대역 | 시간/월 | 지역 | 단가 $/DBU |
총 가격 |
---|---|---|---|---|---|
Llama 3.1 405B | 1개 | 720 | 미국 동부 | $0.070 | $7,560 |
Llama 3.3 70B | 1개 | 720 | 미국 동부 | $0.070 | $4,320 |
Llama 3.1 8B | 2 | 720 | 미국 동부 | $0.070 | $5,040 |