주요 컨텐츠로 이동

Mosaic AI 파운데이션 Model Serving

실시간 및 배치 추론 워크로드 요구 사항을 모두 충족하는 최신 오픈 파운데이션 모델을 제공합니다. 이를 통해 자체 모델 배포를 유지 관리할 필요 없이 고품질의 생성 AI 모델을 활용하는 애플리케이션을 빠르고 쉽게 구축할 수 있습니다.

Loading...

파운데이션 모델 온디맨드 가격

* 지역 사용 가능성: AWS, Azure
1. 처리량 대역은 Provisioned Throughput을 위해 사용 가능한 단일 용량 단위로 정의됩니다. 대역의 처리량은 모델에 따라 다르며; 자세한 내용은 아래 표를 참조하십시오

2. 배치 추론 작업에 대한 최대 프로비저닝 처리량은 표에서 보여지는 실시간 작업보다 약 50% 높습니다

3. 시간당 요금은 분당 증가로 청구됩니다.

파운데이션 모델 서빙 DBU 속도 및 처리량

모델 토큰당-결제 스케일링 대역을 위한 프로비저닝 처리량
1
엔트리 대역에 대한 프로비전된 처리량
(미국, 캐나다, 브라질의 기본 모델에만 사용 가능)3
100만 개의 입력 토큰당 DBU
(전역)
100만 개의 출력 토큰당 DBU
(전역)
시간당 DBU
(전역)
처리량 대역2
(최대 토큰/초)
시간당 DBU
(전역)
최대 토큰 / 초
현재 모델
Claude 3.7 Sonnet 35.714 178.571 해당 사항 없음 해당 사항 없음 해당 사항 없음 해당 사항 없음
Llama 3.1 405B 35.714 142.857 600.000 3,400 150.000 850
Llama 4 Maverick 7.143 21.429 해당 사항 없음 해당 사항 없음 해당 사항 없음 해당 사항 없음
Llama 3.3 70B 7.143 21.429 342.857 9,500 85.714 2,400
Llama 3.1 70B 해당 사항 없음 해당 사항 없음 342.857 9,500 85.714 2,400
Llama 3.1 8B 2.143 6.429 106.000 19,000 53.571 9,500
Llama 3.2 3B 해당 사항 없음 해당 사항 없음 92.857 22,000 46.429 10,900
Llama 3.2 1B 해당 사항 없음 해당 사항 없음 85.714 35,000 42.857 15,800
GTE 1.857 해당 사항 없음 20.000 9,450 20.000 9,450
BGE 대형 1.429 해당 사항 없음 24.000 11,800 24.000 11,800
레거시 모델
DBRX 10.714 32.143 171.429 650 171.429 650
Llama 3 70B 해당 사항 없음 해당 사항 없음 212.143 1,000 212.143 1,000
Llama 3 8B 해당 사항 없음 해당 사항 없음 106.000 3,000 106.000 3,000
Llama 2 70B 해당 사항 없음 해당 사항 없음 290.800 1,200 290.800 1,200
Llama 2 13B 해당 사항 없음 해당 사항 없음 112.000 980 112.000 980
Mixtral 8x7B 7.143 14.286 290.857 620 290.857 5,000
MPT-30B 해당 사항 없음 해당 사항 없음 112.000 450 112.000 450
MPT 7B 해당 사항 없음 해당 사항 없음 20.000 2,450 20.000 2,450

2: 처리량 대역은 모델별로 제공되는 최대 처리량(초당 토큰 수)으로, 위의 시간당 가격으로 제공됩니다.  프로비저닝된 처리량 서빙을 통해 모델 처리량은 특정 '처리량 대역' 단위로 제공됩니다. 모델 처리량이 높을수록 고객은 적절한 처리량 대역의 배수를 설정해야 하며, 이때 위의 시간당 가격의 배수로 요금이 부과됩니다.

1: 표시된 처리량은 토큰 300개당 3500개의 입력/출력을 제공하는 일반적인 실시간 사용 사례를 기반으로 한 예시입니다. 실제 처리량은 사용 사례, 쿼리 형태 및 기타 요인에 따라 달라질 수 있습니다. 임베딩 모델에는 입력/출력 비율이 적용되지 않습니다.

3: 입장 밴드는 미국, 캐나다, 브라질의 AWS와 미국, 캐나다, 브라질, EU의 Azure에서만 사용 가능합니다. 기본 모델의 세부 조정 버전에는 입장 밴드가 사용할 수 없습니다.

토큰당 지불 서빙 가격 예시

모델 입력 토큰 출력 토큰 지역 단가
$/DBU
총 가격
Llama 3.1 405B 4,000,000 1,000,000 미국 동부 $0.070 $20.00
라마 3.3 70B 4,000,000 1,000,000 미국 동부 $0.070 $3.50

프로비저닝된 처리량 서빙 가격 예시

모델 처리량 대역 시간/월 지역 단가
$/DBU
총 가격
Llama 3.1 405B 1개 720 미국 동부 $0.070 $7,560
Llama 3.3 70B 1개 720 미국 동부 $0.070 $4,320
Llama 3.1 8B 2 720 미국 동부 $0.070 $5,040

14일 무료 체험 후 사용한 만큼 지불하거나 약정 사용 할인 또는 맞춤 요구 사항은 상담을 통해 문의하세요.

Mosaic AI 파운데이션 모델 서빙 FAQ