![](https://www.databricks.com/sites/default/files/2023-12/categoryicon-generativeai-2.png)
DeepSeek R1 on Databricks
Summary
- Mosaic AI Model Serving을 통한 DeepSeek-R1 배포
- 정제(distilled) 모델을 활용한 비용 효율적 추론으로 효율성 향상
- OpenAI, Amazon Bedrock 등 다양한 모델과 함께 DeepSeek-R1을 원활하게 관리
Deepseek-R1은 '추론' 기능을 최초로 오픈 소스 커뮤니티에 선보인 최첨단 개방형 모델입니다. 이번 출시에서는 Llama-70B와 Llama-8B 모델로 그 기능을 정제(distillation)하여 속도와 비용 효율성, 그리고 '추론' 능력을 결합한 매력적인 패키지를 제공합니다.
우리는 여러분이 Mosaic AI Model Serving을 통해 정제(distillation)된 DeepSeek-R1-Llama 모델을 쉽게 다운로드하고 실행할 수 있게 되어 기쁩니다. 이 모델은 뛰어난 보안성과 최고 수준의 성능 최적화를 자랑하며, Databricks Data Intelligence Platform과의 원활한 통합으로 더욱 큰 가치를 제공합니다.
이제 이러한 개방형 '추론' 모델을 활용하여 데이터를 더욱 지능적으로 분석하고 해석할 수 있는 에이전트 시스템을 구축해 보세요.
Databricks에서 Deepseek-R1-Distilled-Llama 모델 배포하기
Deepseek-R1-Distill-Llama 모델을 Databricks에 설치하고 사용하기 위한 과정은 다음과 같습니다. 여기에 첨부된 노트북을 활용하거나, 아래의 간단한 안내를 따라 진행하실 수 있습니다:
1. 먼저, 필요한 컴퓨팅 자원을 준비하고 모델과 토크나이저를 불러옵니다:
이 과 정에서 Llama 8B 모델의 경우 약 32GB의 모델 가중치를 다운로드하므로 몇 분 정도 소요될 수 있습니다.
2. 모델과 토크나이저를 transformers 모델로 등록합니다. mlflow.transformers를 사용하면 Unity Catalog에 모델을 쉽게 등록할 수 있습니다. 모델 크기(이 경우 8B)와 모델 이름만 설정하면 됩니다.
1 8B 모델의 경우 ML Runtime 15.4 LTS와 g4dn.4xlarge 단일 노드 클러스터를, 70B 모델의 경우 g6e.4xlarge를 사용하는 것이 좋습니다. 노트북 내에서 모델을 배포할 때 반드시 GPU가 필요한 것은 아닙니다. 사용하는 컴퓨팅 자원에 충분한 메모리가 있다면 가능합니다.
3. 최적화된 Model Serving 엔진을 통해 이 모델을 제공하려면, Serving 섹션으로 이동하여 등록된 모델로 엔드포인트를 시작하세요.
엔드포인트가 준비되면 API를 통해 모델에 쉽게 쿼리할 수 있으며, Playground를 사용하여 애플리케이션 프로토타이핑을 시작할 수 있습니다.
Mosaic AI 모델 서빙을 이용하면 이 모델을 간단하면서도 강력하게 배포할 수 있습니다. 또한 최고 수준의 성능 최적화와 Lakehouse와의 통합을 통해 뛰어난 거버넌스와 보안을 확보할 수 있습니다.
언제 추론 모델 을 사용해야 하는가
Deepseek-R1 시리즈 모델의 특징 중 하나는 OpenAI의 o1 모델과 유사한 확장된 사고 체인(CoT) 능력입니다. 이는 Playground UI의 "Thinking" 섹션에서 모델의 추론 과정을 확인할 수 있습니다. 이 기능은 특히 수학과 코딩 분야에서 높은 품질의 답변을 제공하지만, 사용자들은 Deepseek의 사용 가이드라인을 준수하는 것을 권장합니다.
이는 추론 모델을 활용하는 방법을 알아가는 초기 단계에 불과하며, 우리 고객들이 이 기능을 통해 어떤 새로운 데이터 인텔리전스 시스템을 구축할 수 있을지 매우 기대됩니다. 고객들께서는 자신의 사용 사례에 맞게 실험해 보시고 그 결과를 공유해 주시기 바랍니다. R1, 추론, 그리고 Databricks를 활용한 데이터 인텔리전스 구축에 대한 더 자세한 정보는 앞으로 몇 주 동안 추가로 업데이트될 예정입니다.
참고자료
- Mosaic AI Model Serving에 대한 자세한 정보
- Batch LLM inference을 사용하여 대량의 데이터에 Deepseek-R1-distilled-Llama 모델 적용하기
- Agent Framework and Evaluation을 이용한 생산적인 Agentic 및 RAG 앱 구축 방법
(한글화: 황경태) Original Post