Meta의 Llama 2와 데이터브릭스로 생성형 AI앱 구축하기

Building your Generative AI apps with Meta's Llama 2 and Databricks

Published: July 19, 2023

플랫폼1분 이내 소요

작성자: 샹루이 멍, Patrick Wendell, Prem Prakash, Lu Wang (Mosaic AI), 앙킷 마투르

오늘 Meta는 최신 대규모 언어 모델(LLM)인 Llama 2를 상업적 용도¹의 오픈 소스로 공개했습니다. 이는 오픈 소스 AI의 중요한 발전이며, 출시 파트너로서 Meta와 함께 일하게 되어 매우 기쁘게 생각합니다 저희는 Llama 2 모델을 미리 사용해 볼 수 있었고, 그 기능과 가능한 모든 응용 분야에 깊은 인상을 받았습니다.

올해 초 Meta는 오픈 소스(OSS) LLM의 세계에 큰 기여를 한 LLaMA를 출시했습니다. 비록 v1 모델은 상업적 용도로 사용할 수는 없지만, 생성형 AI 및 LLM 연구를 크게 가속화했습니다. Alpaca와 Vicuna는 고품질의 명령어 기반의 채팅 데이터를 통해 LLaMA가 ChatGPT처럼 작동하도록 미세 조정할 수 있음을 입증했습니다. 이 연구 결과를 바탕으로 데이터브릭스는 상업적 사용을 위해 명령어 기반의 데이터셋인 databricks-dolly-15k를 만들어 공개했습니다. LLaMA-Adapter와 QLoRA는 고객의 GPU에서 저렴한 비용으로 LLaMA 모델을 미세 조정할 수 있는 파라미터 효율적인 미세 조정 방법을 도입했습니다. Llama.cpp는 4비트 정수 양자화를 통해 MacBook에서 효율적으로 실행되도록 LLaMA 모델을 포팅했습니다.

이와 동시에 기업이 LLM을 활용할 수 있도록 상업적 용도로 LLaMA와 유사하거나 더 높은 품질의 모델을 만들기 위한 여러 오픈 소스 노력이 있었습니다. MosaicML에서 출시한 MPT-7B는 더 긴 컨텍스트 길이를 위한 ALiBi와 같은 추가 기능을 통해 LLaMA-7B에 필적하는 최초의 상업용 OSS LLM이 되었습니다. 그 이후로 Falcon-7B 및 40B, OpenLLaMA-3B, 7B, 13B, MPT-30B와 같은 허가형 라이선스로 출시되는 OSS 모델이 점점 더 많아지고 있습니다.

새로 출시된 Llama 2 모델은 LLM 연구 작업을 더욱 가속화할 뿐만 아니라 기업이 자체적인 생성형 AI 애플리케이션을 구축할 수 있도록 지원합니다. Llama 2에서는 LLaMA보다 더 많은 토큰으로 학습된 7B, 13B, 70B 모델과 명령어 기반 및 채팅을 위해 fine-tune된 변형이 포함되어 있습니다.

생성형 AI 애플리케이션에 대한 완전한 소유권 확보하기

Llama 2와 MPT와 같은 최신 상업용 OSS 모델은 기업이 모델을 소유할 수 있는 중요한 기회를 제공하며, 따라서 생성형 AI 애플리케이션을 완전히 소유할 수 있습니다. OSS 모델을 적절하게 사용하면 독점적 SaaS 모델에 비해 여러 가지 이점을 얻을 수 있습니다:

벤더 lock-in 및 강제 중단 일정 리스크 제거
학습된 모델에 대한 전체 액세스 권한을 유지하면서 기업의 데이터로 미세 조정할 수 있는 기능
시간이 지나도 변하지 안하는 모델 특성
신뢰할 수 있는 인프라 내에서 프라이빗 모델 인스턴스를 제공하는 기능
생성형 AI 애플리케이션의 정확성, 편향성, 성능에 대한 엄격한 제어

데이터브릭스에서는 다양한 생성형 AI 사용 사례에 오픈 소스 LLM을 도입하는 고객을 많이 만나 뵙고 있습니다. OSS 모델의 품질이 계속해서 빠르게 향상됨에 따라 이러한 모델을 실험하여 품질, 비용, 안정성, 보안을 API 기반 모델과 비교하는 고객이 점점 더 많아지고 있습니다.

Databricks 내에서 Llama 2 개발하기

Llama 2 모델은 현재 사용 가능하며, 데이터브릭스에서도 쉽게 사용해 볼 수 있습니다. 우리는 추론에 Llama 2를 어떻게 사용하는지, Gradio 앱으로 감싸고, 데이터로 효율적으로 fine tune한 후, 모델을 MLflow에 로깅하는 방법을 보여주는 예제 노트북을 제공합니다.

Llama 2 서빙하기

여러분이 fine-tuning하고 최적화한 Llama 2 모델을 활용하기 위해서는 이 모델을 조직 전체에 배포하거나 AI 기반 애플리케이션에 통합할 수 있는 기능도 필요합니다.

데이터브릭스의 모델 서빙 서비스는 상용 애플리케이션에 가능한 최적의 latency와 처리량을 제공하기 위해 GPU에서 LLM을 서빙할 수 있도록 지원합니다. 세밀하게 조정된 LLaMA 모델을 배포하려면 Serving Endpoint를 생성하고 Unity Catalog 또는 모델 레지스트리에서 MLflow 모델을 엔드포인트의 구성에 포함하기만 하면 됩니다. 데이터브릭스가 모델을 위한 프로덕션 지원 환경을 구축하면 바로 사용할 수 있습니다! 여러분의 엔드포인트는 트래픽에 따라 확장됩니다.

GPU 기반 모델 서빙 preview를 미리 사용하시려면 등록하세요!

또한, 데이터브릭스는 OSS LLM 모델에 대해 최상의 레이턴시와 처리량을 필요로 하는 기업을 위해 최적화된 LLM 서비스를 제공하며, Llama 2를 선택하는 기업이 동급 최강의 성능을 얻을 수 있도록 제품의 일부로 Llama 2에 대한 지원을 추가할 예정입니다.

¹몇 가지 제한 사항이 있습니다. 자세한 내용은 Llama 2 라이선스를 참조하세요.

다음은 무엇인가요?

January 27, 2025/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

January 31, 2025/1분 이내 소요

생성형 AI 애플리케이션에 대한 완전한 소유권 확보하기

Databricks 내에서 Llama 2 개발하기

Llama 2 서빙하기

게시물을 놓치지 마세요

Sign up

다음은 무엇인가요?

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks