GenAI 모델 파인튜닝을 위한 Mosaic AI Model Training 소개

Published: July 24, 2024

Mosaic AI Model Training에서 GenAI 모델 파인튜닝 지원 기능을 공개 프리뷰로 사용할 수 있게 되었습니다. Databricks는 범용 LLM의 지능을 기업 데이터와 연결하는 것 - 즉, 데이터 인텔리전스가 고품질 GenAI 시스템을 구축하는 핵심이라고 믿습니다. 파인튜닝을 통해 특정 작업, 비즈니스 맥락, 도메인 지식에 맞게 모델을 특화시킬 수 있으며, 더 정확한 애플리케이션을 위해 RAG와 결합할 수 있습니다. 이는 데이터 인텔리전스 플랫폼 전략의 중요한 축을 형성하며, 기업 데이터를 통합하여 GenAI를 고유한 요구 사항에 맞게 조정할 수 있게 해줍니다.

모델 학습

지난 1년 동안 우리 고객들은 200,000개 이상의 맞춤형 AI 모델을 학습했으며, 우리는 이러한 교훈을 Mosaic AI Model Training이라는 완전 관리형 서비스로 정제했습니다. Llama 3, Mistral, DBRX 등 다양한 모델을 기업 데이터로 파인튜닝하거나 사전 학습할 수 있습니다. 그 결과로 생성된 모델은 Unity Catalog에 등록되어 모델과 가중치에 대한 완전한 소유권과 제어권을 제공합니다. 또한 Mosaic AI Model Serving을 통해 한 번의 클릭으로 쉽게 모델을 배포할 수 있습니다.

우리는 Mosaic AI Model Training을 다음과 같이 설계했습니다:

간단함: 기본 모델과 학습 데이터셋을 선택하고 즉시 학습을 시작하세요. 우리가 GPU와 효율적인 학습의 복잡성을 처리하므로 여러분은 모델링에 집중할 수 있습니다.
빠름: 오픈소스보다 최대 2배 빠른 전용 학습 스택을 통해 신속하게 반복하며 모델을 구축할 수 있습니다. 수천 개의 예제에 대한 파인튜닝부터 수십억 개의 토큰에 대한 지속적인 사전 학습까지, 우리의 학습 스택은 여러분과 함께 확장됩니다.
통합: 데이터브릭스 플랫폼에서 쉽게 데이터를 수집, 변환, 전처리하고 직접 학습에 사용할 수 있습니다.
튜닝 가능: 학습률(learning rate)과 학습 기간 등 주요 하이퍼파라미터를 빠르게 조정하여 최고 품질의 모델을 구축할 수 있습니다.
주권: 모델과 가중치에 대한 완전한 소유권을 가집니다. 권한과 접근 리니지를 제어하여 학습 데이터셋과 하위 소비자를 추적합니다.

"Experian에서는 오픈소스 LLM의 파인튜닝 분야에서 혁신을 추구하고 있습니다. Mosaic AI Model Training은 우리 모델의 평균 학습 시간을 크게 단축시켜 하루에 여러 번 GenAI 개발 주기를 가속화할 수 있게 해주었습니다. 결과적으로 우리가 정의한 방식대로 작동하고, 우리의 사용 사례에 대해 상업용 모델보다 더 나은 성능을 발휘하며, 운영 비용이 크게 절감되는 모델을 얻게 되었습니다." James Lin, Experian AI/ML 혁신 책임자

이점

Mosaic AI Model Training을 통해 오픈소스 모델을 기업의 전문화된 작업에 맞게 조정하여 더 높은 품질을 달성할 수 있습니다. 주요 이점은 다음과 같습니다:

더 높은 품질: 요약, 챗봇 동작, 도구 사용, 다국어 대화 등 특정 작업과 기능에 대한 모델 품질을 향상시킵니다.
더 낮은 대기 시간과 비용: 대규모의 일반 지능 모델은 운영 시 비용이 많이 들고 속도가 느릴 수 있습니다. 많은 고객들은 소형 모델(<13B 파라미터)을 파인튜닝하면 품질을 유지하면서도 대기 시간과 비용을 크게 줄일 수 있다는 것을 발견했습니다.
일관성있고 구조화된 형식 또는 스타일: 복합 AI 시스템에서 엔티티 추출이나 JSON 스키마 생성과 같이 특정 형식이나 스타일을 따르는 출력을 생성합니다.
경량화되고 관리 가능한 시스템 프롬프트: 많은 비즈니스 로직이나 사용자 피드백을 모델 자체에 통합합니다. 복잡한 프롬프트에 최종 사용자 피드백을 통합하는 것은 어려울 수 있으며 작은 프롬프트 변경이 다른 질문에 대한 성능 저하를 일으킬 수 있습니다.
지식 기반 확장: 지속적인 사전 학습을 통해 특정 주제, 내부 문서, 언어 또는 모델의 원래 지식 컷오프 이후의 최신 이벤트 등 모델의 지식 기반을 확장합니다. 지속적인 사전 학습의 이점에 대한 향후 블로그를 기대해 주세요!

"Databricks를 통해 우리는 LLM을 사용하여 100만 개 이상의 파일을 일일 처리하여 부동산 기록에서 거래 및 엔티티 데이터를 추출하는 지루한 수동 작업을 자동화할 수 있었습니다. Meta Llama3 8b를 파인튜닝하고 Mosaic AI Model Serving을 사용하여 정확도 목표를 초과 달성했습니다. 대규모의 고비용 GPU 플릿을 관리할 필요 없이 이 작업을 대규모로 확장할 수 있었습니다." - Prabhu Narsina, First American 데이터 및 AI 부사장

RAG와 파인튜닝

우리는 종종 고객들로부터 이런 질문을 듣습니다: 기업 데이터를 통합하기 위해 RAG를 사용해야 할까요, 아니면 모델을 파인튜닝해야 할까요? Retrieval Augmented Fine-tuning (RAFT)를 통해 둘 다 결합할 수 있습니다! 예를 들어, 우리의 고객인 Celebal Tech는 생성 모델을 파인튜닝하여 검색된 컨텍스트에서 요약 품질을 개선하고 환각(hallucination)을 줄이며 품질을 향상시켜 고품질 도메인 특화 RAG 시스템을 구축했습니다 (아래 그림 참조).

그림 1: 파인튜닝된 모델과 RAG를 결합(노란색)하여 Celebal Tech에 가장 높은 품질의 시스템을 제공했습니다. Celebal Tech의 블로그에서 발췌

"RAG로 한계에 도달한 것 같았습니다 - 많은 프롬프트와 지시(instruction)를 작성해야 했고, 그것은 골치 아픈 일이었습니다. 우리는 파인튜닝 + RAG로 전환했고 Mosaic AI Model Training이 그것을 매우 쉽게 만들어주었습니다! 이는 데이터 언어학과 도메인에 대한 모델 채택뿐만 아니라 RAG 시스템에서 환각을 줄이고 속도를 향상시켰습니다. Databricks에서 파인튜닝한 모델을 RAG 시스템과 결합한 후, 우리는 더 적은 토큰을 사용하면서도 더 나은 애플리케이션과 정확도를 얻을 수 있었습니다." Anurag Sharma, Celebal Technologies 데이터 사이언스 AVP

평가

평가 방법은 파인튜닝 실험 중 모델 품질과 기본 모델 선택에 대한 반복 작업을 돕는 데 중요합니다. 시각적 검사부터 LLM-as-a-Judge까지, 우리는 Mosaic AI Model Training이 Databricks 내의 다른 모든 평가 시스템과 원활하게 연결되도록 설계했습니다:

프롬프트: 학습 중 모니터링할 프롬프트를 최대 10개까지 추가할 수 있습니다. 우리는 주기적으로 모델의 출력을 MLflow 대시보드에 기록하여 학습 중 모델의 진행 상황을 수동으로 확인할 수 있습니다.
플레이그라운드: 파인튜닝된 모델을 배포하고 플레이그라운드와 상호 작용하여 수동 프롬프트 테스트와 비교를 수행할 수 있습니다.
LLM-as-a-Judge: MLFlow Evaluation을 통해 다른 LLM을 사용하여 기존 메트릭 또는 사용자 지정 메트릭에 대해 파인튜닝된 모델을 평가할 수 있습니다.
노트북: 파인튜닝된 모델을 배포한 후 노트북이나 사용자 지정 스크립트를 작성하여 엔드포인트에서 커스텀 평가 코드를 실행할 수 있습니다.

시작하기

Databricks UI를 통해 또는 Python에서 프로그래밍 방식으로 모델을 파인튜닝할 수 있습니다. 시작하려면 Unity Catalog 또는 공개 Hugging Face 데이터셋에서 학습 데이터셋의 위치를 지정하고, 커스터마이즈하려는 모델과 원클릭 배포를 위한 모델 등록 위치를 선택하세요.