Mosaic AI Model Training에서 GenAI 모델 파인튜닝 지원 기능을 공개 프리뷰로 사용할 수 있게 되었습니다. Databricks는 범용 LLM의 지능을 기업 데이터와 연결하는 것 - 즉, 데이터 인텔리전스가 고품질 GenAI 시스템을 구축하는 핵심이라고 믿습니다. 파인튜닝을 통해 특정 작업, 비즈니스 맥락, 도메인 지식에 맞게 모델을 특화시킬 수 있으며, 더 정확한 애플리케이션을 위해 RAG와 결합할 수 있습니다. 이는 데이터 인텔리전스 플랫폼 전략의 중요한 축을 형성하며, 기업 데이터를 통합하여 GenAI를 고유한 요구 사항에 맞게 조정할 수 있게 해줍니다.
지난 1년 동안 우리 고객들은 200,000개 이상의 맞춤형 AI 모델을 학습했으며, 우리는 이러한 교훈을 Mosaic AI Model Training이라는 완전 관리형 서비스로 정제했습니다. Llama 3, Mistral, DBRX 등 다양한 모델을 기업 데이터로 파인튜닝하거나 사전 학습할 수 있습니다. 그 결과로 생성된 모델은 Unity Catalog에 등록되어 모델과 가중치에 대한 완전한 소유권과 제어권을 제공합니다. 또한 Mosaic AI Model Serving을 통해 한 번의 클릭으로 쉽게 모델을 배포할 수 있습니다.
우리는 Mosaic AI Model Training을 다음과 같이 설계했습니다:
"Experian에서는 오픈소스 LLM의 파인튜닝 분야에서 혁신을 추구하고 있습니다. Mosaic AI Model Training은 우리 모델의 평균 학습 시간을 크게 단축시켜 하루에 여러 번 GenAI 개발 주기를 가속화할 수 있게 해주었습니다. 결과적으로 우리가 정의한 방식대로 작동하고, 우리의 사용 사례에 대해 상업용 모델보다 더 나은 성능을 발휘하며, 운영 비용이 크게 절감되는 모델을 얻게 되었습니다." James Lin, Experian AI/ML 혁신 책임자
Mosaic AI Model Training을 통해 오픈소스 모델을 기업의 전문화된 작업에 맞게 조정하여 더 높은 품질을 달성할 수 있습니다. 주요 이점은 다음과 같습니다:
"Databricks를 통해 우리는 LLM을 사용하여 100만 개 이상의 파일을 일일 처리하여 부동산 기록에서 거래 및 엔티티 데이터를 추출하는 지루한 수동 작업을 자동화할 수 있었습니다. Meta Llama3 8b를 파인튜닝하고 Mosaic AI Model Serving을 사용하여 정확도 목표를 초과 달성했습니다. 대규모의 고비용 GPU 플릿을 관리할 필요 없이 이 작업을 대규모로 확장할 수 있었습니다." - Prabhu Narsina, First American 데이터 및 AI 부사장
우리는 종종 고객들로부터 이런 질문을 듣습니다: 기업 데이터를 통합하기 위해 RAG를 사용해야 할까요, 아니면 모델을 파인튜닝해야 할까요? Retrieval Augmented Fine-tuning (RAFT)를 통해 둘 다 결합할 수 있습니다! 예를 들어, 우리의 고객인 Celebal Tech는 생성 모델을 파인튜닝하여 검색된 컨텍스트에서 요약 품질을 개선하고 환각(hallucination)을 줄이며 품질을 향상시켜 고품질 도메인 특화 RAG 시스템을 구축했습니다 (아래 그림 참조).
그림 1: 파인튜닝된 모델과 RAG를 결합(노란색)하여 Celebal Tech에 가장 높은 품질의 시스템을 제공했습니다. Celebal Tech의 블로그에서 발췌
"RAG로 한 계에 도달한 것 같았습니다 - 많은 프롬프트와 지시(instruction)를 작성해야 했고, 그것은 골치 아픈 일이었습니다. 우리는 파인튜닝 + RAG로 전환했고 Mosaic AI Model Training이 그것을 매우 쉽게 만들어주었습니다! 이는 데이터 언어학과 도메인에 대한 모델 채택뿐만 아니라 RAG 시스템에서 환각을 줄이고 속도를 향상시켰습니다. Databricks에서 파인튜닝한 모델을 RAG 시스템과 결합한 후, 우리는 더 적은 토큰을 사용하면서도 더 나은 애플리케이션과 정확도를 얻을 수 있었습니다." Anurag Sharma, Celebal Technologies 데이터 사이언스 AVP
평가 방법은 파인튜닝 실험 중 모델 품질과 기본 모델 선택에 대한 반복 작업을 돕는 데 중요합니다. 시각적 검사부터 LLM-as-a-Judge까지, 우리는 Mosaic AI Model Training이 Databricks 내의 다른 모든 평가 시스템과 원활하게 연결되도록 설계했습니다:
Databricks UI를 통해 또는 Python에서 프로그래밍 방식으로 모델을 파인튜닝할 수 있습니다. 시작하려면 Unity Catalog 또는 공개 Hugging Face 데이터셋에서 학습 데이터셋의 위치를 지정하고, 커스터마이즈하려는 모델과 원클릭 배포를 위한 모델 등록 위치를 선택하세요.
(번역: Youngkyong Ko) Original Post