주요 컨텐츠로 이동
Platform blog

데이터브릭스를 통한 AI 모델 공유를 소개합니다

조직 내부 또는 외부의 클라우드, 플랫폼, 지역에 걸쳐 AI 모델을 검색, 평가, 설치, 공유하고 서빙하세요
Zaheera Valani
Darshana Sivakumar
Tianyi Huang
Giselle Goicochea
이 포스트 공유하기

(번역: Youngkyong Ko) Original Post

이제 Databricks Delta SharinDatabricks Marketplace에서 AI 모델 공유를 사용할 수 있게 되었다는 기쁜 소식을 알려드립니다. Delta Sharing을 통해 조직 내부 또는 외부의 클라우드, 플랫폼, 지역에 걸쳐 안전하게 AI 모델을 쉽게 공유하고 제공할 수 있습니다. 또한, Databricks Marketplace는 의료 전문가를 지원하기 위해 존 스노우 랩의 60개의 새로운 산업별 AI 모델을 출시하여 이미 선별된 기존 파운데이션 모델 세트에 추가했습니다. AI 모델 공유는 공개 프리뷰 중이며, 현재 Delta Sharing과 Marketplace에서 사용할 수 있습니다.

데이터브릭스 데이터 인텔리전스 플랫폼은 모델 제공, AI 교육, 모델 모니터링 등 종단간 머신러닝 기능을 통해 모델을 찾고 공유할 수 있는 이 새로운 기능을 지원합니다.

생성형 AI에 대해 증가하는 공유 수요 충족 

지난 몇 달 동안 우리는 데이터브릭스 데이터 인텔리전스 플랫폼에서 지원하는 데이터와 AI 솔루션을 추가해 왔습니다. 10월에는 모든 데이터, 분석, AI를 위한 오픈 마켓플레이스인 데이터브릭스 마켓플레이스에서 Llama 2 파운데이션 모델을 사용할 수 있다고 발표했습니다. 그 후 12월에는 데이터브릭스 내에서 또는 마켓플레이스에서 Llama 2, MPT 모델과 같은 인기 LLM에 즉시 액세스할 수 있는 파운데이션 모델 API를 출시했습니다.

그러나 생성형 AI에 대한 관심이 높아지면서 새로운 모델이 도입되고 기존 제공업체들이 모델 성능과 품질을 지속적으로 개선하는 등 AI 분야는 빠르게 진화하고 있습니다. 따라서 다양한 모델이 서로 다른 클라우드에 있을 수 있고 각각 UI, API, 비용이 다를 수 있기 때문에 다양한 모델을 실험하기가 어렵습니다. 보안과 거버넌스 또한 모델에 따라 매우 다양하여 일관성 없는 AI 모델 관리 방식을 만들 수 있으며, 모델 서빙과 공유 환경은 일반적으로 데이터 인프라와 분리되어 추가적인 부담, 복잡성 및 비용을 발생시킵니다.

그럼에도 불구하고 기업들은 데이터를 극대화하고 혁신적인 비즈니스 솔루션과 제품을 구축하기 위한 새로운 방법을 빠르게 개발하고 있습니다. MIT 테크놀로지 리뷰가 최근 글로벌 CIO를 대상으로 실시한 설문조사에 따르면 88%의 조직이 생성형 AI를 사용하고 있으며, 그 중 58%는 이러한 기능을 위한 하이브리드 접근 방식을 취하고 있는 것으로 나타났습니다. 일부 사용 사례에서는 공급업체의 대규모 언어 모델(LLM)을 사용하고, 지적재산 소유권, 개인정보 보호, 보안 및 정확도 요구 사항이 더 엄격한 경우에는 자체 모델을 구축하는 것입니다.1 

Delta Sharing을 사용하여 AI 모델들과 협업

이제 Delta Sharing은 AI 모델 공유를 지원하므로, 한 곳에서 모델을 훈련하고 어디든 배포할 수 있습니다. 이 새로운 기능은 중복이 없고, 클라우드와 여러 지역에 걸쳐 매끄럽게 배포되어 네트워크 지연 시간을 최적화하는 등 모델 공유에 있어 획기적인 이점을 제공합니다. 또한 이제 외부 파트너와 AI 모델을 공유하면 생성형 AI를 사용하여 협업을 강화할 수 있습니다.

Delta Sharing을 통한 모델 공유의 주요 장점 중 하나는 중복 없이 단일 진실 공급원(single source of truth)를 제공하므로, 초기 배포, 업그레이드, 유지보수 등 프로세스 어디에서도 모델을 이동할 필요가 없다는 점입니다. 또한  Delta Sharing은 여러 클라우드와 지역에 걸쳐 원활한 배포를 지원합니다. 모델을 학습하거나 미세 조정한 위치에 관계없이 AI 모델을 쉽게 배포할 수 있고, 최소한의 노력으로 모델을 업그레이드하거나 업데이트할 수 있습니다. 예를 들어, AWS에서 모델을 학습한 후, 복제할 필요 없이 Azure에 모델을 배포할 수 있습니다. 최근 데이터브릭스는 LLM을 사용하여 Unity Catalog의 테이블과 컬럼에 대한 문서를 자동으로 생성하는 AI 생성 문서 기능을 개발했습니다. 프로덕션 파이프라인의 일부로 Delta Sharing은 학습과 서비스 인프라를 분리하여 한 지역에서 이 모델을 훈련한 다음 전 세계 여러 지역에 이 모델을 배포하여 더 빠르게 서비스를 제공할 수 있도록 지원했습니다.

이제 Delta Sharing를 통해 외부 파트너와 AI 모델을 공유하여 혁신적인 협업 방식을 만들 수 있습니다. 이제 데이터 수신자는 오픈 소스 프레임워크(예: HuggingFace, Pytorch 등)를 사용하여 비공개 내부 학습 데이터 노출에 대한 걱정 없이 공유 모델을 로드하고 조직 간 미세 조정을 수행할 수 있습니다. 이를 통해 생성형 AI를 사용하여 비즈니스 목표를 공유하는 협업을 강화할 수 있습니다.

아래 데모를 통해 Delta Sharing을 통한 AI 모델 공유 및 서비스에 대해 자세히 알아보세요.

Databricks Marketplace에 있는 John Snow Labs의 새로운 AI 모델들

기존의 데이터 마켓플레이스는 테이블 형식의 데이터나 간단한 애플리케이션만 제공하는 제약이 있어서 데이터 공동 작업자가 얻을 수 있는 가치가 제한적입니다. 또한 데이터셋을 평가할 수 있는 도구도 제공하지 않습니다. Databricks Marketplace는 클라우드, 지역, 플랫폼에 걸쳐 데이터셋, 노트북, 그리고 이제 AI 모델을 공유하고 교환할 수 있는 개방형 마켓플레이스입니다. 6월에 출시된 이후, Databricks Marketplace에는 140개 이상의 공급업체에서 1,600개 이상의 리스팅이 등록되어 있습니다.

의료 및 생명 과학 산업에서는 운영 간소화부터 환자 돌봄 최적화까지, 생성형 AI를 구현하기 위한 다양한 사용 사례가 있습니다. 의료 분야는 전 세계 데이터 양의 30%를 생성하며, 다른 어떤 산업보다 매년 빠르게 성장하는 것으로 추정됩니다2. 예를 들어, 2020년 5월부터 2023년 4월까지 16만 명이 넘는 외래 의사와 의료 서비스 제공자가 Epic 전자 건강 기록(EHR) 네트워크를 통해 17억 건의 임상 노트를 작성했습니다. HIPAA 또는 GDPR과 같은 의료 데이터 규정은 이 방대한 EHR 데이터에 대한 직접적인 접근을 제한할 수 있지만, AI 기반 비식별화 기술을 적용하면 이러한 기록을 합법적으로 사용하여 환자에게 혜택을 제공할 수 있습니다. 생성 AI의 추가 적용 가능성은 자연어로 작성된 임상 노트에서 관련 인사이트를 추출하는 데까지 확장됩니다. 자연어 처리(NLP) 기술을 활용하면 임상 이벤트와 모든 상관관계 및 뉘앙스를 정확하게 식별하고 문맥을 파악할 수 있습니다. 또한 이러한 접근 방식은 의료 코딩 프로세스를 크게 간소화하여 비정형 텍스트를 정형화된 코드화 데이터로 변환합니다. 결과적으로 데이터 분석의 정확성을 높이고 보다 효율적이고 효과적인 의료 서비스 제공에 기여할 수 있습니다. 의료 기관은 생성형 AI를 활용하여 방대한 연간 임상 기록을 분석함으로써 임상 트렌드를 파악하고, 치료의 효과를 평가하며, 치료의 핵심을 정확히 짚어낼 수 있습니다.

의료 AI와 자연어 처리(NLP) 분야의 전문성으로 유명한 John Snow Labs는 의료 및 생명과학 조직이 AI 기반 프로젝트를 개발, 배포, 관리할 수 있도록 설계된 포괄적인 소프트웨어, 모델, 데이터 리소스 제품군을 제공합니다. John Snow Labs는 이미 데이터브릭스 마켓플레이스에 200개 이상의 데이터 리스팅을 보유한 데이터 제공업체입니다.

업계를 선도하는 공급업체인 John Snow Labs에서 의료 분야에 맞게 조정하여 출시한 60개의 새로운 최신 AI 모델을 소개합니다. 아래는  주요 리스팅의 일부입니다. 전체 AI 모델은 마켓플레이스에서 볼 수 있습니다.

John Snow Labs의 주요 AI 모델

Listing NameModel Description
Clinical De-identification (Obfuscate)Engineered to pinpoint and anonymize protected health information (PHI) in English-language clinical documentation. Learn more and view listing on Marketplace
Clinical Text SummarizationDistills lengthy and often complex clinical notes, encounters and various reports into concise, easily digestible summaries. Learn more and view listing on Marketplace
Extract Oncological Entities and RelationsDetects and classifies a wide spectrum of oncological entities (over 40 entities), ranging from adenopathy, biomarkers, cancer diagnoses, and numerous other critical elements crucial in oncological contexts. Learn more and view listing on Marketplace
Extract Social Determinants of HealthDesigned to detect and label social determinants of health (SDOH) entities within text data. Learn more and view listing on Marketplace.

Marketplace에서 AI 모델을 검색하는 데이터 소비자는 이제 오픈 소스 모델과 독점 AI 모델에 더 빠르고 쉽게 액세스하고 쿼리할 수 있습니다. 사전 구축된 노트북이 포함되어 있으며 구체적인 사용 사례 지침과 정보를 제공합니다. 또한 소비자는 데이터브릭스 모델 배포 및 추론 도구를 활용하여 AI 모델을 통해 고품질 예측을 손쉽게 수행할 수 있습니다. 예를 들어, 사용자는 AI 함수를 통해 SQL에서 직접 모델을 쿼리할 수 있어 분석 워크플로우에 AI 통합을 간소화할 수 있습니다. 표준 인터페이스를 통해 쉽게 실험하고 비교할 수 있습니다.

또한 거버넌스와 보안이 기본 제공되므로 사용자는 Unity Catalog 내 하나의 카탈로그에서 데이터, feature와 함께 AI 모델을 관리할 수 있습니다. 그리고 AI 워크플로를 통해 전체적인 가시성을 확보하고 세분화된 제어를 할 수 있습니다. AI 거버넌스의 작동 방식에 대해서는 문서를 참조하세요.

마켓플레이스 사용자는 파운데이션 모델을 그대로 사용하거나 자체 데이터로 미세 조정할 수도 있습니다. 파운데이션 모델을 사용하든 데이터 공급자의 모델을 사용하든, 모두 실시간 또는 일괄 추론을 위한 Databricks AI 기능과 함께 즉시 작동합니다.

아래 데모를 통해 데이터브릭스 마켓플레이스에서 John Snow Labs의 새 모델을 설치하는 방법을 알아보세요.

Databricks Marketplace의 파운데이션 모델

이러한 새로운 AI 모델 외에도, 지난 10월에는 Databricks Marketplace에서 Meta AI의 Llama 2 기초 채팅 모델을 사용할 수 있게 되었다고 발표한 바 있습니다. 또한 12월에는 음성 인식, 텍스트 생성 등 다양한 작업을 자동화하는 데 도움이 되는 Whisper V3, Mistral, BERT 등 엄선된 파운데이션 모델 목록을 추가로 공개했습니다. 각 모델에는 배포 및 사용법을 위한 코드와 지침이 포함된 사전 구축된 샘플 노트북이 함께 제공됩니다.

파운데이션 모델은 Databricks Marketplace에서 가장 인기 있는 리스팅 중 일부입니다. 아래 데모를 통해 데이터브릭스 마켓플레이스에서 파운데이션 모델을 설치하는 방법을 확인하세요.

데이터브릭스에서 AI 모델 시작하기

오늘 발표에서는 Delta Sharing의 새로운 AI 모델 공유 기능과 Databricks Marketplace의 새로운 AI 모델들을 소개했습니다. 이 두 가지 모두 현재 공개 프리뷰 중이므로, Delta Sharing에서 이러한 AI 모델과 모델 제공 기능을 테스트해 보시고 [email protected] 으로 피드백을 보내주세요.

위의 데모를 보거나 아래의 관련 eBook 및 블로그 게시물을 읽어보세요.

1 MIT Technology Review, "The great acceleration: CIO perspectives on generative AI" https://www.databricks.com/resources/ebook/mit-cio-generative-ai-report

2 "The Convergence of Healthcare and Technology," RBC Capital Market

Databricks 무료로 시작하기

관련 포스트

Engineering blog

새로운 파운데이션 모델 기능으로 생성형 AI 앱을 더 빠르게 구축하기

지난 주 검색 증강 세대(RAG) 에 대한 발표에 이어, 모델 서빙에 대한 주요 업데이트를 발표하게 되어 기쁩니다. Databricks Model Serving은 이제 통합 인터페이스를...
Engineering blog

Llama 2 Foundation Models Available in Databricks Lakehouse AI

We’re excited to announce that Meta AI’s Llama 2 foundation chat models are available in the Databricks Marketplace for you to fine-tune and...
Platform blog

데이터브릭스 마켓플레이스에서 사전 구축된 산업 솔루션으로 AI 여정 시작하기

모든 조직은 데이터 마켓플레이스에서 얻은 내부 데이터든 외부에서 얻은 타사 데이터든 데이터에서 가치를 얻고자 합니다. 여러 산업 분야의 조직은 안전한 데이터 공유와 협업을...
모든 플랫폼 블로그 포스트 보기