(번역: Youngkyong Ko) Original Post
오늘, Lilac이 데이터브릭스에 합류하게 되었다는 기쁜 소식을 알려드립니다. Lilac은 데이터 과학자가 생성형 AI에 중점을 두고 모든 종류의 텍스트 데이터 세트를 검색, 클러스터링, 분석할 수 있는 확장 가능하고 사용자 친화적인 도구입니다. Lilac은 대규모 언어 모델(LLM)의 결과 평가부터 모델 학습을 위한 비정형 데이터 세트의 이해와 준비에 이르기까지 다양한 사용 사례에 사용할 수 있습니다. Lilac의 도구들을 데이터브릭스에 통합함으로써 고객은 자체 엔터프라이즈 데이터를 사용하여 프로덕션 품질의 생성형 AI 애플리케이션 개발을 가속화할 수 있습니다.
GenAI 시대의 데이터 탐색과 이해
데이터는 모델 학습을 위한 데이터 세트 준비, 모델 결과물 평가, 검색 증강 생성(RAG) 데이터 필터링 등 모든 LLM 기반 시스템의 핵심입니다. 이러한 데이터 세트를 탐색하고 이해하는 것은 고품질의 GenAI 앱을 구축하는 데 매우 중요합니다. 그러나 구조화되지 않은 텍스트 데이터를 분석하는 것은 GenAI 시대에 매우 번거롭고 매우 어려운 일이 될 수 있습니다. 지금까지 이 프로세스는 확장성이 부족한 수작업과 노동 집약적인 방법으로 인해 어려움을 겪어왔습니다. 이러한 전통적인 방법은 시간이 많이 소요될 뿐만 아니라 너무 어렵기 때문에 많은 사람들이 시도조차 하지 못했습니다.
Lilac을 소개합니다
Lilac은 핵심은 비정형 데이터를 쉽게 탐색할 수 있게 해 주는데 있습니다. 데이터 과학자와 AI 연구자들이 텍스트 데이터 세트를 쉽게 탐색하고, 이해하고, 수정할 수 있는 유용한 도구입니다.
Lilac은 데이터와의 상호 작용을 장려하고 촉진하는 확장 가능한 솔루션을 제공함으로써 이 분야에서 혁신을 일으켰습니다. 놀랍도록 직관적인 사용자 인터페이스와 AI 증강 기능을 통해 데이터 과학자와 연구자들이 데이터 클러스터를 탐색하고, 사람의 피드백과 분류기를 사용해 새로운 데이터 카테고리를 도출하고, 이러한 인사이트를 기반으로 데이터 세트를 맞춤화할 수 있도록 지원합니다. Lilac 개발팀은 특히 편향성(bias)이나 독성(toxicity)에 대한 모델 결과물의 분석, RAG를 위한 데이터 준비, LLM의 미세 조정 또는 사전 학습이 가능하도록 제품을 구축했습니다.
Lilac의 핵심 미션은 고객에게 end-to-end GenAI 기능을 제공하겠다는 데이터브릭스의 약속과 일치합니다. 이 오픈 소스 프로젝트는 이미 데이터 과학 및 AI 연구 커뮤니티의 광범위한 청중을 매료시켰으며, 지난 1년 동안 Lilac을 활용하여 데이터를 큐레이팅해 온 저희의 Mosaic AI 팀도 이 프로젝트에 참여하고 있습니다. Lilac의 설립자인 Daniel Smilkov와 Nikhil Thorat는 각각 10년 동안 Google에서 엔터프라이즈 규모의 데이터 품질 솔루션 개발에 대한 전문성을 연마했습니다. 그들의 경험, 팀, 기술을 데이터브릭스에게 제공하게 되어 매우 기쁩니다.
앞으로의 전망: Lilac과 데이터브릭스
데이터브릭스 Mosaic AI를 통해 고객에게 자체 데이터를 사용하여 고품질의 GenAI 앱을 개발할 수 있는 end-to-end 도구들을 제공하는 것이 우리의 목표입니다. Lilac의 기술을 통해 통합 플랫폼에서 LLM의 결과물을 더 쉽게 평가하고 모니터링할 수 있을 뿐만 아니라 RAG, 미세 조정 및 사전 학습을 위한 데이터 세트를 준비할 수 있습니다. 앞으로 Lilac의 기술을 데이터브릭스에 통합하면서 더 많은 정보를 공유할 수 있기를 기대합니다. 기대해주세요!
온디맨드 웨비나 The GenAI Payoff in 2024 를 통해 데이터브릭스에서 GenAI 앱을 구축하는 방법에 대해 자세히 알아보세요.