Wizerr AI: Databricks를 활용하여 전자 설계 및 구매 혁신

목적에 맞게 제작된 GenAI를 사용하여 부품 설계, 엔지니어링 및 구매 시간을 80% 줄였습니다.

발행일: January 14, 2025

제조Less than a minute

작성자: 아르준 라지푸트, Avinash Harsh (Wizerr AI), Onzali Suba (Wizerr AI), Kirsty Hall (Wizerr AI)

Summary

대규모, 비구조화, 복잡한 데이터 시트 처리는 Wizerr의 특허 출원 중인 ELX 엔진의 핵심이며, AI 중심의 접근 방식으로 전자 설계 및 구매를 재상상합니다. Wizerr는 Databricks와 협력하여 데이터 파이프라인을 확장하고, 데이터를 안전하게 관리하고, AI 모델의 반복적인 개발과 최적화를 가속화하며, 수백만 개의 데이터 시트를 처리할 수 있는 미래 지향적인 플랫폼을 구축했습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

전자 제품은 새로운 소비자 기기, 에너지, 교통, 로봇공학, 연결성, 데이터 등에 대한 끊임없는 수요에 의해 번개처럼 발전하고 있습니다. 그러나 전자 제품을 설계하고 제조하는 과정은 대부분 변하지 않았으며, 번거롭고 시간이 많이 걸리며 구식인 관행에 의해 제한되어 왔습니다. 그래서 Wizerr는 전자 산업의 AI 혁신 분야에서 선두주자로서, 부품 엔지니어링을 위한 GenAI 기반 팀원을 구축하여 설계, 엔지니어링 및 부품 조달 시간을 최대 80%까지 단축하려고 했습니다.

역사적으로, 전자 부품 엔지니어링에서 사용되는 제품 데이터는 도메인 전문 지식이 필요한 비구조화된 데이터 시트, 매뉴얼, 수정 사항, API, 코드 문서의 미궁에 갇혀 있었습니다. Wizerr의 혁신적인 솔루션은 전력 관리, RF, 무선, 임베디드 시스템에 대해 사전 훈련된 팀원들입니다. 그들은 복잡한 전자 사양을 해석하고, 기술적으로 정확한 구성 요소를 추천하며, 대체 부품을 찾고, 정밀하고 빠르게 블록 다이어그램을 설계하는 데 능숙합니다. 이로 인해 최적화된 엔지니어링 BOM (Bill of Materials)이 생성됩니다.

Databricks 데이터 인텔리전스 플랫폼은 솔루션 개발에 있어 중요한 역할을 했으며, Wizerr에게 데이터를 통합, 확장, 운영화하는 능력을 전보다 더 빠르게 제공했습니다 - 그리고 몇 주 안에 실용적이고 확장 가능한 솔루션을 구축했습니다.

도전: 백만 개의 데이터 시트 확장

전자 부품에 대한 데이터 시트는 표, 다이어그램, 기술 용어가 포함된 밀집되고 비구조화된 문서입니다. 전통적인 데이터 파이프라인은 몇 가지 요인으로 인해 볼륨과 복잡성에 대처하는 데 어려움을 겪습니다:

일관성 없는 형식: 각 데이터 시트는 레이아웃이 독특하므로, 적응 가능한 파싱 메커니즘이 필요합니다.
풍부한 데이터 컨텍스트: ChatGPT와 같은 도구를 지원하는 대형 언어 모델(LLMs)은 복잡한 표, 그림, 그래프, PDF 등에서 숫자 값을 해석하는 데 알려진 도전이 있습니다. 더욱이, 전압 범위나 전류 출력과 같은 사양을 추출하고 해석하는 것은 산업 특정 의미론적 추론과 결합된 정확한 숫자 추론을 요구합니다.
확장 요구 사항: 백만 개의 데이터 시트를 대량으로 처리하고, 높은 처리량과 낮은 지연 시간으로 실시간 작업을 지원하면서 데이터의 무결성과 정확성을 유지합니다.
모델 반복: 데이터시트에서 복잡한 정보를 추출하고 정확하고 문맥에 맞는 쿼리 응답을 위해 GenAI 모델을 최적화하기 위해 모델을 훈련하고 실험하고 정제합니다.

전통적인 데이터 파이프라인이 이러한 작업의 볼륨과 복잡성에 어려움을 겪는 동안, Databricks의 강력한 생태계는 Wizerr의 ELX AI 엔진과 워크플로우를 크게 개선했습니다.

Databricks가 복잡한 워크플로우를 어떻게 단순화했는지

1. 스파크를 이용한 병렬 데이터 수집

Wizerr는 Apache Spark™의 분산 컴퓨팅 기능을 사용하여 수천 개의 데이터시트를 동시에 처리하였습니다. Databricks의 Apache Spark에 최적화된 런타임은 처리 시간을 크게 줄였습니다. 파티셔닝과 Z-오더링을 결합하면 이전에 며칠이 걸리던 데이터 수집을 몇 시간 만에 완료할 수 있어, 수집에 드는 비용과 시간을 90% 이상 절약할 수 있었습니다.

Spark와 Pandas의 통합 은 Databricks에서 Wizerr의 파이프라인을 이전하는 데 도움을 주었으며, 원활한 데이터 조작 경험을 제공하고 분산 데이터 처리로 전환하는 팀의 학습 곡선을 낮추었습니다.

비용과 시간을 줄이는 것과 함께, Databricks는 처리 중에 오류 처리와 추적성을 향상시켰습니다. 플랫폼의 Delta Lake ACID 준수 및 구조화된 로깅은 Wizerr가 특정 단계와 데이터 항목에서 오류를 격리하고 디버그하는 것을 간단하게 만들었습니다, 전체 파이프라인을 다시 실행할 필요 없이.

2. Unity 카탈로그를 통한 강화된 데이터 거버넌스

Wizerr의 기업 고객들에게, Unity Catalog 는 데이터를 안전하고 투명하게 관리하는 데 결정적인 역할을 했습니다. 주요 이점은 다음과 같습니다:

중앙집중식 메타데이터: 데이터 스키마와 라인리지를 위한 통합 저장소, 데이터 변환을 추적하기 쉽게 만듭니다.
역할 기반 접근: 산업 표준을 준수하면서 민감한 데이터에 안전하게 접근을 허용합니다.
팀 간 협업: 여러 팀이 중복이나 데이터 사일로 없이 관련 데이터 세트에 액세스할 수 있게 했습니다.

3. 확장 가능한 AI 모델 훈련

Databricks의 MLflow 통합 은 Wizerr에게 세밀하게 조정된 언어 모델을 파이프라인에 원활하게 통합하는 능력을 제공하였으며, 훈련과 배포를 간소화하였습니다.

모델 추적: MLflow를 사용하면 다양한 LLM(예: Llama 3.1 8B instruct 및 Mistral 7B instruct)과 양자화 방법을 실험하고, 지연 시간, 처리량, 정확도, 정밀도 등의 메트릭을 비교하는 것이 쉬웠습니다. 초기 결과를 바탕으로 Wizerr는 앞으로 Databricks의 서빙 및 호스팅 서비스를 사용하여 자체적으로 미세 조정된 LLM을 호스팅하는 것을 고려하고 있습니다.
하이퍼파라미터 튜닝: Databricks Mosaic AI Training 는 다양한 실험 설정에 대한 모델 성능에 미치는 파라미터 구성을 추적함으로써 효율적인 하이퍼파라미터 최적화를 촉진했습니다.
버전 관리와 배포: MLflow의 모델 레지스트리는 실험에서 생산으로의 전환을 간소화하고, 버전 제어를 단순화하며, 신뢰할 수 있는 모델 배포를 보장하였습니다.

4. 협업 모델 워크벤치

Databricks의 협업 환경은 Wizerr의 모델 성능을 평가하는 중심 허브가 되었습니다. 나란히 비교를 통해 팀은 "전압 - 출력 (최소)" 또는 "전류 - 출력." 같은 사양을 추출하기 위한 출력을 비교할 수 있었습니다. 시각화 도구는 모델 예측과 오류의 상세한 시각화를 통해 디버깅 과정을 단순화했습니다. Databricks 플랫폼은 또한 엔지니어, 데이터 과학자, 도메인 전문가가 실시간으로 협업할 수 있도록 하여 반복적인 개선을 촉진했습니다.

5. 비용 효율적인 컴퓨팅을 위한 동적 오토스케일링

Databricks의 자동 스케일링 클러스터는 Wizerr의 작업량 강도에 따라 동적으로 조정되었습니다. 피크 수집 시기 동안에는 클러스터가 자동으로 확장되어 높은 처리량을 처리하고, 유휴 시기에는 자동으로 축소되어 리소스 사용을 최적화하고 비용을 줄였습니다.

6. 메달리온 아키텍처와 델타 테이블

Delta 테이블, Unity 카탈로그, Spark의 통합 덕분에 Wizerr는 Databricks 환경 내외부의 데이터베이스에 원활하게 접근할 수 있습니다. 이로 인해 Wizerr는 더 적은 코드로 테이블을 쿼리하고 Spark의 분산 특성을 활용할 수 있었습니다. 또한, Delta 테이블과 SQL 테이블 간의 CRUD 작업이 훨씬 더 빠르게 이루어집니다.

각 파이프라인 단계에서 처리된 데이터를 저장하면 오류 검사가 간단해지며, Delta 테이블 버전 관리를 통해 Wizerr는 변경 사항을 추적하고, 버전을 비교하고, 필요한 경우 빠르게 롤백할 수 있어 작업 흐름의 신뢰성을 향상시켰습니다.

결과: 데이터시트 처리 변혁

Wizerr가 작업 흐름에 Databricks를 통합함으로써 여러 가지 이점을 얻었습니다:

더 빠른 처리 속도: 데이터 시트의 취득 및 파싱 시간을 90% 줄여, 1,000,000개 이상의 데이터 시트를 기록적인 시간 안에 처리했습니다.
데이터 무결성 향상: Unity Catalog를 이용한 향상된, 개방형 데이터 거버넌스는 일관되고 신뢰할 수 있는 출력을 보장했습니다.
더 빠른 모델 반복: MLflow와 Databricks Workbench는 오픈 소스 AI 모델을 실험하고 미세 조정하는 것을 더 쉽고 빠르게 만들었습니다.
무리 없는 확장성: Databricks의 아키텍처는 데이터 볼륨이 계속 증가함에 따라 Wizerr가 무리 없이 확장할 수 있게 합니다.
원활한 협업: 통합 도구는 여러 팀을 모아 결정을 빠르게 내리고 혁신을 가속화하였습니다.

이것이 데이터 아키텍트와 솔루션 엔지니어에게 중요한 이유

Wizerr의 여정은 전자 부품 엔지니어링을 변혁하는 것뿐만 아니라, 어떤 산업이든 복잡한 AI 워크플로우를 운영화하는 방법에 대한 청사진입니다. 데이터를 통합하고, 도메인 특화 AI 모델을 활용하고, 대규모로 솔루션을 운영화함으로써, Wizerr는 적절한 도구가 적절한 비전을 만났을 때 가능한 것을 보여주었습니다. Databricks는 분산된 데이터를 통합하여 실행 가능한 통찰력을 제공하고, AI 모델을 빠르게 구축하고 대규모로 배포하며, 팀이 혁신적이고 실용적인 솔루션을 이전보다 더 빠르게 제공할 수 있도록 하는 유연성과 힘을 제공합니다.

모든 산업에는 그 고유의 도전이 있습니다. Wizerr의 성공은 적절한 플랫폼이 있으면 이러한 도전이 우리가 일하는 방식을 혁신하는 기회가 될 수 있음을 보여줍니다.

이 블로그 게시물은 Arjun Rajput (계정 관리자, Databricks)와 Avinash Harsh (CEO, Wizerr AI)가 공동으로 작성하였습니다.

다음은 무엇인가요?

Mosaic AI: Build and Deploy Production-quality AI Agent Systems

June 12, 2024/1분 이내 소요

Mosaic AI: 프로덕션 품질의 컴파운드 AI 시스템 구축 및 배포

Databricks Named a Leader in 2024 Gartner® Magic Quadrant™ for Cloud Database Management Systems

December 31, 2024/2분 소요