(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
생성 AI는 조직이 데이터와 상호 작용하는 방식을 변화시키고 있으며, 배치 LLM 처리는 Databricks의 가장 인기 있는 사용 사례 중 하나가 빠르게 되었습니다. 지난해, 우리는 기업이 데이터 이동이나 거버넌스 트레이드오프 없이 개인 데이터에 LLM을 적용할 수 있도록 AI 함수의 첫 번째 버전을 출시했습니다. 이후로 수천 개의 조직이 분류, 요약, 구조화된 추출, 에이전트 주도 워크플로우를 위한 배치 파이프라인을 구동했습니다. 생성 AI 작업 부하가 생산으로 이동함에 따라, 속도, 확장성, 간단함이 필수적이게 되었습니다.
그래서 우리는 Agents 이니셔티브의 일환으로 AI 함수에 대한 주요 업데이트를 진행하여 기업 데이터에 대한 생산 등급 배치 워크플로우를 지원할 수 있게 했습니다. AI 함수-일반적인 목적(ai_query()
는 유연한 프롬프트를 위한 것) 또는 특정한 작업(ai_classify(),
ai_translate())에
대한 것-이 이제 완전히 서버리스이며, 제품 수준이며, 설정이 전혀 필요 없으며, 10배 이상 빠른 성능을 제공합니다. 또한, 이제 Databricks 데이터 인텔리전스 플랫폼에 깊게 통합되어 노트북, Lakeflow 파이프라인, Databricks SQL, 그리고 Databricks AI/BI에서 직접 접근할 수 있습니다.
많은 AI 플랫폼들은 배치 추론을 사후 생각으로 취급하며, 수동 데이터 내보내기와 엔드포인트 관리를 필요로 하여 작업 흐름이 파편화됩니다. Databricks SQL을 사용하면, 간단한 LIMIT 절로 몇 줄의 쿼리를 테스트할 수 있습니다. 만약 특정 열에 필터를 적용하고 싶다면, WHERE 절을 쉽게 추가할 수 있습니다. 그리고 그냥 LIMIT을 제거하여 대규모로 실행할 수 있습니다. 이는 정기적으로 SQL을 작성하는 사람들에게는 당연한 것일 수 있지만, 대부분의 다른 GenAI 플랫폼에서는 이를 위해 여러 파일을 내보내고 사용자 정의 필터링 코드를 작성해야 했습니다!
쿼리를 테스트한 후에는, 데이터 파이프라인의 일부로 실행하는 것은 워크플로우에 작업을 추가하는 것만큼 간단하며, Lakeflow를 사용하면 증분화가 쉽습니다. 다른 사용자가 이 쿼리를 실행하면, Unity 카탈로그에서 접근할 수 있는 행에 대한 결과만 표시됩니다. 이 제품이 데이터 인텔리전스 플 랫폼 내에서 직접 실행된다는 것이 구체적으로 무엇을 의미하는지 - 데이터는 그대로 있으며, 거버넌스를 단순화하고 여러 도구를 관리하는 번거로움을 줄입니다.
SQL과 Python을 모두 사용하여 AI 함수를 사용할 수 있으므로, 분석가와 데이터 과학자 모두에게 Batch AI를 사용할 수 있습니다. 고객들은 이미 AI 함수를 성공적으로 활용하고 있습니다:
“배치 AI와 AI 함수는 우리의 AI 워크플로우를 간소화하고 있습니다. 이것은 우리가 대규모 AI 추론을 간단한 SQL 쿼리로 통합할 수 있게 해주며, 인프라 관리는 필요하지 않습니다. 이것은 직접적으로 우리의 파이프라인에 통합되어 비용을 절감하고 구성 부담을 줄일 것입니다. 이를 채택한 이후로 우리는 전통적인 ETL과 데이터 파이프라이닝을 AI 추론 작업과 결합할 때 개발자 속도가 크게 가속화되었다는 것을 보았습니다.— Ian Cadieu, CTO, Altana
고객 지원 트랜스크립트에서 AI를 실행하는 것은 다음과 같이 간단합니다:
또는 Python에서 대규모로 배치 추론을 적용하는 경우:
이전에는 대부분의 AI 함수가 처리량 제한을 가지고 있거나 전용 엔드포인트 프로비저닝이 필요했으며, 이는 그들의 대규모 사용을 제한하거나 엔드포인트를 관리하고 유지하는 데 운영 오버헤드를 추가 했습니다.
오늘부터 AI 함수는 완전히 서버리스입니다—어떤 규모에서든 엔드포인트 설정이 필요 없습니다! 단순히 ai_query
또는 작업 기반 함수인 ai_classify
또는 ai_translate
를 호출하면, 테이블 크기에 상관없이 추론이 즉시 실행됩니다. Foundation Model API 배치 추론 서비스는 뒷단에서 자동으로 리소스 프로비저닝을 관리하며, 높은 처리량이 필요한 작업을 확장하면서 예측 가능한 작업 완료 시간을 제공합니다.
더 많은 제어를 위해, ai_query()는 여전히 특정 Llama 또는 GTE 임베딩 모델을 선택할 수 있게 해주며, 추가 모델에 대한 지원이 곧 제공될 예정입니다. 다른 모델들, 세밀하게 조정된 LLM들, 외부 LLM들 (Anthropic & OpenAI와 같은), 그리고 고전적인 AI 모델들도 Mosaic AI 모델 서빙에 배포함으로써 여전히 ai_query()와 함께 사용될 수 있습니다.
우리는 모든 계층에서 배치 추론을 위해 시스템을 최적화했습니다. Foundation Model API는 이제 라마 모델 추론을 위한 업계 최고의 TCO와 더 빠른 작업 완료 시간을 가능하게 하는 훨씬 높은 처리량을 제공합니다. 또한, 시스템이 작업에 지능적으로 용량을 할당함으로써 장기 실행 배치 추론 작업이 훨씬 빨라졌습니다. AI 함수는 백엔드 트래픽을 적응적으로 확장할 수 있어 생산 등급의 신뢰성을 보장합니다.
이 결과로, AI 함수는 >10배 더 빠르게 실행되며, 경우에 따라서는 최대 100배 더 빠르게 실행되어 처리 시간을 시간에서 분으로 줄입니다. 이러한 최적화는 일반적인 목적(ai_query
)과 특정한 작업(ai_classify
, ai_translate
)에 대한 함수에 모두 적용되어, 배치 AI를 대규모 작업에 실용적으로 만듭니다.
작업 부하 | 이전 런타임 (초) | 새로운 런타임 (초) | 개선 |
---|---|---|---|
10,000개의 문서 요약 | 20,400 | 158 | 129배 빠름 |
10,000개의 고객 지원 상호작용 분류 | 13,740 | 73 | 188배 더 빠름 |
50,000개의 텍스트 번역 | 543,000 | 658 | 852배 빠름 |
GenAI 모델은 비구조화된 대규모 데이터를 분석하는 데 놀라운 가능성을 보여주었습니다. 우리는 많은 기업들이 추출하려는 데이터에 대한 스키마를 지정할 수 있음으로써 이점을 얻는 것을 발견했습니다. 그러나 이전에는 사람들이 취약한 프롬프트 엔지니어링 기법에 의존하고 때때로 쿼리를 반복하여 최종 답변에 도달하기 위해 답변을 반복했습니다.
이 문제를 해결하기 위해, AI 함수는 이제 구조화된 출력을 지원하여, 질의에서 직접 스키마를 정의하고 추론 계층 기법을 사용하여 모델 출력이 스키마를 준수하도록 보장합니다. 이 기능이 구조화된 생성 작업의 성능을 크게 향상시키는 것을 보았으며, 이를 통해 기업이 생산 소비자 앱에 출시할 수 있게 되었습니다. 일관된 스키마를 사용하면 사용자는 응답의 일관성을 보장하고 하류 작업 흐름에 통합을 간소화할 수 있습니다.
예시: 연구 논문에서 구조화된 메타데이터 추출:
이제 배치 추론 작업의 진행 상황을 추적하는 것이 훨씬 쉬워졌습니다. 우리는 실시간 추론 실패에 대한 통계를 제공하여 성능 문제나 유효하지 않은 데이터를 추적하는 데 도움을 줍니다. 이 모든 데이터는 쿼리 프로필 UI에서 찾을 수 있으며, 실시간 실행 상태, 처리 시간, 오류 가시성을 제공합니다. AI 함수에서는 일시적인 실패를 처리하는 자동 재시도를 구축했으며, fail_on_error
플래그를 false로 설정하면 하나의 나쁜 행이 전체 작업을 실패시키지 않도록 보장할 수 있습니다.
AI 함수는 Databricks 인텔리전스 플랫폼 전체에서 네이티브로 실행되며, SQL, 노트북, DBSQL, AI/BI 대시보드, AI/BI Genie를 포함하여 모든 사용자에게 어디서나 지능을 제공합니다.
Spark 구조화된 스트리밍과 Delta Live 테이블(곧 출시 예정)을 이용하면, 사용자 정의 전처리, 후처리 로직, 그리고 다른 AI 함수와 AI 함수를 통합하여 end-to-end AI 배치 파이프라인을 구축할 수 있습니다.
배치 AI는 이제 더 간단하고, 더 빠르며, 완전히 통합되었습니다. 오늘 시도해보고 AI를 이용한 기업 규모의 배치 추론을 해제해보세요.