Apresentando Inferência em Lote Serverless

Inferência em Lote LLM sem esforço e escalável com Funções de IA

Published: March 13, 2025

Produto8 min de leitura

por Ankit Mathur, Ahmed Bilal e Youngbin Kim

Summary

IA Instantânea e Serverless – Zero configuração, inferência em lote 10x mais rápida.
Workflows Estruturados e Escaláveis – Extraia insights, execute em escala, observabilidade integrada.
Integração Databricks Sem Costura – Funciona em SQL, Python e ferramentas de IA/BI.

A IA Generativa está transformando a forma como as organizações interagem com seus dados, e o processamento em lote de LLM rapidamente se tornou um dos casos de uso mais populares da Databricks. No ano passado, lançamos a primeira versão das Funções de IA para permitir que as empresas apliquem LLMs a dados privados - sem movimentação de dados ou comprometimentos de governança. Desde então, milhares de organizações alimentaram pipelines em lote para classificação, resumo, extração estruturada e fluxos de trabalho orientados por agentes. À medida que as cargas de trabalho de IA generativa entram em produção, velocidade, escalabilidade e simplicidade se tornaram essenciais.

É por isso que, como parte de nossa iniciativa Semana dos Agentes, lançamos grandes atualizações nas Funções de IA, permitindo que elas alimentem fluxos de trabalho em lote de nível de produção em dados empresariais. As funções de IA - seja de propósito geral (ai_query() para prompts flexíveis) ou específicas para tarefas (ai_classify(), ai_translate()) - agora são totalmente sem servidor e de nível de produção, não requerem configuração e oferecem desempenho mais de 10 vezes mais rápido. Além disso, agora estão profundamente integradas à Plataforma de Inteligência de Dados Databricks e acessíveis diretamente de notebooks, Pipelines Lakeflow, SQL Databricks e até mesmo AI/BI Databricks.

O que há de novo?

Completamente Serverless – Sem configuração de endpoint e sem gerenciamento de infraestrutura. Basta executar sua consulta.
Processamento em Lote Mais Rápido - Melhoria de velocidade superior a 10 vezes com nosso backend de API de Modelo de IA Mosaic de nível de produção.
Extraia facilmente insights estruturados - Usando nosso recurso de Saída Estruturada nas Funções de IA, nossa API de Modelo de Fundação extrai insights em uma estrutura que você especifica. Chega de "convencer" o modelo a fornecer a saída no esquema que você deseja!
Observabilidade em Tempo Real - Acompanhe o desempenho da consulta e automatize o tratamento de erros.
Construído para a Plataforma de Inteligência de Dados – Use Funções de IA perfeitamente em SQL, Notebooks, Workflows, DLT, Spark Streaming, Painéis de IA/BI, e até mesmo no Genie de IA/BI.

Abordagem da Databricks para Inferência em Lote

Muitas plataformas de IA tratam a inferência em lote como uma reflexão tardia, exigindo exportações manuais de dados e gerenciamento de endpoints que resultam em fluxos de trabalho fragmentados. Com o SQL Databricks, você pode testar sua consulta em algumas linhas com uma simples cláusula LIMIT. Se você perceber que pode querer filtrar em uma coluna, pode facilmente adicionar uma cláusula WHERE. E então basta remover o LIMIT para executar em escala. Para aqueles que escrevem SQL regularmente, isso pode parecer óbvio, mas na maioria das outras plataformas GenAI, isso teria exigido várias exportações de arquivos e código de filtragem personalizado!

Uma vez que você tenha testado sua consulta, executá-la como parte de seu pipeline de dados é tão simples quanto adicionar uma tarefa em um Workflow e incrementá-la é fácil com o Lakeflow. E se um usuário diferente executar esta consulta, ela só mostrará os resultados para as linhas às quais eles têm acesso no Catálogo Unity. É exatamente isso que significa quando dizemos que este produto funciona diretamente na Plataforma de Inteligência de Dados - seus dados permanecem onde estão, simplificando a governança e reduzindo o incômodo de gerenciar várias ferramentas.

Você pode usar tanto SQL quanto Python para usar as Funções de IA, tornando o Batch AI acessível tanto para analistas quanto para cientistas de dados. Os clientes já estão tendo sucesso com as Funções de IA:

“A IA em lote com Funções de IA está otimizando nossos fluxos de trabalho de IA. Isso está nos permitindo integrar inferência de IA em larga escala com uma simples consulta SQL - sem necessidade de gerenciamento de infraestrutura. Isso será integrado diretamente em nossos pipelines, reduzindo custos e diminuindo o ônus da configuração. Desde que adotamos, vimos uma aceleração dramática na velocidade de desenvolvimento quando combinamos ETL tradicional e pipeline de dados com cargas de trabalho de inferência de IA.”
— Ian Cadieu, CTO, Altana

Executar IA em transcrições de suporte ao cliente é tão simples quanto isso:

Ou aplicando inferência em lote em escala em Python:

Aprofunde-se nas Últimas Melhorias

1. IA em Lote Instantânea e Sem Servidor

Anteriormente, a maioria das Funções de IA tinha limites de throughput ou exigia provisionamento de endpoint dedicado, o que restringia seu uso em alta escala ou adicionava sobrecarga operacional na gestão e manutenção de endpoints.

A partir de hoje, as Funções de IA são totalmente sem servidor - não é necessário configurar nenhum endpoint em qualquer escala! Basta chamar ai_query ou funções baseadas em tarefas como ai_classify ou ai_translate, e a inferência é executada instantaneamente, independentemente do tamanho da tabela. O serviço de Inferência em Lote da API de Modelo de Fundação gerencia automaticamente o provisionamento de recursos nos bastidores, escalando trabalhos que precisam de alto throughput enquanto entrega tempos de conclusão de trabalho previsíveis.

Para mais controle, ai_query() ainda permite que você escolha modelos específicos de Llama ou GTE, com suporte para modelos adicionais em breve. Outros modelos, incluindo LLMs ajustados, LLMs externos (como Anthropic & OpenAI), e modelos clássicos de IA, também podem ser usados com ai_query() ao implantá-los no Mosaic AI Model Serving.

2. >Inferência em lote 10x mais rápida

Otimizamos nosso sistema para Inferência em Lote em todas as camadas. A API de Modelo de Fundação agora oferece um throughput muito maior que permite tempos de conclusão de trabalho mais rápidos e TCO líder do setor para inferência de modelo Llama. Além disso, os trabalhos de inferência em lote de longa duração agora são significativamente mais rápidos devido aos nossos sistemas alocarem inteligentemente capacidade para os trabalhos. As funções de IA são capazes de escalar adaptativamente o tráfego de backend, permitindo confiabilidade de nível de produção.

Como resultado disso, as Funções de IA executam >10x mais rápido, e em alguns casos até 100x mais rápido, reduzindo o tempo de processamento de horas para minutos. Essas otimizações se aplicam em funções de propósito geral (ai_query) e específicas para tarefas (ai_classify, ai_translate), tornando a IA em Lote prática para cargas de trabalho de alta escala.

Carga de Trabalho	Tempo de Execução Anterior (s)	Novo Tempo de Execução (s)	Melhoria
Resumir 10.000 documentos	20.400	158	129x mais rápido
Classifique 10.000 interações de suporte ao cliente	13.740	73	188x mais rápido
Traduzir 50.000 textos	543.000	658	852x mais rápido

3. Extraia facilmente insights estruturados com Saída Estruturada

Os modelos GenAI têm mostrado uma promessa incrível para ajudar a analisar grandes corpora de dados não estruturados. Descobrimos que muitas empresas se beneficiam de poder especificar um esquema para os dados que desejam extrair. No entanto, anteriormente, as pessoas dependiam de técnicas frágeis de engenharia de prompt e às vezes repetiam consultas para iterar na resposta até chegar a uma resposta final com a estrutura correta.

Para resolver este problema, as Funções de IA agora suportam Saída Estruturada, permitindo que você defina esquemas diretamente nas consultas e usando técnicas de camada de inferência para garantir que as saídas do modelo estejam de acordo com o esquema. Vimos que este recurso melhora dramaticamente o desempenho para tarefas de geração estruturada, permitindo que as empresas o lancem em aplicativos de consumo em produção. Com um esquema consistente, os usuários podem garantir a consistência das respostas e simplificar a integração em workflows downstream.

Exemplo: Extraia metadados estruturados de artigos de pesquisa:

4. Observabilidade e Confiabilidade em Tempo Real

Acompanhar o progresso do seu trabalho de inferência em lote agora é muito mais fácil. Nós fornecemos estatísticas ao vivo sobre falhas de inferência para ajudar a rastrear quaisquer preocupações de desempenho ou dados inválidos. Todos esses dados podem ser encontrados na interface do usuário do Query Profile, que fornece status de execução em tempo real, tempos de processamento e visibilidade de erros. Nas Funções de IA, construímos tentativas automáticas que lidam com falhas transitórias, e definir a flag fail_on_error para false pode garantir que uma única linha ruim não falhe o trabalho inteiro.

5. Construído para a Plataforma de Inteligência de Dados

As Funções de IA são executadas nativamente em toda a Plataforma de Inteligência Databricks, incluindo SQL, Notebooks, DBSQL, Painéis AI/BI e Genie AI/BI - trazendo inteligência para todos os usuários, em todos os lugares.

Com o Spark Structured Streaming e Delta Live Tables (em breve), você pode integrar funções de IA com lógica de pré-processamento personalizada, lógica de pós-processamento e outras Funções de IA para construir pipelines de IA em lote de ponta a ponta.

Comece a Usar a Inferência em Lote com Funções de IA Agora

A IA em Lote agora é mais simples, mais rápida e totalmente integrada. Experimente hoje e desbloqueie a inferência em lote em escala empresarial com IA.

Explore a documentação para ver como as Funções de IA simplificam a inferência em lote dentro do Databricks
Assista a demonstração para um guia passo a passo de como executar a inferência em lote LLM em grande escala.
Aprenda como implantar um pipeline de IA em Lote de nível de produção em escala.
Confira o Guia Compacto para Agentes de IA para aprender como maximizar seu ROI em GenAI.

(This blog post has been translated using AI-powered tools) Original Post

O que vem a seguir?

Introducing AI/BI: Intelligent Analytics for Real-World Data

June 11, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

January 31, 2025/3 min de leitura