A IA Generativa está transformando a forma como as organizações interagem com seus dados, e o processamento em lote de LLM rapidamente se tornou um dos casos de uso mais populares da Databricks. No ano passado, lançamos a primeira versão das Funções de IA para permitir que as empresas apliquem LLMs a dados privados - sem movimentação de dados ou comprometimentos de governança. Desde então, milhares de organizações alimentaram pipelines em lote para classificação, resumo, extração estruturada e fluxos de trabalho orientados por agentes. À medida que as cargas de trabalho de IA generativa entram em produção, velocidade, escalabilidade e simplicidade se tornaram essenciais.
É por isso que, como parte de nossa iniciativa Semana dos Agentes, lançamos grandes atualizações nas Funções de IA, permitindo que elas alimentem fluxos de trabalho em lote de nível de produção em dados empresariais. As funções de IA - seja de propósito geral (ai_query()
para prompts flexíveis) ou específicas para tarefas (ai_classify()
, ai_translate()
) - agora são totalmente sem servidor e de nível de produção, não requerem configuração e oferecem desempenho mais de 10 vezes mais rápido. Além disso, agora estão profundamente integradas à Plataforma de Inteligência de Dados Databricks e acessíveis diretamente de notebooks, Pipelines Lakeflow, SQL Databricks e até mesmo AI/BI Databricks.
Muitas plataformas de IA tratam a inferência em lote como uma reflexão tardia, exigindo exportações manuais de dados e gerenciamento de endpoints que resultam em fluxos de trabalho fragmentados. Com o SQL Databricks, você pode testar sua consulta em algumas linhas com uma simples cláusula LIMIT. Se você perceber que pode querer filtrar em uma coluna, pode facilmente adicionar uma cláusula WHERE. E então basta remover o LIMIT para executar em escala. Para aqueles que escrevem SQL regularmente, isso pode parecer óbvio, mas na maioria das outras plataformas GenAI, isso teria exigido várias exportações de arquivos e código de filtragem personalizado!
Uma vez que você tenha testado sua consulta, executá-la como parte de seu pipeline de dados é tão simples quanto adicionar uma tarefa em um Workflow e incrementá-la é fácil com o Lakeflow. E se um usuário diferente executar esta consulta, ela só mostrará os resultados para as linhas às quais eles têm acesso no Catálogo Unity. É exatamente isso que significa quando dizemos que este produto funciona diretamente na Plataforma de Inteligência de Dados - seus dados permanecem onde estão, simplificando a governança e reduzindo o incômodo de gerenciar várias ferramentas.
Você pode usar tanto SQL quanto Python para usar as Funções de IA, tornando o Batch AI acessível tanto para analistas quanto para cientistas de dados. Os clientes já estão tendo sucesso com as Funções de IA:
“A IA em lote com Funções de IA está otimizando nossos fluxos de trabalho de IA. Isso está nos permitindo integrar inferência de IA em larga escala com uma simples consulta SQL - sem necessidade de gerenciamento de infraestrutura. Isso será integrado diretamente em nossos pipelines, reduzindo custos e diminuindo o ônus da configuração. Desde que adotamos, vimos uma aceleração dramática na velocidade de desenvolvimento quando combinamos ETL tradicional e pipeline de dados com cargas de trabalho de inferência de IA.”— Ian Cadieu, CTO, Altana
Executar IA em transcrições de suporte ao cliente é tão simples quanto isso:
Ou aplicando inferência em lote em escala em Python:
Anteriormente, a maioria das Funções de IA tinha limites de throughput ou exigia provisionamento de endpoint dedicado, o que restringia seu uso em alta escala ou adicionava sobrecarga operacional na gestão e manutenção de endpoints.
A partir de hoje, as Funções de IA são totalmente sem servidor - não é necessário configurar nenhum endpoint em qualquer escala! Basta chamar ai_query
ou funções baseadas em tarefas como ai_classify
ou ai_translate
, e a inferência é executada instantaneamente, independentemente do tamanho da tabela. O serviço de Inferência em Lote da API de Modelo de Fundação gerencia automaticamente o provisionamento de recursos nos bastidores, escalando trabalhos que precisam de alto throughput enquanto entrega tempos de conclusão de trabalho previsíveis.
Para mais controle, ai_query() ainda permite que você escolha modelos específicos de Llama ou GTE, com suporte para modelos adicionais em breve. Outros modelos, incluindo LLMs ajustados, LLMs externos (como Anthropic & OpenAI), e modelos clássicos de IA, também podem ser usados com ai_query() ao implantá-los no Mosaic AI Model Serving.
Otimizamos nosso sistema para Inferência em Lote em todas as camadas. A API de Modelo de Fundação agora oferece um throughput muito maior que permite tempos de conclusão de trabalho mais rápidos e TCO líder do setor para inferência de modelo Llama. Além disso, os trabalhos de inferência em lote de longa duração agora são significativamente mais rápidos devido aos nossos sistemas alocarem inteligentemente capacidade para os trabalhos. As funções de IA são capazes de escalar adaptativamente o tráfego de backend, permitindo confiabilidade de nível de produção.
Como resultado disso, as Funções de IA executam >10x mais rápido, e em alguns casos até 100x mais rápido, reduzindo o tempo de processamento de horas para minutos. Essas otimizações se aplicam em funções de propósito geral (ai_query
) e específicas para tarefas (ai_classify
, ai_translate
), tornando a IA em Lote prática para cargas de trabalho de alta escala.
Carga de Trabalho | Tempo de Execução Anterior (s) | Novo Tempo de Execução (s) | Melhoria |
---|---|---|---|
Resumir 10.000 documentos | 20.400 | 158 | 129x mais rápido |
Classifique 10.000 interações de suporte ao cliente | 13.740 | 73 | 188x mais rápido |
Traduzir 50.000 textos | 543.000 | 658 | 852x mais rápido |
Os modelos GenAI têm mostrado uma promessa incrível para ajudar a analisar grandes corpora de dados não estruturados. Descobrimos que muitas empresas se beneficiam de poder especificar um esquema para os dados que desejam extrair. No entanto, anteriormente, as pessoas dependiam de técnicas frágeis de engenharia de prompt e às vezes repetiam consultas para iterar na resposta até chegar a uma resposta final com a estrutura correta.
Para resolver este problema, as Funções de IA agora suportam Saída Estruturada, permitindo que você defina esquemas diretamente nas consultas e usando técnicas de camada de inferência para garantir que as saídas do modelo estejam de acordo com o esquema. Vimos que este recurso melhora dramaticamente o desempenho para tarefas de geração estruturada, permitindo que as empresas o lancem em aplicativos de consumo em produção. Com um esquema consistente, os usuários podem garantir a consistência das respostas e simplificar a integração em workflows downstream.
Exemplo: Extraia metadados estruturados de artigos de pesquisa:
Acompanhar o progresso do seu trabalho de inferência em lote agora é muito mais fácil. Nós fornecemos estatísticas ao vivo sobre falhas de inferência para ajudar a rastrear quaisquer preocupações de desempenho ou dados inválidos. Todos esses dados podem ser encontrados na interface do usuário do Query Profile, que fornece status de execução em tempo real, tempos de processamento e visibilidade de erros. Nas Funções de IA, construímos tentativas automáticas que lidam com falhas transitórias, e definir a flag fail_on_error
para false pode garantir que uma única linha ruim não falhe o trabalho inteiro.
As Funções de IA são executadas nativamente em toda a Plataforma de Inteligência Databricks, incluindo SQL, Notebooks, DBSQL, Painéis AI/BI e Genie AI/BI - trazendo inteligência para todos os usuários, em todos os lugares.
Com o Spark Structured Streaming e Delta Live Tables (em breve), você pode integrar funções de IA com lógica de pré-processamento personalizada, lógica de pós-processamento e outras Funções de IA para construir pipelines de IA em lote de ponta a ponta.
A IA em Lote agora é mais simples, mais rápida e totalmente integrada. Experimente hoje e desbloqueie a inferência em lote em escala empresarial com IA.
(This blog post has been translated using AI-powered tools) Original Post