Data + AI Summit 2025 está a apenas algumas semanas de distância! Este ano, estamos oferecendo nossa maior seleção de sessões de todos os tempos, com mais de 700 para escolher. Registre-se para se juntar a nós pessoalmente em San Francisco ou virtualmente.
Com uma carreira enraizada em código aberto, vi em primeira mão como as tecnologias e formatos abertos são cada vez mais centrais para a estratégia empresarial. Como um colaborador de longa data do Apache Spark™ e MLflow, mantenedor e colaborador do Delta Lake e Unity Catalog, e mais recentemente um colaborador do Apache Iceberg™, tive o privilégio de trabalhar ao lado de algumas das mentes mais brilhantes da indústria.
Para as sessões deste ano, estou focando na interseção de código aberto e IA - com um interesse particular em torno da IA multimodal. Especificamente, como formatos de tabela abertos como Delta Lake e Iceberg, combinados com governança unificada através do Unity Catalog, estão impulsionando a próxima onda de IA e análises em tempo real e confiáveis.
O próximo Apache Spark 4.1: O Próximo Capítulo em Análise Unificada
O Apache Spark™ há muito é reconhecido como o principal motor de análise unificada de código aberto, combinando uma API simples, porém poderosa, com um rico ecossistema e desempenho de primeira linha. No próximo lançamento do Spark 4.1, a comunidade reinventa o Spark para se destacar tanto em implantações massivas de cluster quanto no desenvolvimento local de laptop. Ouça e faça perguntas para:
Iceberg Geo Type: Transformando a Gestão de Dados Geoespaciais em Escala
Geoespacial está se tornando cada vez mais importante para os formatos de lakehouse. Aprenda com Jia Yu, Co-fundador e Arquiteto Chefe da Wherobots Inc., e Szehon Ho, Engenheiro de Software na Databricks, sobre o mais recente e melhor em torno dos tipos de dados geoespaciais no Apache Iceberg™.
Vamos Economizar Muito Dinheiro com a Ingestão de Dados Nativa da Nuvem!
R. Tyler Croy da Scribd, mantenedor do Delta Lake, e pastor do delta-rs desde o seu início, mergulhará na arquitetura nativa da nuvem que a Scribd adotou para ingerir dados do AWS Aurora, SQS, Kinesis Data Firehose, e mais. Ao usar ferramentas de código aberto prontas para uso como kafka-delta-ingest, oxbow e Airbyte, a Scribd redefiniu sua arquitetura de ingestão para ser mais orientada a eventos, confiável e, mais importante: mais barata. Não são necessários trabalhos!
Esta sessão vai explorar as propostas de valor de uma arquitetura de casa de lago e eficiências de custo dentro dos ecossistemas Rust/Arrow/Python. Alguns vídeos recomendados para assistir antes:
Daft e Unity Catalog: um lakehouse nativo de multimodal/IA
A IA multimodal mudará fundamentalmente a paisagem, pois os dados são mais do que apenas tabelas. Os fluxos de trabalho agora envolvem frequentemente documentos, imagens, áudio, vídeo, incorporações, URLs e muito mais.
Esta sessão de Jay Chia, Co-fundador da Eventual, mostrará como Daft + Unity Catalog podem ajudar a unificar autenticação, autorização e linhagem de dados, proporcionando uma visão holística de governança, com Daft, um popular framework multimodal.
PySpark tem sido há muito tempo uma pedra angular do processamento de big data, mas o surgimento de IA multimodal e busca por vetor introduz desafios além de suas capacidades. A nova API de fonte de dados Python do Spark permite a integração com os novos lagos de dados de IA construídos no formato multimodal Lance.
Esta sessão vai mergulhar em como o formato Lance funciona e por que é um componente importante para pipelines de dados de IA multimodal. Allison Wang, colaboradora do Apache Spark™, e Li Qiu, Engenheira de Banco de Dados LanceDB e membro do PMC Alluxio, vão mergulhar em como a combinação de Apache Spark (PySpark) e LanceDB permite avançar pipelines de dados de IA multimodal.
Simplificando o Desenvolvimento DSPy: Rastrear, Depurar e Implementar com MLflow
Chen Qian, Engenheiro de Software Sênior na Databricks, mostrará como integrar MLflow com DSPy para trazer total observabilidade para o seu desenvolvimento DSPy.
Você verá como rastrear chamadas de módulo DSPy, avaliações e otimizadores usando as capacidades de rastreamento e autologging do MLflow. A combinação dessas duas ferramentas facilita a depuração, iteração e compreensão de seus fluxos de trabalho DSPy, e então implantar seu programa DSPy de ponta a ponta.
De Conclusão de Código a Agentes de Engenharia de Software Autônomos
Kilian Lieret, Engenheiro de Software de Pesquisa na Universidade de Princeton, foi recentemente convidado no videocast Data Brew para uma discussão fascinante sobre novas ferramentas para avaliação e aprimoramento da IA em engenharia de software.
Esta sessão é uma extensão desta conversa, onde Kilian irá se aprofundar no SWE-bench (uma ferramenta de benchmarking) e SWE-agent (uma estrutura de agentes), a atual fronteira da IA agente para desenvolvedores, e como experimentar com agentes de IA.
Compondo sistemas de IA de alta precisão com SLMs e mini-agentes
A sempre incrível Sharon Zhou, CEO e Fundadora da Lamini, discute como utilizar pequenos modelos de linguagem (SLMs) e mini-agentes para reduzir alucinações usando Mixture of Memory Exports (ou seja, MoME sabe melhor)!
Saiba um pouco mais sobre MoME neste divertido episódio do Data Brew by Databricks com a Sharon: Mixture of Memory Exports.
Além do Compromisso: Privacidade Diferencial na Síntese de Dados Tabulares
A privacidade diferencial é uma ferramenta importante para fornecer garantias matemáticas em torno da proteção da privacidade dos indivíduos por trás dos dados. Esta palestra de Lipika Ramaswamy da Gretel.ai (agora parte da NVIDIA) explora o uso do Gretel Navigator para gerar dados sintéticos privados diferenciais que mantêm alta fidelidade aos dados de origem e alta utilidade em tarefas downstream em conjuntos de dados heterogêneos.
Algumas boas pré-leituras sobre o tema:
Construindo Agentes de Conhecimento para Automatizar Fluxos de Trabalho de Documentos
Uma das maiores promessas para agentes LLM é automatizar todo o trabalho de conhecimento sobre dados não estruturados — chamamos esses de "agentes de conhecimento". Jerry Liu, Fundador da LlamaIndex, mergulha em como criar agentes de conhecimento para automatizar fluxos de trabalho de documentos. O que às vezes pode ser complexo de implementar, Jerry mostra como tornar isso um fluxo simplificado para um processo de negócios fundamental.
Construindo Modelos de IA na Saúde usando Dados Semi-Sintéticos: Holden Karau, Co-fundadora da Fight Health Insurance INC, sobre como combater a enxurrada de papelada na saúde usando IA.
O Guia do Mochileiro para o Streaming do Delta Lake em um Universo Agente: Scott Haines, Engenheiro de Software Distinto na Nike, sobre como uma forte base em torno do Delta Lake (e Lakehouses em geral) com streaming é fundamental para o avanço em sistemas agentes.
Simon + Denny - Sem Filtros & Sem Roteiro: Simon Whiteley e eu estamos juntos novamente, então venha com suas perguntas, esperamos ter respostas!
Apache Spark AMA: Venha com suas perguntas sobre o Apache Spark™ - temos respostas!
Perguntas e Respostas sobre Rust e o Formato Lakehouse: Como um Rustacean, adoraríamos mergulhar no formato lakehouse como Apache Iceberg™ e Delta Lake e como eles estão ajudando a criar a próxima onda de motores de processamento de dados.
Espero vê-lo em San Francisco. Registre-se agora e não perca estas sessões, e muitas outras!
(This blog post has been translated using AI-powered tools) Original Post