Ir para o conteúdo principal

Plataformas de inteligência de dados

Nosso ponto de vista sobre como a IA mudará fundamentalmente as plataformas de dados e como os dados mudarão a IA empresarial
Compartilhe este post

A observação de que “o software está devorando o mundo ” moldou as indústrias tecnológicas modernas. Hoje, o software está onipresente em nossas vidas, desde os relógios que usamos até nossas casas, carros, fábricas e fazendas. Na Databricks, acreditamos que em breve a IA consumirá todos software. Ou seja, o software construído ao longo das últimas décadas será inteligente, aproveitando dados, tornando-o muito mais inteligente. As implicações são vastas e variadas, impactando tudo, desde o suporte ao cliente até a saúde e a educação.

Neste blogs, damos nossa view sobre como a IA mudará as plataformas de dados. Argumentamos que o impacto da IA nas plataformas de dados não será incremental, mas fundamental: democratizando massivamente o acesso aos dados, automatizando a administração manual e permitindo a criação completa de aplicações de IA personalizadas. Tudo isto será possibilitado por uma nova onda de plataformas unificadas que compreendem profundamente os dados de uma organização. Chamamos esta nova geração de sistemas de Plataformas de Inteligência de Dados.

Plataformas de dados até agora e seus desafios

data warehouse surgiu na década de 1980 como uma solução para organizar dados estruturados de negócios nas empresas. No entanto, em 2010, as organizações começaram a acumular uma quantidade significativa de dados não estruturados para apoiar casos de utilização mais variados, como a IA. Para resolver isso, data lake foi introduzido como um sistema aberto e escalável para qualquer tipo de dados. Em 2015, tornou-se comum para a maioria das organizações operar tanto data warehouse quanto data lake. Esta abordagem de plataforma dupla, no entanto, apresentou desafios significativos em termos de governação, segurança, fiabilidade e gestão.

Há cinco anos, a Databricks foi pioneira no conceito de lakehouse para combinar e unificar o melhor dos dois mundos. Lakehouses armazenam e controlam todos os seus dados em formatos abertos e oferecem suporte nativo a cargas de trabalho que variam de BI a IA. Pela primeira vez, a Lakehouses ofereceu um sistema unificado para (1) query todas as fontes de dados de uma organização em conjunto e (2) governar todas as cargas de trabalho que usam dados (BI, IA, etc.) de forma unificada. lakehouse tornou-se sua própria categoria de plataforma de dados e agora é amplamente adotada pelas empresas e incorporada às pilhas da maioria dos fornecedores.

Apesar do progresso, todas as plataformas de dados atuais no mercado ainda enfrentam vários desafios importantes:

  • Barreira de habilidades técnicas: a consulta de dados requer habilidades especializadas em SQL, Python ou BI, criando uma curva de aprendizado acentuada
  • Precisão e curadoria de dados: em grandes organizações, encontrar os dados corretos e precisos é um desafio, exigindo curadoria e planejamento extensivos
  • Complexidade de gerenciamento: Os custos das plataformas de dados podem disparar e apresentar baixo desempenho se não forem gerenciadas por pessoal altamente técnico
  • Governança e Privacidade: Os requisitos de governança em todo o mundo estão evoluindo rapidamente e, com o advento da IA, as preocupações em torno da linhagem, da segurança e da privacidade são ampliadas
  • Aplicações emergentes de IA: Para permitir aplicações de IA generativas que respondam a solicitações específicas de domínio, as organizações precisam desenvolver e ajustar LLMs em plataformas separadas de seus dados e conectá-las a seus dados por meio de engenharia manual.

Muitas dessas questões surgem porque as plataformas de dados não compreendem fundamentalmente os dados nas organizações e como eles são usados. Felizmente, a IA generativa apresenta uma nova ferramenta poderosa para enfrentar exatamente estes desafios.

A ideia central por trás das plataformas de inteligência de dados

As plataformas de inteligência de dados revolucionam a gestão de dados ao empregar modelos de IA para compreender profundamente a semântica dos dados corporativos; chamamos isso de inteligência de dados. Eles se baseiam no lakehouse – um sistema unificado para query e gerenciar todos os dados da empresa – mas analisam automaticamente os dados (conteúdo e metadados) e como eles são usados (query, relatórios, linhagem, etc.) para adicionar novas capacidades. Através deste profundo conhecimento dos dados, as Plataformas de Inteligência de Dados permitem:

  • Acesso à linguagem natural: Aproveitando modelos de IA, as plataformas DI permitem trabalhar com dados em linguagem natural, adaptados ao jargão e aos acrônimos de cada organização. A plataforma observa como os dados são usados nas cargas de trabalho existentes para aprender os termos da organização e oferece uma interface de linguagem natural personalizada para todos os usuários – desde não especialistas até engenheiros de dados.
  • Catalogação e descoberta semântica: a IA generativa pode entender o modelo de dados, métricas e KPIs de cada organização para oferecer recursos de descoberta incomparáveis ou identificar automaticamente discrepâncias na forma como os dados estão sendo usados.
  • Gerenciamento e otimização automatizados: os modelos de IA podem otimizar a disponibilidade de dados, particionamento e indexação com base no uso de dados, reduzindo a necessidade de ajuste manual e configuração de botões.
  • Governança e privacidade aprimoradas: as plataformas DI podem detectar, classificar e prevenir automaticamente o uso indevido de dados confidenciais, ao mesmo tempo que simplificam o gerenciamento usando linguagem natural.
  • Suporte de primeira classe para cargas de trabalho de IA: as plataformas DI podem aprimorar qualquer aplicativo empresarial de IA, permitindo que ele se conecte aos dados de negócios relevantes e aproveite a semântica aprendida pela plataforma DI (métricas, KPIs, etc.) para fornecer resultados precisos. Os desenvolvedores de aplicativos de IA não precisam mais “hackear” a inteligência por meio de uma engenharia rápida e frágil.

Alguns podem se perguntar como isso difere dos recursos de perguntas e respostas de linguagem natural que as ferramentas de BI adicionaram nos últimos anos. As ferramentas de BI representam apenas uma fatia estreita (embora importante) das cargas de trabalho de dados gerais e, como resultado, não têm visibilidade da grande maioria das cargas de trabalho que ocorrem ou da linhagem e uso dos dados antes de chegarem à camada de BI. Sem visibilidade dessas cargas de trabalho, eles não conseguem desenvolver o profundo entendimento semântico necessário. Como resultado, esses recursos de perguntas e respostas em linguagem natural ainda não foram amplamente adotados. Com plataformas de inteligência de dados, as ferramentas de BI serão capazes de aproveitar os modelos de IA subjacentes para obter funcionalidades muito mais ricas. Acreditamos, portanto, que esta funcionalidade central residirá em plataformas de dados.

 

Databricks como plataforma de inteligência de dados

Na Databricks, estamos construindo uma plataforma de inteligência de dados no topo do data lakehouse e ficamos cada vez mais entusiasmados com as possibilidades da IA em plataformas de dados à medida que adicionamos recursos individuais. Aproveitamos os recursos exclusivos existentes do Databricks lakehouse como a única plataforma de dados nos setores com (1) uma camada de governança unificada entre dados e IA e (2) um único mecanismo query unificado que abrange ETL, SQL, machine learning e BI . Além disso, aproveitamos a aquisição do MosaicML para gerar modelos de IA em um mecanismo de inteligência de dados que chamamos de DatabricksIQ, que alimenta todas as partes da nossa plataforma.

O DatabricksIQ já permeia muitas das camadas da nossa pilha atual. É usado para:

  • Defina os botões em toda a plataforma, incluindo indexação automática de colunas, disposição de divisórias e fortalecimento da fundação da lakehouse . Isso proporcionará menor TCO e melhor desempenho para nossos clientes.
  • Melhore a governança no Unity Catalog (UC) inserindo automaticamente descrições e tags de todos os dados ativos no UC. Eles são então aproveitados para tornar toda a plataforma ciente de jargões, siglas, métricas e semântica. Isso permite uma melhor pesquisa semântica, melhor qualidade do assistente de IA e maior capacidade de governança.
  • Melhore a geração de Python e SQL em nosso assistente de IA, potencializando tanto texto para SQL quanto texto para Python.
  • Torne essas query muito mais rápidas incorporando previsões sobre os dados no planejamento query em nosso mecanismo query Photon.
  • Inside Delta Live Tables e Jobs serverless para fornecer autoscale ideal e minimizar custos com base em previsões sobre a carga de trabalho.

Por último, mas talvez mais importante, acreditamos que as plataformas de inteligência de dados simplificarão enormemente o desenvolvimento de aplicações empresariais de IA. Estamos integrando o DatabricksIQ diretamente com nossa plataforma de IA, Mosaic AI, para facilitar às empresas a criação de aplicativos de IA que entendam seus dados. A Mosaic AI agora oferece vários recursos para integrar diretamente dados corporativos em sistemas de IA, incluindo:

  • RAG (Retrieval Augmented Generation) de ponta a ponta para criar agentes conversacionais de alta qualidade em seus dados personalizados, aproveitando o banco de dados vetorial Databricks para "memória".
  • Treinamento de modelos personalizados do zero nos dados de uma organização ou por pré-treinamento contínuo de modelos existentes, como MPT e Llama 2, para aprimorar ainda mais os aplicativos de IA com profundo entendimento de um domínio de destino.
  • Inferência serverless eficiente e segura nos dados da sua empresa e conectada à funcionalidade de governança e monitoramento de qualidade do Unity Catalog.
  • MLOps ponta a ponta baseados no popular projeto de código aberto MLflow, com todos os dados produzidos automaticamente acionáveis, rastreados e monitoráveis no lakehouse.

Resumo

Acreditamos que a IA transformará todo o software e que as plataformas de dados são uma das áreas mais propícias à inovação através da IA. Historicamente, as plataformas de dados têm sido de difícil acesso para os usuários finais e para as equipes de dados gerenciarem e governarem. As plataformas de inteligência de dados estão preparadas para transformar este cenário, enfrentando diretamente estes dois desafios – tornando os dados muito mais fáceis de query, gerir e governar. Além disso, seu profundo conhecimento dos dados e seu uso será a base para aplicações empresariais de IA que operam com base nesses dados. À medida que a IA remodela o mundo do software, acreditamos que os líderes em todos os setores serão aqueles que aproveitarem profundamente os dados e a IA para impulsionar as suas organizações. As plataformas DI serão a base para essas organizações, permitindo-lhes criar a próxima geração de dados e aplicações de IA com qualidade, velocidade e agilidade.

Databricks founders enjoying Thanksgiving together in 2013
Experimente o Databricks gratuitamente

Artigos relacionados

O que é um Lakehouse?

Nos últimos anos na Databricks, vimos uma nova arquitetura de gerenciamento de dados que surgiu de forma independente em muitos clientes e casos...

Databricks + MosaicML

Today, we’re excited to share that we’ve completed our acquisition of MosaicML, a leading platform for creating and customizing generative AI models for...
Ver tudo Blog da plataforma posts