A observação de que “o software está devorando o mundo ” moldou as indústrias tecnológicas modernas. Hoje, o software está onipresente em nossas vidas, desde os relógios que usamos até nossas casas, carros, fábricas e fazendas. Na Databricks, acreditamos que em breve a IA consumirá todos software. Ou seja, o software construído ao longo das últimas décadas será inteligente, aproveitando dados, tornando-o muito mais inteligente. As implicações são vastas e variadas, impactando tudo, desde o suporte ao cliente até a saúde e a educação.
Neste blogs, damos nossa view sobre como a IA mudará as plataformas de dados. Argumentamos que o impacto da IA nas plataformas de dados não será incremental, mas fundamental: democratizando massivamente o acesso aos dados, automatizando a administração manual e permitindo a criação completa de aplicações de IA personalizadas. Tudo isto será possibilitado por uma nova onda de plataformas unificadas que compreendem profundamente os dados de uma organização. Chamamos esta nova geração de sistemas de Plataformas de Inteligência de Dados.
Plataformas de dados até agora e seus desafios
data warehouse surgiu na década de 1980 como uma solução para organizar dados estruturados de negócios nas empresas. No entanto, em 2010, as organizações começaram a acumular uma quantidade significativa de dados não estruturados para apoiar casos de utilização mais variados, como a IA. Para resolver isso, data lake foi introduzido como um sistema aberto e escalável para qualquer tipo de dados. Em 2015, tornou-se comum para a maioria das organizações operar tanto data warehouse quanto data lake. Esta abordagem de plataforma dupla, no entanto, apresentou desafios significativos em termos de governação, segurança, fiabilidade e gestão.
Há cinco anos, a Databricks foi pioneira no conceito de lakehouse para combinar e unificar o melhor dos dois mundos. Lakehouses armazenam e controlam todos os seus dados em formatos abertos e oferecem suporte nativo a cargas de trabalho que variam de BI a IA. Pela primeira vez, a Lakehouses ofereceu um sistema unificado para (1) query todas as fontes de dados de uma organização em conjunto e (2) governar todas as cargas de trabalho que usam dados (BI, IA, etc.) de forma unificada. lakehouse tornou-se sua própria categoria de plataforma de dados e agora é amplamente adotada pelas empresas e incorporada às pilhas da maioria dos fornecedores.
Apesar do progresso, todas as plataformas de dados atuais no mercado ainda enfrentam vários desafios importantes:
- Barreira de habilidades técnicas: a consulta de dados requer habilidades especializadas em SQL, Python ou BI, criando uma curva de aprendizado acentuada
- Precisão e curadoria de dados: em grandes organizações, encontrar os dados corretos e precisos é um desafio, exigindo curadoria e planejamento extensivos
- Complexidade de gerenciamento: Os custos das plataformas de dados podem disparar e apresentar baixo desempenho se não forem gerenciadas por pessoal altamente técnico
- Governança e Privacidade: Os requisitos de governança em todo o mundo estão evoluindo rapidamente e, com o advento da IA, as preocupações em torno da linhagem, da segurança e da privacidade são ampliadas
- Aplicações emergentes de IA: Para permitir aplicações de IA generativas que respondam a solicitações específicas de domínio, as organizações precisam desenvolver e ajustar LLMs em plataformas separadas de seus dados e conectá-las a seus dados por meio de engenharia manual.
Muitas dessas questões surgem porque as plataformas de dados não compreendem fundamentalmente os dados nas organizações e como eles são usados. Felizmente, a IA generativa apresenta uma nova ferramenta poderosa para enfrentar exatamente estes desafios.
A ideia central por trás das plataformas de inteligência de dados
As plataformas de inteligência de dados revolucionam a gestão de dados ao empregar modelos de IA para compreender profundamente a semântica dos dados corporativos; chamamos isso de inteligência de dados. Eles se baseiam no lakehouse – um sistema unificado para query e gerenciar todos os dados da empresa – mas analisam automaticamente os dados (conteúdo e metadados) e como eles são usados (query, relatórios, linhagem, etc.) para adicionar novas capacidades. Através deste profundo conhecimento dos dados, as Plataformas de Inteligência de Dados permitem:
- Acesso à linguagem natural: Aproveitando modelos de IA, as plataformas DI permitem trabalhar com dados em linguagem natural, adaptados ao jargão e aos acrônimos de cada organização. A plataforma observa como os dados são usados nas cargas de trabalho existentes para aprender os termos da organização e oferece uma interface de linguagem natural personalizada para todos os usuários – desde não especialistas até engenheiros de dados.
- Catalogação e descoberta semântica: a IA generativa pode entender o modelo de dados, métricas e KPIs de cada organização para oferecer recursos de descoberta incomparáveis ou identificar automaticamente discrepâncias na forma como os dados estão sendo usados.
- Gerenciamento e otimização automatizados: os modelos de IA podem otimizar a disponibilidade de dados, particionamento e indexação com base no uso de dados, reduzindo a necessidade de ajuste manual e configuração de botões.
- Governança e privacidade aprimoradas: as plataformas DI podem detectar, classificar e prevenir automaticamente o uso indevido de dados confidenciais, ao mesmo tempo que simplificam o gerenciamento usando linguagem natural.
- Suporte de primeira classe para cargas de trabalho de IA: as plataformas DI podem aprimorar qualquer aplicativo empresarial de IA, permitindo que ele se conecte aos dados de negócios relevantes e aproveite a semântica aprendida pela plataforma DI (métricas, KPIs, etc.) para fornecer resultados precisos. Os desenvolvedores de aplicativos de IA não precisam mais “hackear” a inteligência por meio de uma engenharia rápida e frágil.
Alguns podem se perguntar como isso difere dos recursos de perguntas e respostas de linguagem natural que as ferramentas de BI adicionaram nos últimos anos. As ferramentas de BI representam apenas uma fatia estreita (embora importante) das cargas de trabalho de dados gerais e, como resultado, não têm visibilidade da grande maioria das cargas de trabalho que ocorrem ou da linhagem e uso dos dados antes de chegarem à camada de BI. Sem visibilidade dessas cargas de trabalho, eles não conseguem desenvolver o profundo entendimento semântico necessário. Como resultado, esses recursos de perguntas e respostas em linguagem natural ainda não foram amplamente adotados. Com plataformas de inteligência de dados, as ferramentas de BI serão capazes de aproveitar os modelos de IA subjacentes para obter funcionalidades muito mais ricas. Acreditamos, portanto, que esta funcionalidade central residirá em plataformas de dados.