Transformação do entretenimento doméstico com voz, dados e IA
Redução nos custos gerais de compute para processar dados
Redução nos recursos de DevOps necessários para gerenciar a infraestrutura
Como uma empresa global de tecnologia e mídia que conecta milhões de clientes com experiências personalizadas, a Comcast encontrou um desafio com enormes quantidades de dados, pipelines de dados frágeis e colaboração deficiente de data science. Com a Databricks, incluindo Delta Lake e MLflow, a empresa pode criar pipelines de alto desempenho para petabytes de dados e gerenciar facilmente o ciclo de vida de centenas de modelos, criando assim experiências de altamente inovadoras, exclusivas e premiadas para os espectadores usando reconhecimento de fala e machine learning.
Infraestrutura incapaz de suportar solicitações de dados e ML
Responder instantaneamente à solicitação de voz de um cliente para um programa específico e converter bilhões de interações individuais em insights acionáveis sobrecarregou a infraestrutura de TI da Comcast e as equipes de análise e data science. Para complicar ainda mais as coisas, a Comcast teve que implantar os modelos em um conjunto desconectado e díspar de ambientes: nuvem, on-premises e até mesmo diretamente em dispositivos em alguns casos.
Dados massivos: bilhões de eventos gerados por nosso sistema de entretenimento e mais de 20 milhões de controles remotos de voz resultam em petabytes de dados que precisam ser segmentados em sessões para análise.
Pipelines frágeis: pipelines de dados complicados que falhavam com frequência e eram difíceis de recuperar. Arquivos pequenos eram difíceis de gerenciar e retardavam a ingestão de dados para machine learning downstream.
Colaboração deficiente: data scientists distribuídos no mundo todo trabalhando em diferentes linguagens de script tinham dificuldade para compartilhar e reutilizar o código.
Gerenciamento de modelos de ML: desenvolver, treinar e implantar centenas de modelos era um processo muito manual, lento e difícil de replicar, dificultando o dimensionamento.
Atrito entre desenvolvimento e implantação: as equipes de desenvolvimento queriam usar as ferramentas e os modelos mais recentes, enquanto as equipes de operações queriam implantar em uma infraestrutura comprovada.
Infraestrutura automatizada, pipelines de dados mais rápidos com Delta Lake
A Comcast percebeu que precisava modernizar toda a sua abordagem de análise, desde a ingestão de dados até o fornecimento de modelos de machine learning que oferecem novos recursos que encantam seus clientes. Hoje, a Databricks Lakehouse Platform permite que a Comcast crie conjuntos de dados avançados e otimize o machine learning em escala, simplifique fluxos de trabalho em diversas equipes, promova a colaboração, reduza a complexidade da infraestrutura e ofereça experiências superiores aos clientes.
Gerenciamento simplificado da infraestrutura: recursos automatizados de gerenciamento de clusters e custos, como escalonamento automático e instâncias pontuais, reduzem os custos operacionais.
Pipelines de dados de alto desempenho com Delta Lake: o Delta Lake é usado para ingestão, enriquecimento de dados e processamento inicial de telemetria bruta de aplicativos e dispositivos de vídeo e voz.
Gerenciamento confiável de arquivos pequenos: o Delta Lake permitiu que a empresa otimizasse arquivos para ingestão rápida e confiável em grande escala.
Workspaces colaborativos: os notebooks interativos melhoram a colaboração entre equipes e a criatividade na data science, permitindo que a Comcast acelere significativamente a criação de protótipos de modelos para iterações mais rápidas.
Ciclo de vida de ML simplificado: o MLflow gerenciado simplifica o ciclo de vida do machine learning e da implantação de modelos por meio do ambiente Kubeflow, permitindo rastrear e gerenciar centenas de modelos com facilidade.
ETL confiável em escala: o Delta Lake fornece pipelines de análise eficientes que podem mesclar dados históricos e de streaming de forma confiável para revelar insights mais ricos.
A Comcast também usa o Tableau para fornecer dados aos analistas, acelerando conjuntos de dados mais amplos para análises de clientes.
Bastidores: o efeito da equipe de dados
As equipes de dados são as forças unidas que resolvem os problemas mais difíceis do mundo.
Experiências personalizadas com ML
Na indústria do entretenimento altamente competitiva, não há tempo para apertar o botão de pausa. Com uma abordagem de análise unificada, a Comcast agora pode avançar rapidamente para o futuro do entretenimento orientado por IA e encantar os espectadores com experiências de clientes competitivas.
Experiência de telespectador vencedora do Emmy: Databricks ajuda a permitir que a Comcast crie uma experiências de visualização altamente inovadoras e premiadas com comandos de voz inteligentes que aumentam o engajamento
Redução de 10 vezes nos custos de compute: a Comcast usou o Delta Lake para otimizar a ingestão de dados, com redução de 640 computadores para 64 e melhora no desempenho. As equipes agora podem passar mais tempo analisando do que gerenciando a infraestrutura.
Equipe de DevOps reduzida: o número de DevOps em tempo integral necessário para fazer o onboarding de 200 usuários foi reduzido de 5 para 0,5.
Aumento da produtividade da data science: permite uma melhor colaboração entre data scientists globais ao oferecer suporte a várias linguagens de programação por meio de um único workspace interativo. O Delta Lake também permite que as equipes de dados sejam mais responsivas à criação e ao treinamento de novos modelos, usando os dados a qualquer momento no pipeline de dados.
Implementação de modelo mais rápida: o tempo que as equipes de operações levam para implantar os modelos em cada plataforma foi reduzido de semanas para minutos