Arquivo de glossários

Glossary

Um dos algoritmos mais populares para otimização em machine learning e deep learning é o gradiente descendente. Ele é usado para treinar modelos de machine learning. Tipos de gradiente descendente Atualmente, existem três tipos principais de gradient{...}

Agentes de IA

O que são agentes de AI?ResumoEntenda o que diferencia os agentes de AI dos sistemas tradicionais de AI, incluindo como eles percebem, decidem e agem de forma autônoma.Explore a evolução dos agentes de AI, desde os primeiros programas baseados em reg{...}

Ajuste do Spark

O que é ajuste de desempenho do Spark? O ajuste de desempenho do Spark é o processo de ajuste das configurações para registro de memória, núcleos e instâncias usadas pelo sistema. Esse processo oferece excelente desempenho ao Spark e também ajuda a e{...}

Ajuste fino

Entendendo o ajuste fino Ao treinar modelos de inteligência artificial (IA) e aprendizado de máquina (ML) para uma finalidade específica, cientistas de dados e engenheiros descobriram que é mais fácil e menos caro modificar modelos de linguagem de gr{...}

Alfabetização de Dados

O que é alfabetização de dados?A alfabetização de dados é a capacidade de ler, trabalhar, analisar e comunicar dados de forma eficaz. É entender o que os dados significam, como eles são criados e como usá-los para que você possa fazer as perguntas ce{...}

Análise de big data

A diferença entre análise de dados e de big data Antes da invenção do Hadoop, as tecnologias que sustentavam sistemas modernos de armazenamento e compute eram relativamente básicas, limitando as empresas basicamente à análise de "dados pequenos". Por{...}

Análise de Streaming

Como funciona a análise de stream? A análise de streaming, também conhecida como processamento de stream de eventos, é a análise de grandes grupos de dados atuais e "em movimento" por meio do uso de queries contínuas, chamadas streams de eventos. Es{...}

Análise em tempo real

O que é a análise em tempo real? A análise em tempo real refere-se à prática de coleta e análise de dados de streaming à medida que são gerados, com latência mínima entre a geração dos dados e a sua análise. A análise em tempo real costuma ser usada {...}

Análise preditiva

O que é análise preditiva? Análise preditiva é uma forma de análise avançada que usa dados novos e históricos para determinar padrões e prever tendências e resultados futuros. Como funciona a análise preditiva? A análise preditiva usa muitas técnicas{...}

Apache Hive

O que é o Apache Hive? O Apache Hive é um software de data warehouse de código aberto projetado para ler, gravar e gerenciar grandes conjuntos de dados extraídos do Apache Hadoop Distributed File System (HDFS), um aspecto de um ecossistema Hadoop mai{...}

Apache Kudu

O que é o Apache Kudu? Apache Kudu é um sistema de armazenamento em formato de colunas gratuito e de código aberto desenvolvido para o Apache Hadoop. É um mecanismo destinado a dados estruturados compatível com acesso aleatório de baixa latência em e{...}

Apache Kylin

O que é o Apache Kylin? Apache Kylin é um mecanismo de processamento analítico online (OLAP) distribuído e de código aberto para análises interativas de big data. O Apache Kylin foi projetado para fornecer uma interface SQL e análise multidimensional{...}

apache spark

O que é o Apache Spark? O Apache Spark é um mecanismo de análise de código aberto usado para cargas de trabalho de big data. Ele consegue lidar com lotes, cargas de trabalho de análise e processamento de dados em tempo real. O Apache Spark começ{...}

Apache Spark como serviço

O que é o Apache Spark como serviço? O Apache Spark é uma estrutura de computação de cluster de código aberto para processamento rápido de dados em grande escala em tempo real. Desde o início em 2009, no AMPLab da UC Berkeley, o Spark teve um gr{...}

API do Spark

Ao trabalhar com o Spark, você encontrará as três APIs: DataFrames, Datasets e RDDs. O que são conjuntos de dados distribuídos resilientes? Resilient Distributed Datasets (RDD) são uma coleção de registros que usam computação distribuída e é tolerant{...}

API Estimador do TensorFlow

O que é a API Estimator do TensorFlow? O Estimator representa um modelo completo, mas só parece intuitivo para poucos usuários. A API Estimator fornece métodos para treinar o modelo, julgar a precisão do modelo e gerar previsões. O TensorFlow oferece{...}

Aplicativos Spark

Aplicativos Spark consistem em um processo de driver e um conjunto de processos executores. O processo de driver executa a função main() e é executado nos nós do cluster. Ele também tem três responsabilidades: gerenciar informações sobre o aplicativo{...}

Aplicações contínuas

As aplicações contínuas são aplicações de ponta a ponta que reagem aos dados em tempo real. Em especial, os desenvolvedores querem usar uma única interface de programação para dar suporte às facetas das aplicações contínuas que atualmente são tratada{...}

Arquitetura de dados

O cenário empresarial evoluiu para tornar os dados e a inteligência artificial (IA) essenciais para a vantagem competitiva. Os dados se tornaram um ativo estratégico para qualquer empresa, e sua gestão deve ser cuidadosamente planejada para apoiar a {...}

Arquitetura Lambda

O que é a arquitetura Lambda? A arquitetura Lambda é uma forma de processar enormes quantidades de dados ("Big Data") que fornece acesso a métodos de processamento em batch e de stream com uma abordagem híbrida. A arquitetura Lambda é usada para reso{...}

Arquitetura medallion

O que é uma arquitetura medallion? A arquitetura medallion se refere ao design de dados usado para organizar logicamente os dados do lakehouse, que visa melhorar de forma incremental e progressiva a estrutura e a qualidade dos dados à medida qu{...}

Automação de dados

À medida que a quantidade de dados, as fontes de dados e os tipos de dados crescem, as organizações exigem cada vez mais ferramentas e estratégias para ajudá-las a transformar esses dados e obter percepções de negócios. Processar dados brutos e díspa{...}

Banco de dados vetorial

O que é um banco de dados vetorial? Um banco de dados vetorial é um banco de dados especializado projetado para armazenar e gerenciar dados como vetores de alta dimensionalidade. O termo tem sua origem em vetores, que são representações matemáticas d{...}

Biblioteca de machine learning (MLlib)

A biblioteca de Machine Learning (MLlib) do Apache Spark é uma ferramenta projetada para ser simples, altamente escalável e facilmente integrada a outras ferramentas. A escalabilidade, compatibilidade de linguagem e alta velocidade do Spark permitem {...}

Bioinformática

A bioinformática é um campo de estudo que usa a computação para extrair conhecimento de grandes coleções de dados biológicos. Bioinformática refere-se ao uso de TI em biotecnologia para armazenar, recuperar, organizar e analisar dados biológicos. Uma{...}

Buckets hash

Tabelas hash [HashMaps] na computação são estruturas de dados que efetivamente permitem acesso direto a objetos com base em suas chaves [strings ou integer exclusivos]. Uma tabela hash usa uma função hash para indexar em uma matriz de buckets ou slot{...}

Business Intelligence

O que é business intelligence?Business Intelligence (BI) é um conjunto de tecnologias, processos e estratégias projetados para analisar dados empresariais e fornecer percepções acionáveis. Os sistemas de BI transformam dados brutos em informações sig{...}

Business Intelligence vs. Business Analytics: uma Visão Geral

Business Intelligence (BI) é um conjunto de tecnologias, processos e estratégias projetados para gerar percepções acionáveis a partir de dados empresariais. Os sistemas de BI coletam e armazenam dados brutos de operações empresariais, que são analisa{...}

Camada convolucional

Em deep learning, uma rede neural convolucional (CNN ou ConvNet) é uma classe de redes neurais profundas, normalmente usadas para reconhecer padrões presentes em imagens, mas também para análise de dados espaciais, visão computacional, processamento {...}

Camada Semântica

Compreendendo a camada semânticaUma camada semântica é uma interface fácil de usar para as empresas que conecta modelos de dados complexos a usuários corporativos. Sendo uma camada de abstração, ela traduz estruturas de dados técnicas em termos e con{...}

Catalyst Optimizer

No centro do Spark SQL está o Catalyst Optimizer, que usa recursos avançados de linguagem de programação (por exemplo, correspondência de padrões do Scala e quasi quotes) em uma nova maneira de construir um otimizador de queries extensível. O Catalys{...}

Catálogo de Dados

O que é um catálogo de dados?Um catálogo de dados é um sistema centralizado de inventário e gerenciamento que funciona como o "mapa do tesouro" definitivo para os ativos de dados da sua organização. Ele fornece um repositório abrangente e pesquisável{...}

Cluster Hadoop

O que é um cluster Hadoop? O Apache Hadoop é um framework de software de código aberto baseado em Java e um mecanismo de processamento paralelo de dados. Ele permite que tarefas de processamento de análise de big data sejam divididas em tarefas menor{...}

Coleta de Dados: Métodos, Ferramentas e Melhores Práticas

O que é Coleta de Dados?A coleta de dados é a coleta e medição sistemática de informação de diferentes fontes que serão usadas posteriormente para tomada de decisão, percepções e para alimentar sistemas data-driven.A coleta de dados é a primeira etap{...}

Compreensão dos modelos de AI

O que são modelos de AI? Modelos de AI são programas de computador que utilizam dados para identificar padrões e tomar decisões e previsões. Os modelos de AI utilizam algoritmos — regras passo a passo fundamentadas em aritmética, repetição e lógica d{...}

Compute serverless

A computação serverless representa a evolução mais recente da infraestrutura de compute. Antigamente, as organizações precisavam de servidores físicos para executar aplicativos web. Com o avanço da computação em nuvem, tornou-se possível criar servid{...}

Conjunto de dados

O que é dataset? Dataset é uma coleção estruturada de dados organizados e armazenados juntos para análise ou processamento. Os dados dentro de um dataset são normalmente relacionados de alguma forma e retirados de uma única fonte ou destinados a um ú{...}

Conjunto de dados distribuído resiliente (RDD)

Os conjuntos de dados distribuídos resilientes (RDDs) têm sido a principal API voltada para o usuário do Spark desde seu lançamento. Um RDD é uma coleção imutável de elementos de dados localizados em vários nós em um cluster e pode ser usado juntame{...}

Dados alternativos

O que são dados alternativos? Dados alternativos são informações coletadas usando fontes alternativas de dados que outros não estão usando; fontes de informações não tradicionais. A análise de dados alternativos pode fornecer percepções além da{...}

Data Integration

What is data integration?Data integration is the process of combining data from multiple systems into a unified, reliable view. It brings together information from databases, applications, event streams, files, APIs and third-party platforms so organ{...}

Data lakehouse

O que é data lakehouse? Um data lakehouse é uma arquitetura aberta e nova de gerenciamento de dados que incorpora a flexibilidade, a economia e a escalabilidade de um data lake com o gerenciamento de dados e os recursos de transações ACID de um data {...}

Data mart

O que é data mart?Data mart é um banco de dados com curadoria que inclui um conjunto de tabelas projetadas para atender às necessidades específicas de uma única equipe de dados, comunidade ou linha de negócios, como o departamento de marketing ou eng{...}

Data Sharing

O que é compartilhamento de dados? O compartilhamento de dados é a capacidade de disponibilizar os mesmos dados para vários usuários. A quantidade de dados cada vez maior se tornou um ativo estratégico crítico para qualquer empresa. Compartilhar dado{...}

Data Vault

O que é Data Vault? O Data Vault é um padrão de design de modelagem de dados usado para construir data warehouse para análise em escala empresarial. Um Data Vault tem três tipos de entidades: hubs, links e satélites. Os hubs representam os conceitos {...}

Data Warehouse Empresarial (EDW)

O que é um data warehouse empresarial (EDW)?Um data warehouse empresarial (EDW, na sigla em inglês) é um repositório centralizado e estruturado, projetado para consolidar e gerenciar dados organizacionais. O principal benefício de uma EDW é que ela o{...}

Data warehouse unificado

O que é um data warehouse unificado? Um banco de dados unificado, também conhecido como data warehouse corporativo, armazena todas as informações comerciais de uma organização e as torna acessíveis para toda a empresa. A maioria das empresas de hoje {...}

Database Schema: A Comprehensive Guide to Structure, Design, and Implementation

Introduction: Understanding Database Schemas in Modern Data ManagementA database schema acts as a blueprint for how a database is organized and structured. It defines how database tables are laid out, what fields they contain and how those tables rel{...}

Databricks Runtime

O Databricks Runtime é o conjunto de artefatos de software executados nos clusters de máquinas gerenciadas pela Databricks. Ele inclui o Spark, mas também adiciona vários componentes e atualizações que melhoram consideravelmente a usabilidade, o dese{...}

DataFrame do Pandas

Em termos de data science, não é exagero dizer que você pode transformar a operação da sua empresa usando-a em todo o seu potencial com o DataFrame do Pandas. Para fazer isso, você precisará das estruturas de dados certas. Elas ajudarão você a ter o{...}

DataFrames

O que é um DataFrame?DataFrame é uma estrutura de dados que organiza os dados em uma tabela bidimensional de linhas e colunas, como uma planilha. Os DataFrames são uma das estruturas de dados mais comuns na análise de dados moderna, pois são uma mane{...}

Deep learning

O que é deep learning? Deep learning é um subconjunto de machine learning relacionado a grandes quantidades de dados com algoritmos inspirados na estrutura e nas funções do cérebro humano, e é por isso que os modelos de deep learning costumam ser cha{...}

Detecção de anomalia

A detecção de anomalia é a técnica de identificar eventos raros ou observações que podem levantar suspeitas por serem estatisticamente diferentes do resto das observações. Esse comportamento "anômalo" normalmente se traduz em algum tipo de problema, {...}

Ecossistema Hadoop

O que é o ecossistema Hadoop? O ecossistema Apache Hadoop se refere aos vários componentes da biblioteca de software Apache Hadoop. Ele inclui projetos de código aberto, bem como todas as ferramentas complementares. Algumas das ferramentas mais conhe{...}

Eficácia geral do equipamento

O que é a eficácia geral do equipamento? A Eficácia Geral do Equipamento(EGE) é uma medida do desempenho de uma operação de manufatura (instalações, tempo e material) em comparação com seu potencial total, durante os períodos em que está programada p{...}

Engenharia de prompt

A engenharia de prompts é um campo emergente de suma importância para o desenvolvimento da inteligência artificial (IA), focando nos processos críticos de geração de resultados eficazes para modelos de IA generativa (GenAI). Com o aumento da sofistic{...}

Engenharia de recursos

Engenharia de recursos para machine learning A engenharia de recursos, também chamada de pré-processamento de dados, é o processo de conversão de dados brutos em recursos que podem ser usados para desenvolver modelos de machine learning. Este tópico {...}

Entendendo a qualidade dos dados

Mais do que nunca, as organizações dependem de uma variedade de datasets complexos para orientar suas decisões. Para que as empresas possam tomar decisões estratégicas e práticas da melhor forma possível, é fundamental que esses dados sejam confiávei{...}

Entendendo o banco de dados PostgreSQL: recursos e vantagens explicados

Introdução ao PostgreSQLUm banco de dados PostgreSQL é um sistema de gerenciamento de banco de dados relacional de código aberto que armazena, organiza e recupera dados estruturados. Este banco de dados relacional impõe relacionamentos entre tabelas {...}

Esquema em estrela

O que é um esquema em estrela? Um esquema em estrela é um modelo multidimensional que organiza os dados em um banco de dados para torná-los mais fáceis de entender e analisar. Pode ser aplicado a data warehouses, bancos de dados, data marts e outras {...}

Esquema em floco de neve

O que é um esquema snowflake? Um esquema em floco de neve é um modelo de dados multidimensional e uma extensão do esquema em estrela, subdividindo as tabelas de dimensão em tabelas de subdimensão. Os esquemas em floco de neve são comumente usad{...}

Estrutura de IA unificada

A inteligência artificial unificada (UAI) foi anunciada pelo Facebook durante a F8 este ano. Ela reúne duas estruturas de aprendizagem profunda específicas que o Facebook criou e terceirizou: a PyTorch se concentrou em pesquisas que assumem o acesso {...}

ETL (Extrair, Transformar e Carregar)

O que é ETL? À medida que as organizações crescem em dados, fontes de dados e tipos de dados, torna-se mais importante focar em análise, data science e machine learning para aproveitar os dados e gerar insights de negócios. Uma etapa fundamental para{...}

Finanças personalizadas

O que são finanças personalizadas? Os produtos e serviços financeiros estão cada vez mais comoditizados, e os consumidores estão cada vez mais exigentes, já que os setores de varejo e mídia social aumentam a propensão para experiências personalizadas{...}

Fluxo de dados

O que é fluxo de dados? O fluxo de dados descreve o movimento de dados pela arquitetura de um sistema, de um processo ou de componente para outro. Ele descreve como os dados são inseridos, processados, armazenados e gerados em um sistema, aplicativo {...}

Função de data do Hive

O que é uma função de data do Hive? O Hive fornece muitas funções integradas para ajudar você a processar e consultar seus dados. Algumas das funcionalidades fornecidas por essas funções incluem manipulação de string, manipulação de data, conversão d{...}

Genômica

Genômica é uma área da genética que diz respeito ao sequenciamento e análise do genoma de um organismo. Sua principal tarefa é determinar a sequência completa do DNA ou a composição dos átomos que compõem o DNA e as ligações químicas entre os átomos {...}

Geração aumentada de recuperação

ResumoAprenda como a geração aumentada por recuperação (RAG) funciona combinando grandes modelos de linguagem (LLMs) com dados externos em tempo real para saídas mais precisas e relevantes.Veja como o RAG resolve problemas específicos, como a redução{...}

Gerenciamento de dados

O que é gestão de dados? Vamos começar com uma definição de gestão de dados. A gestão de dados é a prática de organizar, processar, armazenar, proteger e analisar os dados de uma organização durante todo o seu ciclo de vida. Por meio do tratamento ef{...}

Gerenciamento de risco de modelo

O gerenciamento de risco de modelo se refere a possíveis consequências adversas resultantes da tomada de decisões com base em erro de modelo ou uso indevido. O gerenciamento de risco de modelo visa incorporar técnicas e práticas para identificar, med{...}

Gestão da cadeia de suprimentos

O que é gestão da cadeia de suprimentos? A gestão da cadeia de suprimentos é o processo de planejamento, implementação e controle das operações da cadeia de suprimentos com o objetivo de produzir e entregar produtos e serviços de forma eficiente e ef{...}

Governança de dados

O que é governança de dados? Governança de dados é a supervisão para garantir que os dados agreguem valor e ofereçam suporte à estratégia de negócios. A governança de dados é mais do que apenas uma ferramenta ou um processo. Ela alinha os requisitos {...}

Grandes modelos de linguagem (LLMs)

O que são grandes modelos de linguagem (LLMs)?Modelos de linguagem são um tipo de AI generativa (GenAI) que usam o processamento de linguagem natural (NLP) para entender e gerar a linguagem humana. Grandes modelos de linguagem (LLMs) são os mais pode{...}

Gêmeo digital

O que é um gêmeo digital? A definição clássica de gêmeo digital é: "um modelo virtual projetado para refletir com precisão um objeto físico". - IBM[KVK4] Para um processo de fabricação discreto ou contínuo, um gêmeo digital reúne o sistema e processa{...}

Hadoop Distributed File System (HDFS)

HDFS HDFS (Hadoop Distributed File System) é o principal sistema de armazenamento usado pelos aplicativos Hadoop. Este framework de código aberto funciona fornecendo transferência rápida de dados entre nós. É frequentemente usado por empresas que pre{...}

Hosted Spark

O que é hosted Spark? O Apache Spark é um sistema de computação de cluster rápido e de uso geral para big data construído em torno da velocidade, facilidade de uso e análise avançada. Foi criado na UC Berkeley em 2009. Ele fornece APIs de alto nível {...}

IA Generativa

A IA generativa está mudando a maneira como os humanos criam, trabalham e se comunicam. Databricks explica como a IA generativa funciona e para onde está indo a seguir. {...}

Ingestão de dados

A ingestão de dados é a primeira etapa no ciclo de vida da engenharia de dados. Isso envolve a coleta de dados de diversas fontes, como bancos de dados, aplicativos SaaS, fontes de arquivos, APIs e dispositivos IoT em um repositório centralizado, com{...}

Inteligência artificial geral: compreendendo a próxima fronteira da AI

A inteligência artificial geral (AGI) refere-se a uma forma hipotética de inteligência artificial (AI) capaz de executar toda a gama de tarefas intelectuais em nível humano. Mais especificamente, a inteligência artificial geral refere-se a sistemas c{...}

Introdução à transmissão de dados

Ao longo dos últimos anos, a necessidade de dados tempo-real cresceu exponencialmente. As organizações estão, cada vez mais, desenvolvendo aplicativos e plataformas que utilizam transmissões de dados para fornecer analítica em tempo real e machine le{...}

Introdução às plataformas de Business Intelligence

Uma plataforma de Business Intelligence (BI) é uma solução tecnológica abrangente que ajuda organizações a coletar, entender e visualizar seus dados para tomar decisões mais informadas. Essas plataformas funcionam como o alicerce da estratégia de dad{...}

Jupyter Notebook

O que é um Jupyter Notebook? Um Jupyter Notebook é um aplicativo da web de código aberto usado principalmente por data scientists para criar e compartilhar documentos contendo códigos ao vivo, fórmulas e outros recursos multimídia. Para que servem os{...}

Lakehouse para o setor de varejo

O que é o lakehouse para o setor de varejo? O lakehouse para o setor de varejo é o primeiro lakehouse da Databricks para um setor específico. Ele ajuda os varejistas a entrarem em operação rapidamente por meio de aceleradores de soluções, recursos de{...}

Linhagem de dados

O que é linhagem de dados?Linhagem de dados é o processo de registrar, acompanhar e visualizar dados e AI ao longo do tempo, da origem ao consumo. Uma linhagem de dados eficaz oferece às equipes de dados uma visão de ponta a ponta de como os dados sã{...}

LLMOps

O que é LLMOps?As operações de grandes modelos de linguagem (LMOps) englobam as práticas, técnicas e ferramentas usadas para o gerenciamento operacional de grandes modelos de linguagem em ambientes de produção.Os mais recentes avanços em LLMs, destac{...}

Malha de dados

Os dados são críticos para as empresas, atuando como matéria-prima para a inovação e o progresso. Sua importância cresceu à medida que as organizações se tornaram mais centradas em dados e decisões, criando grandes desafios para as organizações que t{...}

Manutenção preditiva

O que é manutenção preditiva? A manutenção preditiva, em poucas palavras, trata de descobrir quando um ativo deve ser mantido e quais atividades de manutenção específicas precisam ser realizadas, com base na condição ou estado real de um ativo, em ve{...}

MapReduce

O que é MapReduce? MapReduce é uma estrutura de execução distribuída baseada em Java que faz parte do ecossistema Apache Hadoop. Ele remove a complexidade da programação distribuída ao expor duas etapas de processamento para os desenvolvedores implem{...}

Marketplace de dados

O que é data marketplace ou mercado de dados? Os data marketplaces, ou mercados de dados, são lojas online que permitem o compartilhamento de dados e a colaboração. Eles conectam provedores de dados e consumidores de dados, oferecendo aos participant{...}

Melhores Práticas de Avaliação de Agentes: Avaliação Eficaz de IA

O que é avaliação de agentes de AI? Um guia completoA avaliação de agentes de IA é a disciplina que mede quão eficazmente um sistema autônomo de IA executa tarefas, guia suas próprias decisões, interage com ferramentas, fundamenta-se em múltiplos pas{...}

Migração de dados

As empresas dependem dos dados mais do que nunca. Para garantir a utilidade de seus dados, você precisa usar a melhor plataforma de dados possível, o que pode exigir uma migração de dados. Se você tiver dúvidas sobre a migração de dados e como realiz{...}

MLOps

O que é MLOps? MLOps significa Machine Learning Operations. No centro da engenharia de machine learning, os MLOps se concentram em colocar modelos de machine learning em produção e simplificar o processo de manutenção e monitoramento. Os MLOps geralm{...}

Modelagem de dados

Modelagem de dados é um processo essencial para projetar e organizar estruturas de dados que suportem armazenamento, recuperação e análise eficientes de informações. É a base de arquitetura de qualquer sistema de data warehouse, e uma modelagem efica{...}

Modelo Keras

O que é o modelo Keras? Keras é uma biblioteca de alto nível para deep learning, desenvolvida sobre Theano e TensorFlow. Ele é escrito em Python e fornece uma maneira limpa e conveniente de criar uma variedade de modelos de deep learning. O Kera{...}

Modelos de machine learning

O que é um modelo de machine learning? Um modelo de machine learning é um programa que descobre padrões e extrai decisões de conjuntos de dados desconhecidos. Por exemplo, no processamento de linguagem natural, os modelos de machine learning podem an{...}

Modernização de dados: transformando a infraestrutura legada para maior eficiência e escalabilidade

O imperativo da modernização de dadosA modernização de dados é a transformação abrangente da infraestrutura, das práticas e das ferramentas de dados de uma organização para permitir agilidade, inovação e tomada de decisões data-driven. Não se trata d{...}

O que é AI Agêntica?

Compreendendo os Sistemas Autônomos de AI e suas Aplicações no Mundo RealIntrodução à AI AgênticaA AI Agêntica refere-se a plataformas inteligentes que podem planejar, decidir e agir de forma autônoma para atingir objetivos com mínima intervenção hum{...}

O que é análise aumentada?

A analítica aumentada representa a evolução da Business Intelligence (BI) por meio da integração da inteligência artificial (AI) e do machine learning (ML) no fluxo de trabalho da análise de dados. Em vez de substituir analistas humanos, a analítica {...}

O que é classificação de dados?

A classificação de dados é o processo de organizar os dados em categorias claramente definidas com base em sua sensibilidade, valor e risco para a organização. Essas categorias — geralmente expressas como níveis, como público, interno, confidencial o{...}

O que é data storytelling?

{...}

O que é Extrair, Carregar, Transformar? (ELT)

ELT, abreviação de extract, load, transform (extrair, carregar, transformar), é uma abordagem moderna de integração de dados projetada para plataformas de analítica nativas cloud. Em um pipeline ELT, os dados são primeiro extraídos dos sistemas de or{...}

O que é governança de AI? Um guia claro para AI responsável

O que é governança de AI?A governança de AI é o conjunto de estruturas, políticas e processos que as organizações utilizam para garantir que sistemas de inteligência artificial sejam desenvolvidos, implantados e operados de forma responsável ao longo{...}

O que é inteligência de dados?

A inteligência de dados é o processo de usar sistemas de inteligência artificial (IA) para aprender, entender e raciocinar sobre os dados de uma organização, permitindo a criação de aplicativos de IA personalizados e democratizando o acesso aos dados{...}

O que é machine learning operacional?

Autor: Kevin Stumpf, cofundador e CTOEm 2015, quando começamos a implantar a plataforma de machine learning da Uber, o Michelangelo, percebemos um padrão interessante: 80% dos modelos de ML lançados na plataforma alimentavam casos de uso de machine l{...}

O que é Mineração de Dados?

Introdução à Mineração de DadosA mineração de dados é o processo de descobrir padrões, relacionamentos e percepções significativas em grandes volumes de dados. Ela utiliza técnicas de estatística, machine learning e gestão de dados para revelar sinai{...}

O que é o Hadoop?

O Apache Hadoop é uma plataforma de software de código aberto baseada em Java que gerencia o processamento e o armazenamento de dados para aplicações de big data. A plataforma funciona distribuindo jobs de big data e análise do Hadoop entre nós em um{...}

O que é o Protocolo de Contexto de Modelo (MCP)? Um guia prático para a integração de IA

Introdução: Entendendo o Protocolo de Contexto do ModeloO Protocolo de Contexto de Modelo (MCP) é um padrão aberto que permite que aplicativos de AI se conectem perfeitamente a fontes de dados, ferramentas e sistemas externos. Pense no Model Context {...}

O que é Observabilidade de Dados?

A observabilidade de dados é a prática e os processos envolvidos no monitoramento contínuo da saúde, qualidade, confiabilidade e desempenho em sistemas de dados — desde pipelines de ingestão até camadas de armazenamento e análises downstream — para q{...}

O que é OLAP? Entendendo o Processamento Analítico On-line para Business Intelligence

O OLAP é uma forma de analisar dados em várias dimensões de forma rápida e interativa. O processamento analítico online estrutura as informações para que os usuários possam explorar tendências e investigar questões de desempenho sem escrever novas qu{...}

O que é um banco de dados relacional (RDBMS)? Principais recursos e usos

O que é um banco de dados relacional?Um banco de dados relacional é um tipo de banco de dados que armazena e fornece acesso a dados em tabelas que podem ser vinculadas umas às outras por meio de colunas e linhas compartilhadas, chamadas de relações, {...}

O que é um gráfico acíclico direcionado (DAG)?

Um gráfico acíclico direcionado, comumente conhecido como DAG, é um conceito fundamental em engenharia de dados, analítica e AI. Ele fornece uma maneira estruturada de representar tarefas, dependências e fluxos de informação. Seja construindo um pipe{...}

O que é uma Feature Store?

Atualizado: 15 de maio de 2025Sobre os autores:Mike Del Balso, CEO e Cofundador da TectonWillem Pienaar, Criador do FeastAs equipes de dados estão começando a perceber que o machine learning operacional exige a resolução de problemas de dados que vão{...}

O que é uma plataforma de recursos para machine learning?

Até dois anos atrás, apenas as grandes empresas de tecnologia possuíam os recursos e a experiência necessários para construir produtos que dependessem totalmente de sistemas de machine learning. Por exemplo, o Google gerenciando leilões de anúncios, {...}

O que é visualização de dados?

A visualização de dados é o processo de converter dados brutos em formatos visuais que facilitam a interpretação de padrões e relações. A tradução de dados brutos em formatos como gráficos, gráficos ou mapas transforma informações abstratas em uma es{...}

O que é visão computacional?

Visão computacional é um campo de estudo dentro da ciência da computação que se concentra em permitir que máquinas analisem e compreendam informações visuais da forma mais próxima possível de como os seres humanos fazem, por meio do poder da visão. E{...}

Open banking

O que é open banking? Open banking é uma forma segura de fornecer acesso aos dados financeiros dos consumidores, contanto que haja o consentimento do cliente.² Impulsionado por regulamentação, tecnologia e dinâmica competitiva, o open banking exige a{...}

Orquestração

O que é orquestração? A orquestração é a coordenação e o gerenciamento de vários sistemas de computador, aplicativos e/ou serviços, agrupando várias tarefas para executar fluxos de trabalho e processos em larga escala. Esses processos consistem em di{...}

Parquet

O que é o Parquet? O Apache Parquet é um formato de arquivo de dados em coluna de código aberto projetado para armazenamento e recuperação de dados eficientes. Ele fornece esquemas eficientes de compressão e codificação de dados para agrupar dados co{...}

Pipelines de dados

O que é pipeline de dados? Um pipeline de dados engloba as maneiras como os dados fluem de um sistema para outro. Consiste em uma série de etapas que são realizadas em uma ordem específica, com a saída de uma etapa atuando como a entrada para a próxi{...}

Pipelines de ML

A execução de um algoritmo de machine learning geralmente envolve uma série de tarefas, como pré-processamento, extração de recursos, ajuste de modelo e estágios de validação. Por exemplo, a classificação de documentos de texto inclui segmentação e l{...}

Plataforma de análise de dados

O que é uma plataforma de análise de dados? Uma plataforma de análise de dados é um ecossistema de tecnologias e serviços necessários para analisar grandes quantidades de dados complexos e dinâmicos. Ela permite capturar, combinar, interligar, explo{...}

Plataforma Unified Data Analytics

A plataforma Unified Data Analytics da Databricks ajuda as organizações a acelerar a inovação unificando data science, engenharia e negócios. Com a Databricks como sua plataforma Unified Data Analytics, você pode preparar e limpar dados rapidame{...}

Polars vs Pandas: escolhendo a biblioteca de DataFrame em Python certa para seu fluxo de trabalho de dados

Introdução: Compreendendo as Opções da Biblioteca DataFrameDataFrames são estruturas de dados bidimensionais, geralmente tabelas semelhantes a planilhas, que permitem armazenar e manipular dados tabulares em linhas de observações e colunas de variáve{...}

Previsões de demanda

O que é previsão da demanda? Previsão da demanda é o processo de projetar a demanda do consumidor (em relação à receita futura). Especificamente, ela projeta a variedade de produtos que as pessoas comprarão usando dados quantitativos e qualitativos. {...}

Processamento de dados

O que é processamento de dados?O processamento de dados é a transformação de ponta a ponta de dados brutos em insights relevantes e práticos. As organizações dependem desses sistemas para processar dados estruturados e não estruturados em tempo real {...}

Processamento de eventos complexos

O que é processamento de eventos complexos (CEP)? O processamento de eventos complexos (CEP), também conhecido como evento, stream ou processamento de stream de eventos, usa técnicas para consultar dados antes de armazená-los em um banco de dados ou,{...}

PyCharm

PyCharm é um ambiente de desenvolvimento integrado (IDE) usado em programação de computadores, criado para a linguagem de programação Python. Ao usar o PyCharm na Databricks, por padrão, o PyCharm cria um ambiente virtual Python, mas você pode confi{...}

PySpark

O que é PySpark? O Apache Spark é escrito na linguagem de programação Scala. PySpark é uma API em Python para executar o Spark e foi lançado para oferecer suporte à colaboração entre Apache Spark e Python. O PySpark também oferece suporte à interface{...}

Qual é a diferença entre Machine Learning e Aprendizagem Profunda?

Entenda as distinções fundamentais e onde cada uma se encaixa na AI.Entendendo a hierarquia de AI, ML e DLNo mundo mais amplo da inteligência artificial (AI), os conceitos de machine learning e aprendizagem profunda costumam ser confundidos. A AI é o{...}

Rede neural

O que é uma rede neural? Rede neural é um modelo de computação cuja estrutura em camadas se assemelha à estrutura em rede dos neurônios no cérebro. Ela tem elementos de processamento interconectados chamados neurônios, que trabalham juntos para produ{...}

Rede neural artificial

O que é uma rede neural artificial? Uma rede neural artificial (ANN) é um sistema de computação padronizado após a operação de neurônios no cérebro humano. Como funcionam as redes neurais artificiais? As redes neurais artificiais são como gráficos di{...}

Rede neural bayesiana

O que são redes neurais bayesianas? Redes neurais bayesianas se referem a uma extensão de redes-padrão com posterior inferência de probabilidade com a finalidade de controlar o sobreajuste. Em um sentido mais amplo, a abordagem bayesiana usa metodolo{...}

Segurança dos dados

No mundo altamente conectado de hoje, ameaças à segurança cibernética e riscos internos são uma preocupação constante. As organizações precisam ter visibilidade dos tipos de dados que têm, evitar o uso não autorizado de dados e identificar e mitigar {...}

Sequenciamento de DNA

O que é sequenciamento de DNA? Sequenciamento de DNA é o processo de determinar a sequência exata de nucleotídeos de DNA (ácido desoxirribonucleico). O sequenciamento de DNA refere-se à ordem dos quatro blocos construtores químicos (adenina, gu{...}

Sistemas de IA compostos

O que são os sistemas compostos de IA? Os sistemas compostos de IA, conforme definido pelo blog Berkeley AI Research (BAIR), são sistemas que lidam com tarefas de IA combinando vários componentes que interagem entre si. Esses componentes podem inclui{...}

solução de data warehouse

O que é um data warehouse? Data warehouse é um sistema de gerenciamento de dados que armazena dados atuais e históricos de várias fontes para as empresas obterem facilmente insights e relatórios. Os data warehouses são normalmente usados para busines{...}

Spark Elasticsearch

O que é o Spark Elasticsearch? O Spark Elasticsearch é um banco de dados distribuído NoSQL que armazena, recupera e gerencia dados semiestruturados e orientados a documentos. É um mecanismo de pesquisa RESTful de código aberto GitHub, desenvolvido so{...}

Spark gerenciado

O que é o Spark gerenciado? Um serviço Spark gerenciado permite aproveitar as ferramentas de dados de código aberto para processamento em lotes, queries, streaming e machine learning. Ao usar essa automação, você poderá criar rapidamente clusters sob{...}

Spark SQL

Muitos data scientists, analistas e usuários em geral de business intelligence usam queries SQL para explorar dados. O Spark SQL é um módulo do Spark projetado para processamento de dados estruturados. Ele oferece uma camada de abstração na programaç{...}

Spark Streaming

O Apache Spark Streaming é a geração anterior do mecanismo de streaming do Apache Spark. Não há mais atualizações para o Spark Streaming, e é um projeto legado. Há um mecanismo de streaming mais novo e mais fácil de usar no Apache Spark chamado strea{...}

Sparklyr

O que é o Sparklyr? O Sparklyr é um pacote de código aberto que fornece uma interface entre R e Apache Spark. Agora, você pode aproveitar os recursos do Spark em um ambiente R moderno, graças à capacidade do Spark de interagir com dados distribuídos {...}

SparkR

O SparkR é uma ferramenta para executar o R no Spark. Ele segue os mesmos princípios de todas as outras ligações de linguagem do Spark. Para usar o SparkR, basta importá-lo para nosso ambiente e executar nosso código. É tudo muito semelhante à API do{...}

Streaming estruturado

O streaming estruturado é uma API de alto nível para processamento de dados por streaming que ficou pronta para produção no Spark 2.2. Com o streaming estruturado, é possível realizar as mesmas operações em formato de streaming que você realiza no mo{...}

Tensor denso

Tensores densos armazenam valores em um bloco sequencial contíguo de memória onde todos os valores são representados. Tensores ou matrizes multidimensionais são usados em um conjunto diversificado de aplicações de análise de dados multidimensionais. {...}

Tensor esparso

O Python oferece uma biblioteca integrada chamada Numpy para manipular matrizes multidimensionais. A organização e o uso dessa biblioteca é um requisito primário para o desenvolvimento da biblioteca pytensor. Sptensor é uma classe que representa o te{...}

TensorFlow

Em novembro de 2015, o Google lançou um framework de código aberto para machine learning e deu o nome de TensorFlow. É compatível com deep learning, redes neurais e computação numérica geral em CPUs, GPUs e clusters de GPU. Uma das maiores vantagens {...}

Transações ACID

O que é uma transação? Uma transação em um banco de dados ou sistema de armazenamento de dados é uma operação tratada como uma unidade de trabalho indivisível. Isso significa que a transação é concluída integralmente ou não ocorre, garantindo a consi{...}

Transformação de dados

O que é transformação de dados? A transformação de dados é o processo de pegar dados brutos que foram extraídos de fontes de dados e transformá-los em datasets utilizáveis. Os pipelines de dados muitas vezes incluem várias transformações de dados, co{...}

Tungsten

O que é o Projeto Tungsten? Tungsten é o codinome do projeto guarda-chuva que modifica o mecanismo de execução do Apache Spark. Seu foco é melhorar drasticamente a memória e a eficiência da CPU para aplicativos Spark, aproximando o desempenho dos lim{...}

Unified Data Analytics

Unified Data Analytics é uma nova categoria de soluções que unifica o processamento de dados com tecnologias de IA, tornando a implantação da IA muito mais viável para organizações empresariais e permitindo acelerar suas iniciativas de IA. Com a Unif{...}

Varejo em tempo real

O que são dados em tempo real para o setor de varejo? Varejo em tempo real é o acesso em tempo real aos dados. A mudança do acesso, análise e compute baseados em batch permitirá que os dados estejam "sempre ativos", o que promove decisões precisas e {...}

Virtualização de dados: acesso unificado em tempo real em múltiplas fontes de dados

O que é virtualização de dados?A virtualização de dados é um método de integração de dados que permite que as organizações criem exibições unificadas de informações de múltiplas fontes de dados sem mover ou copiar fisicamente os dados. Como uma tecno{...}

Visualizações materializadas

O que é uma visualização materializada? Uma visualização materializada é um objeto de banco de dados que armazena os resultados de uma query como tabela física. Ao contrário das visualizações de banco de dados regulares, que são virtuais e derivam se{...}

Visão geral das ferramentas de business intelligence

As ferramentas de Business Intelligence (BI) são uma categoria crítica de aplicativos de software projetados para coletar, processar, analisar e apresentar dados empresariais de maneira significativa. Em sua essência, essas ferramentas transformam da{...}

Viés de automação

O que é viés de automação? Viés de automação é uma dependência excessiva de auxílios automatizados e sistemas de suporte à decisão. À medida que aumenta a disponibilidade de auxílios de decisão automatizados, adições a contextos críticos de tomada de{...}

What is Change Data Capture?

What is Change Data Capture?Change Data Capture (CDC) is a data integration technique that identifies and records row-level changes made to a dataset, such as inserts, updates, and deletes. Instead of repeatedly extracting entire tables, CDC captures{...}

What is Data Engineering?

Data engineering is the practice of designing, building and maintaining systems that collect, store, transform and deliver data for analysis, reporting, machine learning and decision-making. It’s about making sure the data actually shows up, on time,{...}

What is Online Transaction Processing (OLTP)?

OLTP, or Online Transaction Processing, is a type of data processing that can efficiently handle large numbers of short, fast transactions with low latency. At its core, OLTP is designed to store and retrieve data quickly. It focuses on day-to-day es{...}