Neste capítulo, você vai aprender a trabalhar com notebooks do Databricks, carregar dados CSV em DataFrames do Spark e modelar dados usando PySpark e SQL.

Trabalhando com notebooks do Databricks

Entendendo os notebooks do Databricks

Carregando seu primeiro conjunto de dados

Explorando os logs do driver

Modelando dados com PySpark e SQL

Modelando dados com PySpark

Analisando dados com SQL

Entendendo visualizações temporárias

Carregando e modelando dados

Aprenda a definir esquemas explícitos, construir um pipeline de limpeza de dados e otimizar o desempenho de consultas com broadcast joins.

Limpeza de dados e verificações de qualidade

Por que esquemas explícitos são importantes

Limpando o conjunto de dados de varejo online

Escolhendo a métrica de qualidade certa

Agregando e unindo dados com eficiência

Junção e agregação de dados de varejo

Entendendo o gargalo do shuffle

Quando usar um broadcast join

Limpeza de dados e otimização

Aprenda a calcular totais acumulados e rankings com funções de janela, criar pipelines de streaming e implantar fluxos de trabalho de produção.

Funções de janela e consultas de streaming

Classificando clientes com funções de janela

Transmitindo dados de varejo para o Delta Lake

Retomando após uma reinicialização

Pipelines de produção com workflows

Escrevendo e lendo uma tabela Delta

Criando um pipeline de job com várias tarefas

Por que mudar para Lakeflow?

Encerrando

Análises e pipelines de produção

online_retail

transactions

country_lookup

Pronto para lidar com dados do mundo real em escala? Este curso ensina você a transformar grandes conjuntos de dados usando Spark SQL e PySpark no Databricks. Aprenda a modelar e limpar dados, executar agregações com joins otimizados e aplicar funções de janela para análises avançadas. Você também vai configurar streaming baseado em arquivos com checkpoints tolerantes a falhas e persistir resultados como tabelas Delta. Ao final, você estará orquestrando pipelines de produção de múltiplas etapas com Databricks Workflows e Lakeflow Declarative Pipelines.


Introduction to Databricks SQL

Introduction to PySpark

Crie pipelines de dados completos: da limpeza e agregação ao streaming e orquestração.

Transformação de Dados com Spark SQL no Databricks

Crie pipelines de dados de ponta a ponta - da limpeza e agregação ao streaming e à orquestração.


Associate Data Engineer in Databricks

Retomando após uma reinicialização

Transformação de Dados com Spark SQL no Databricks

exercicio interativo prático