Uma revisão dos fundamentos do DataFrame e da importância da limpeza de dados.

Introdução à limpeza de dados com o Apache Spark

Revisão da limpeza de dados

Definição de um esquema

Imutabilidade e processamento preguiçoso

Revisão da imutabilidade

Usando o processamento preguiçoso

Entendendo o Parquet

Salvando um DataFrame no formato Parquet

SQL e Parquet

Detalhes do DataFrame

Uma olhada em várias técnicas para modificar o conteúdo de DataFrames no Spark.

Operações de coluna DataFrame

Filtrando o conteúdo da coluna com Python

Pergunta de filtragem nº 1

Pergunta de filtragem nº 2

Modificando colunas do DataFrame

Operações condicionais de coluna do DataFrame

Exemplo de when()

Quando / Caso contrário

Funções definidas pelo usuário

Compreensão das funções definidas pelo usuário

Usando funções definidas pelo usuário no Spark

Particionamento e processamento preguiçoso

Adicionando um campo ID

IDs com partições diferentes

Mais truques do ID

Manipulando DataFrames no mundo real

Aprimore as tarefas de limpeza de dados aumentando o desempenho ou reduzindo os requisitos de recursos.

Armazenamento em cache

Armazenamento em cache de um DataFrame

Removendo um DataFrame do cache

Melhorar o desempenho da importação

Otimização do tamanho do arquivo

Desempenho da importação de arquivos

Configurações do cluster

Lendo as configurações do Spark

Escrevendo configurações do Spark

Melhorias no desempenho

Uniões normais

Usando a transmissão nas uniões do Spark

Comparação de uniões de transmissão com uniões normais

Melhorando o desempenho

Aprenda a processar dados complexos do mundo real usando o Spark e os conceitos básicos de pipelines.

Introdução aos pipelines de dados

Pipeline rápido

Problema de dados do pipeline

Técnicas de manipulação de dados

Remoção de linhas comentadas

Remoção de linhas inválidas

Divisão em colunas

Análise adicional

Validação dos dados

Validar linhas por meio de junção

Exame de linhas inválidas

Análise final e entrega

Análise de cães

Por contagem de imagens

Porcentagem de pixels de cães

Parabéns e próximas etapas

Processamento complexo e pipelines de dados

Dallas Council Votes

Dallas Council Voters

Flights - 2014

Flights - 2015

Flights - 2016

Flights - 2017

Trabalhar com dados é complicado - trabalhar com milhões ou até bilhões de linhas é pior ainda.
Você recebeu algum código de processamento de dados escrito em um laptop com dados razoavelmente originais?
É provável que você já tenha sido encarregado de mover um processo de dados básicos do protótipo para a produção.
Você pode ter trabalhado com conjuntos de dados do mundo real, com campos ausentes, formatação bizarra e ordens de magnitude de dados maiores. Mesmo que tudo isso seja novo para você, este curso o ajudará a aprender o que é necessário para preparar processos de dados usando Python com o Apache Spark.
Você aprenderá a terminologia, os métodos e algumas práticas recomendadas para criar uma plataforma de processamento de dados eficiente, sustentável e compreensível.

Otimização do tamanho do arquivo

Limpeza de dados com o PySpark

exercicio interativo prático