Uma introdução geral ao PySpark e à computação distribuída. Esta seção apresenta o PySpark, os DataFrames do PySpark e os RDDs.

Introdução ao PySpark

Criando uma SparkSession

Carregando dados do censo

Introdução aos DataFrames do PySpark

Escalabilidade e desempenho

Lendo um CSV e fazendo agregações

Filtrando por empresa

Mais sobre Spark DataFrames

Inferir e filtrar

Especificação de schema

Introdução ao Apache Spark e ao PySpark

Continuação sobre DataFrames e tipos de dados complexos. Esta seção aprofunda o que os DataFrames oferecem no PySpark e apresenta alguns conceitos do Spark SQL.

Manipulação de dados com DataFrames

Tratando valores ausentes com fill e drop

Operações com colunas - criando e renomeando colunas

Operações avançadas com DataFrames

Combinações de DataFrames

Unindo voos com seus aeroportos de destino

Você define? Você usa!

UDF definida

Integers em UDFs do PySpark

Pandas UDFs

PySpark em Python

Aprofunde-se em como aproveitar o Spark SQL e o PySpark para processamento de dados em escala, combinando a simplicidade do SQL com o poder de computação distribuída do PySpark para lidar com grandes conjuntos de dados com eficiência.

Conjuntos de dados distribuídos resilientes no PySpark

Criando RDDs

Coletando RDDs

Introdução ao Spark SQL

Consultando uma temp view

Executando SQL em DataFrames

Análises com SQL em DataFrames

Agregações no PySpark

Agregando no PySpark

Agregando em RDDs

Agregações complexas

PySpark em escala

Broadcasting

Juntando tudo I

Juntando tudo II

O que aprendemos?

Introdução ao PySpark SQL

Transportation

Salaries

Adults

Course Glossary

Este curso foi feito para engenheiros de dados, cientistas de dados e profissionais de Machine Learning que querem trabalhar com grandes conjuntos de dados usando PySpark. Você vai explorar a velocidade e a escalabilidade do Apache Spark, aprender a criar sessões do Spark, trabalhar com RDDs e manipular DataFrames por meio de exercícios práticos. O curso também aborda PySpark SQL, ensinando você a consultar dados com SQL, lidar com esquemas e tipos de dados complexos e otimizar o desempenho em ambientes distribuídos. Ao final, você terá as habilidades fundamentais para processar e analisar big data, preparando o terreno para aplicações avançadas como Machine Learning e análise de big data.

Os vídeos contêm transcrições ao vivo que você pode exibir clicando em "Show transcript" no canto inferior esquerdo dos vídeos.
O glossário do curso pode ser encontrado à direita, na seção de recursos.
Para obter créditos de CPE, você precisa concluir o curso e alcançar uma pontuação de 70% na avaliação qualificada. Você pode acessar a avaliação clicando no destaque de créditos de CPE à direita.

Esse curso é ideal para engenheiros de dados, cientistas de dados e profissionais de machine learning que querem trabalhar com grandes conjuntos de dados de forma eficiente. Se você está mudando de ferramentas como Pandas ou mergulhando nas tecnologias de big data pela primeira vez, este curso oferece uma introdução sólida ao PySpark e ao processamento distribuído de dados.<br><br>
<h2>Por que Spark? Por que agora?</h2>
Descubra a velocidade e a escalabilidade do Apache Spark, a poderosa estrutura projetada para lidar com big data. Com aulas interativas e exercícios práticos, você vai ver como o processamento em memória do Spark dá uma vantagem sobre estruturas tradicionais como o Hadoop. Você vai começar configurando sessões do Spark e mergulhando em componentes essenciais, como Conjuntos de Dados Distribuídos Resilientes (RDDs) e DataFrame. Aprenda a filtrar, agrupar e juntar conjuntos de dados com facilidade enquanto trabalha com exemplos reais.<br><br>
<h2>Melhore suas habilidades em Python e SQL para Big Data</h2>
Aprenda a usar o PySpark SQL para consultar e gerenciar dados usando a sintaxe SQL que você já conhece. Lide com esquemas, tipos de dados complexos e funções definidas pelo usuário (UDFs), enquanto desenvolve habilidades em cache e otimização de desempenho para sistemas distribuídos.<br><br>
<h2>Crie suas bases de Big Data</h2>
Ao final deste curso, você vai ter confiança pra lidar, consultar e processar big data usando o PySpark. Com essas habilidades básicas, você estará pronto para explorar tópicos avançados, como machine learning e análise de big data.

Introduction to SQL

Data Manipulation with pandas

Domine PySpark para lidar com big data—aprenda a processar, consultar e otimizar grandes conjuntos de dados!

Domine o PySpark para lidar com big data com facilidade — aprenda a processar, consultar e otimizar conjuntos de dados enormes para análises poderosas!

Associate Data Engineer in Databricks

Big Data com PySpark

Cientista de machine learning em Python

Engenheiro de dados profissional Em Python

Variável	Descrição
age	Idade do indivíduo
education_num	Escolaridade por grau
marital_status	Estado civil
occupation	Ocupação
income	Renda categórica

Carregando dados do censo

Introdução ao PySpark

Instruções do exercicio

exercicio interativo prático