Neste capítulo, você aprenderá como o Spark gerencia dados e como você pode ler e gravar tabelas no Python.

Afinal, o que faz o Spark?

Como usar o Spark no Python

Análise do SparkContext

Uso de DataFrames

Como criar uma SparkSession

Exibição de tabelas

Curioso para fazer consultas?

Como pandificar um DataFrame do Spark

Use o Spark para dar brilho aos dados

Chega de intermediários

Visão geral do PySpark

Neste capítulo, você aprenderá sobre o módulo pyspark.sql, que disponibiliza consultas de dados otimizadas à sua sessão do Spark.

Criação de colunas

Introdução rápida ao SQL

Introdução rápida ao SQL (2)

Filtragem de dados

Seleção

Seleção II

Agregação

Agregação II

Agrupamento e agregação I

Agrupamento e agregação II

Junções

Junções II

Manipulação de dados

O PySpark tem rotinas de aprendizado de máquina de ponta integradas, além de utilitários para criar pipelines completos de aprendizado de máquina. Você aprenderá sobre eles neste capítulo.

Pipelines de aprendizado de máquina

Junção dos DataFrames

Tipos de dados

De string para inteiro

Crie uma nova coluna

Como criar um booleano

Strings e fatores

Companhia aérea

Destino

Monte um vetor

Crie o pipeline

Teste x Treinamento

Transforme os dados

Divida os dados

Introdução a pipelines de aprendizado de máquina

Neste último capítulo, você aplicará o que aprendeu para criar um modelo capaz de prever quais voos sofrerão atrasos.

O que é regressão logística?

Crie o modelador

Validação cruzada

Crie o avaliador

Faça uma grade

Crie o validador

Ajuste o(s) modelo(s)

Avaliação de classificadores binários

Avalie o modelo

Ajuste e seleção de modelos

Airports

Flights

Planes

Neste curso, você aprenderá a usar o Spark no Python! O Spark é uma ferramenta para fazer computação paralela com grandes conjuntos de dados e se integra bem ao Python. O PySpark é o pacote Python que faz a mágica acontecer. Você vai usar esse pacote para trabalhar com dados de voos de Portland e Seattle. Você vai aprender a preparar esses dados e criar um pipeline completo de aprendizado de máquina para prever se os voos sofrerão atrasos ou não. Prepare-se para colocar um pouco de brilho em seus códigos Python com o Spark e mergulhar no mundo do aprendizado de máquina de alto desempenho!

Introduction to Python

Aprenda a manipular dados e criar um pipeline de aprendizado de máquina com PySpark. Pratique com dados reais.

Introdução ao PySpark

Aprenda a implementar o gerenciamento de dados distribuídos e o machine learning no Spark usando o pacote PySpark.

Pipelines de aprendizado de máquina

Introdução ao PySpark

Exercício interativo prático