In this chapter, you'll learn how Spark manages data and how can you read and write tables from Python.

Wat is Spark eigenlijk?

Spark gebruiken in Python

De SparkContext bekijken

DataFrames gebruiken

Een SparkSession maken

Tabellen bekijken

Ben jij query-ous?

Maak een Pandas-versie van een Spark DataFrame

Zet wat Spark in je data

De tussenpersoon overslaan

Getting to know PySpark

In this chapter, you'll learn about the pyspark.sql module, which provides optimized data queries to your Spark session.

Creating columns

SQL in a nutshell

SQL in a nutshell (2)

Filtering Data

Selecting

Selecting II

Aggregating

Aggregating II

Grouping and Aggregating I

Grouping and Aggregating II

Joining

Joining II

Manipulating data

PySpark has built-in, cutting-edge machine learning routines, along with utilities to create full machine learning pipelines. You'll learn about them in this chapter.

Machine Learning Pipelines

Join the DataFrames

Data types

String to integer

Create a new column

Making a Boolean

Strings and factors

Carrier

Destination

Assemble a vector

Create the pipeline

Test vs. Train

Transform the data

Split the data

Getting started with machine learning pipelines

In this last chapter, you'll apply what you've learned to create a model that predicts which flights will be delayed.

What is logistic regression?

Create the modeler

Cross validation

Create the evaluator

Make a grid

Make the validator

Fit the model(s)

Evaluating binary classifiers

Evaluate the model

Model tuning and selection

Airports

Flights

Planes

In deze cursus leer je hoe je Spark gebruikt vanuit Python! Spark is een tool voor parallelle berekeningen met grote gegevenssets en werkt goed samen met Python. PySpark is het Python-pakket dat dit mogelijk maakt. Je gebruikt dit pakket om te werken met gegevens over vluchten vanuit Portland en Seattle. Je leert deze gegevens te wranglen en een complete Machine Learning-pijplijn te bouwen om te voorspellen of vluchten vertraging zullen hebben. Maak je klaar om wat Spark in je Python-code te stoppen en te duiken in de wereld van high-performance Machine Learning!

Introduction to Python

Leer data beheren en een machine learning-pijplijn bouwen met PySpark. Oefen met echte data.

Basis van PySpark

DataFrames gebruiken

Basis van PySpark

Interactieve oefening met praktijkervaring