In dit hoofdstuk leer je hoe Spark met gegevens omgaat en hoe je tabellen kunt lezen en schrijven vanuit Python.

Wat is Spark eigenlijk?

Spark gebruiken in Python

De SparkContext bekijken

DataFrames gebruiken

Een SparkSession maken

Tabellen bekijken

Ben jij query-ous?

Maak een Pandas-versie van een Spark DataFrame

Zet wat Spark in je data

De tussenpersoon overslaan

Kennismaken met PySpark

In dit hoofdstuk leer je over de module pyspark.sql, die geoptimaliseerde gegevensqueries biedt voor je Spark-sessie.

Kolommen maken

SQL in een notendop

SQL in een notendop (2)

Gegevens filteren

Selecteren

Selecteren II

Aggregaties

Aggregaties II

Groeperen en aggregeren I

Groeperen en aggregeren II

Joinen

Joinen II

Gegevens manipuleren

PySpark heeft ingebouwde, geavanceerde Machine Learning-routines, samen met hulpprogramma's om volledige Machine Learning-pijplijnen te maken. Je leert erover in dit hoofdstuk.

Machine Learning-pijplijnen

Voeg de DataFrames samen

Gegevenstypen

String naar integer

Maak een nieuwe kolom

Een Boolean maken

Strings en categorieën

Carrier

Bestemming

Stel een vector samen

Maak de pipeline

Test vs. Train

Transformeer de data

Splits de gegevens

Aan de slag met Machine Learning-pijplijnen

In dit laatste hoofdstuk pas je toe wat je hebt geleerd om een model te maken dat voorspelt welke vluchten vertraging zullen hebben.

Wat is logistic regression?

Maak de modelbouwer

Crossvalidatie

Maak de evaluator

Maak een grid

Maak de validator

Het model(len) fitten

Binaire classificatiemodellen evalueren

Evalueer het model

Modelafstemming en selectie

Airports

Planes

Flights

In deze cursus leer je hoe je Spark gebruikt vanuit Python! Spark is een tool voor parallelle berekeningen met grote gegevenssets en werkt goed samen met Python. PySpark is het Python-pakket dat dit mogelijk maakt. Je gebruikt dit pakket om te werken met gegevens over vluchten vanuit Portland en Seattle. Je leert deze gegevens te wranglen en een complete Machine Learning-pijplijn te bouwen om te voorspellen of vluchten vertraging zullen hebben. Maak je klaar om wat Spark in je Python-code te stoppen en te duiken in de wereld van high-performance Machine Learning!

Introduction to Python

Leer data beheren en een machine learning-pijplijn bouwen met PySpark. Oefen met echte data.

Basis van PySpark

Splits de gegevens

Basis van PySpark

Oefeninstructies

Interactieve oefening met praktijkervaring