Spark is een framework om met Big Data te werken. In dit hoofdstuk behandel je wat achtergrond over Spark en Machine Learning. Daarna leer je hoe je via Python verbinding maakt met Spark en CSV-data laadt.

Machine Learning & Spark

Kenmerken van Spark

Onderdelen in een Spark-cluster

Verbinden met Spark

Locatie van de Spark-master

Een SparkSession maken

Gegevens laden

Vluchtgegevens laden

SMS-spamgegevens laden

Introductie

Nu je weet hoe je data in Spark krijgt, ga je twee soorten classificatiemodel bouwen: beslissingsbomen en logistische regressie. Je ontdekt ook een paar aanpakken voor datapreparatie.

Gegevens voorbereiden

Kolommen en rijen verwijderen

Kolommen bewerken

Categorische kolommen

Kolommen samenvoegen

Beslissingsboom

Train/test-split

Bouw een Decision Tree

Evalueer de Decision Tree

Logistic Regression

Bouw een Logistic Regression-model

Evalueer het Logistic Regression-model

Tekst omzetten naar tabellen

Leestekens, cijfers en tokens

Stopwoorden en hashing

Een spam-classifier trainen

Classificatie

Vervolgens leer je Lineaire Regressiemodellen maken. Ook ontdek je hoe je je data kunt uitbreiden door nieuwe voorspellers te engineeren en een robuuste aanpak om alleen de meest relevante voorspellers te selecteren.

One-hot encoding

Vertalen van vertrek luchthaven naar encodering

T-shirtmaten encoden

Regressie

Model vluchtduur: Alleen afstand

De coëfficiënten interpreteren

Model voor vluchtduur: vertrekairport toevoegen

Coëfficiënten interpreteren

Bucketing & features ontwerpen

Vertrekken in tijdsvakken (bucketing)

Model vluchttijd: vertrektijd toevoegen

Regularisatie

Vliegtijdmodel: Meer features!

Model voor vluchttijd: regularisatie!

Tot slot leer je hoe je je modellen efficiënter maakt. Je ziet hoe je pipelines gebruikt om je code duidelijker en makkelijker te onderhouden. Daarna gebruik je cross-validatie om je modellen beter te testen en goede modelparameters te kiezen. Ten slotte ga je aan de slag met twee soorten ensemblemodellen.

Pipeline

Model voor vluchtduur: Pipeline-stappen

Model vluchtduur: pipelinemodel

SMS-spam-pipeline

Cross-validation

Cross-validatie voor een simpel model van vluchtduur

Cross-validatie van een pipeline voor het model van vluchttijd

Grid Search

Linear regression voor vluchten optimaliseren

Het beste model voor vluchtduur ontleden

SMS-spam geoptimaliseerd

Hoeveel modellen bij grid search?

Ensemble

Vertraagde vluchten met Gradient-Boosted Trees

Vertraagde vluchten met een Random Forest

Random Forest evalueren

Tot slot

Ensembles & Pipelines

Flights

Spark is een krachtig, algemeen hulpmiddel voor het werken met Big Data. Spark regelt transparant de verdeling van rekentaken over een cluster. Dat maakt bewerkingen snel én zorgt ervoor dat jij je kunt richten op de analyse in plaats van op technische details. In deze cursus leer je hoe je data in Spark krijgt en ga je vervolgens in op drie fundamentele Machine Learning-algoritmen in Spark: lineaire regressie, logistische regressie/classifiers en het bouwen van pipelines. Onderweg analyseer je een grote gegevensset met vertraagde vluchten en spam-sms'jes. Met deze basis ben je klaar om de kracht van Spark te benutten en toe te passen in je eigen Machine Learning-projecten!

Supervised Learning with scikit-learn

Introduction to PySpark

Leer voorspellingen maken met Apache Spark via beslisbomen, logistische en lineaire regressie.

Pipeline

Create Your Free Account