Een algemene introductie tot PySpark en gedistribueerd rekenen. Deze sectie introduceert PySpark, PySpark DataFrames en RDD's.

Kennismaking met PySpark

Een SparkSession maken

Census-gegevens laden

Introductie tot PySpark DataFrames

Schaalbaarheid en prestaties

Een CSV inlezen en aggregaties uitvoeren

Filteren op bedrijf

Meer over Spark DataFrames

Afbellen en filteren

Schema uitschrijven

Introductie tot Apache Spark en PySpark

Een vervolg op DataFrames en complexe datatypen. Deze sectie breidt uit wat DataFrames in PySpark bieden en introduceert enkele Spark SQL-concepten.

Gegevens bewerken met DataFrames

Ontbrekende data afhandelen met fill en drop

Kolombewerkingen - kolommen maken en hernoemen

Geavanceerde DataFrame-bewerkingen

DataFrame-combinaties

Vluchten koppelen aan hun bestemmingsluchthavens

Definieer je ’m? Dan gebruik je ’m!

UDF gedefinieerd

Integers in PySpark-UDF's

Pandas UDF's

PySpark in Python

Ga dieper in op het benutten van Spark SQL en PySpark voor schaalbare gegevensverwerking: de eenvoud van SQL gecombineerd met de kracht van PySpark voor gedistribueerd rekenen om grote gegevenssets efficiënt te verwerken.

Resilient Distributed Datasets in PySpark

RDD's maken

RDD's verzamelen

Introductie tot Spark SQL

Query uitvoeren op een tijdelijke view

SQL uitvoeren op DataFrames

Analytics met SQL op DataFrames

Aggregaties in PySpark

Aggregëren in RDD's

Complexe aggregaties

PySpark op schaal

Broadcasting

Alles samenbrengen I

Alles samenbrengen II

Wat hebben we geleerd?

Introductie tot PySpark SQL

Transportation

Salaries

Adults

Course Glossary

Deze cursus is bedoeld voor data engineers, data scientists en Machine Learning-practitioners die met grote gegevenssets willen werken met PySpark. Je verkent de snelheid en schaalbaarheid van Apache Spark, leert Spark-sessies maken, werken met RDD's en DataFrames bewerken via praktijkoefeningen. De cursus behandelt ook PySpark SQL, waarin je leert hoe je met SQL gegevens opvraagt, schemas en complexe datatypen afhandelt en prestaties optimaliseert in gedistribueerde omgevingen. Aan het einde beschik je over de basisvaardigheden om big data te verwerken en analyseren, als opstap naar geavanceerde toepassingen zoals Machine Learning en big data-analytics.

De video's bevatten live transcripties die je kunt tonen door linksonder in de video's op "Show transcript" te klikken.
De cursuswoordenlijst vind je rechts in de sectie met bronnen.
Om CPE-credits te behalen, moet je de cursus voltooien en minimaal 70% scoren op de gekwalificeerde beoordeling. Je kunt naar de beoordeling navigeren door te klikken op de CPE-credits-callout aan de rechterkant.

Deze cursus is ideaal voor data-engineers, datawetenschappers en machine learning-specialisten die efficiënt met grote datasets willen werken. Of je nu overstapt van tools zoals Pandas of voor het eerst met big data-technologieën aan de slag gaat, deze cursus biedt een goede introductie tot PySpark en gedistribueerde gegevensverwerking.<br><br>
<h2>Waarom Spark? Waarom nu?</h2>
Ontdek de snelheid en schaalbaarheid van Apache Spark, het krachtige framework dat is ontworpen voor het verwerken van big data. Door interactieve lessen en praktische oefeningen zie je hoe Spark met zijn in-memory-verwerking een voorsprong heeft op traditionele frameworks zoals Hadoop. Je begint met het opzetten van Spark-sessies en duikt in de belangrijkste onderdelen, zoals Resilient Distributed Datasets (RDD's) en DataFrames. Leer hoe je datasets makkelijk kunt filteren, groeperen en samenvoegen terwijl je met echte voorbeelden werkt.<br><br>
<h2>Verbeter je Python- en SQL-vaardigheden voor big data</h2>
Leer hoe je PySpark SQL kunt gebruiken voor het opvragen en beheren van gegevens met behulp van de bekende SQL-syntaxis. Werk met schema's, ingewikkelde gegevenstypen en door gebruikers gedefinieerde functies (UDF's), terwijl je vaardigheden opbouwt in caching en het optimaliseren van prestaties voor gedistribueerde systemen.<br><br>
<h2>Bouw je basis voor big data</h2>
Aan het einde van deze cursus heb je het zelfvertrouwen om big data te verwerken, te doorzoeken en te bewerken met PySpark. Met deze basisvaardigheden ben je klaar om geavanceerde onderwerpen zoals machine learning en big data-analyse te ontdekken.

Introduction to SQL

Data Manipulation with pandas

Beheers PySpark voor eenvoudige big data-verwerking—leer datasets verwerken, bevragen en optimaliseren!

Introductie tot PySpark

Word expert in PySpark en leer grote datasets verwerken, analyseren en optimaliseren voor krachtige big-data-analyses.

Associate Data Engineer in Databricks

Big Data met PySpark

Wetenschapper op het gebied van machine learning in Python

Professionele data-engineer in Python

Variable	Description
age	Leeftijd van de persoon
education_num	Opleidingsniveau (cijfer)
marital_status	Burgerlijke staat
occupation	Beroep
income	Categorisch inkomen

Schema uitschrijven

Introductie tot PySpark

Oefeninstructies

Interactieve oefening met praktijkervaring