A General introduction to PySpark and distributed computing. This section introduces PySpark, PySpark DataFrames, and RDDs.

Introduction to PySpark

Creating a SparkSession

Loading census data

Introduction to PySpark DataFrames

Scalability and performance

Reading a CSV and performing aggregations

Filtering by company

More on Spark DataFrames

Infer and filter

Schema writeout

Introduction to Apache Spark and PySpark

A continuation of DataFrames and complex datatypes. This section expands on what DataFrames offer in PySpark and introduces some Spark SQL concepts.

Data manipulation with DataFrames

Handling missing data with fill and drop

Column operations - creating and renaming columns

Advanced DataFrame operations

DataFrame combinations

Joining flights with their destination airports

U define it? U use it!

UDF defined

Integers in PySpark UDFs

Pandas UDFs

PySpark in Python

Delve into leveraging Spark SQL and PySpark for scalable data processing, combining SQL's simplicity with PySpark's distributed computing power to handle large datasets efficiently.

Resilient Distributed Datasets in PySpark

RDD's maken

RDD's verzamelen

Introductie tot Spark SQL

Query uitvoeren op een tijdelijke view

SQL uitvoeren op DataFrames

Analytics met SQL op DataFrames

Aggregaties in PySpark

Aggregëren in RDD's

Complexe aggregaties

PySpark op schaal

Broadcasting

Alles samenbrengen I

Alles samenbrengen II

Wat hebben we geleerd?

Introduction to PySpark SQL

Transportation

Salaries

Adults

Course Glossary

Deze cursus is bedoeld voor data engineers, data scientists en Machine Learning-practitioners die met grote gegevenssets willen werken met PySpark. Je verkent de snelheid en schaalbaarheid van Apache Spark, leert Spark-sessies maken, werken met RDD's en DataFrames bewerken via praktijkoefeningen. De cursus behandelt ook PySpark SQL, waarin je leert hoe je met SQL gegevens opvraagt, schemas en complexe datatypen afhandelt en prestaties optimaliseert in gedistribueerde omgevingen. Aan het einde beschik je over de basisvaardigheden om big data te verwerken en analyseren, als opstap naar geavanceerde toepassingen zoals Machine Learning en big data-analytics.

De video's bevatten live transcripties die je kunt tonen door linksonder in de video's op "Show transcript" te klikken.
De cursuswoordenlijst vind je rechts in de sectie met bronnen.
Om CPE-credits te behalen, moet je de cursus voltooien en minimaal 70% scoren op de gekwalificeerde beoordeling. Je kunt naar de beoordeling navigeren door te klikken op de CPE-credits-callout aan de rechterkant.

Deze cursus is ideaal voor data-engineers, datawetenschappers en machine learning-specialisten die efficiënt met grote datasets willen werken. Of je nu overstapt van tools zoals Pandas of voor het eerst met big data-technologieën aan de slag gaat, deze cursus biedt een goede introductie tot PySpark en gedistribueerde gegevensverwerking.<br><br>
<h2>Waarom Spark? Waarom nu?</h2>
Ontdek de snelheid en schaalbaarheid van Apache Spark, het krachtige framework dat is ontworpen voor het verwerken van big data. Door interactieve lessen en praktische oefeningen zie je hoe Spark met zijn in-memory-verwerking een voorsprong heeft op traditionele frameworks zoals Hadoop. Je begint met het opzetten van Spark-sessies en duikt in de belangrijkste onderdelen, zoals Resilient Distributed Datasets (RDD's) en DataFrames. Leer hoe je datasets makkelijk kunt filteren, groeperen en samenvoegen terwijl je met echte voorbeelden werkt.<br><br>
<h2>Verbeter je Python- en SQL-vaardigheden voor big data</h2>
Leer hoe je PySpark SQL kunt gebruiken voor het opvragen en beheren van gegevens met behulp van de bekende SQL-syntaxis. Werk met schema's, ingewikkelde gegevenstypen en door gebruikers gedefinieerde functies (UDF's), terwijl je vaardigheden opbouwt in caching en het optimaliseren van prestaties voor gedistribueerde systemen.<br><br>
<h2>Bouw je basis voor big data</h2>
Aan het einde van deze cursus heb je het zelfvertrouwen om big data te verwerken, te doorzoeken en te bewerken met PySpark. Met deze basisvaardigheden ben je klaar om geavanceerde onderwerpen zoals machine learning en big data-analyse te ontdekken.

Introduction to SQL

Data Manipulation with pandas

Beheers PySpark voor eenvoudige big data-verwerking—leer datasets verwerken, bevragen en optimaliseren!

Introductie tot PySpark

Word expert in PySpark en leer grote datasets verwerken, analyseren en optimaliseren voor krachtige big-data-analyses.

Associate Data Engineer in Databricks

Big Data met PySpark

Wetenschapper op het gebied van machine learning in Python

Professionele data-engineer in Python

Aggregëren in RDD's

Introductie tot PySpark

Oefeninstructies

Praktische interactieve oefening