Eine allgemeine Einführung in PySpark und verteilte Berechnungen. Dieser Abschnitt stellt PySpark, PySpark DataFrames und RDDs vor.

Einführung in PySpark

Eine SparkSession erstellen

Zensusdaten laden

Einführung in PySpark DataFrames

Skalierbarkeit und Performance

CSV-Daten lesen und Aggregationen durchführen

Nach Unternehmen filtern

Mehr zu Spark DataFrames

Schema ableiten und filtern

Schemafestlegung

Einführung in Apache Spark und PySpark

Eine Fortsetzung zu DataFrames und komplexen Datentypen. Dieser Abschnitt vertieft, was DataFrames in PySpark bieten, und führt einige Spark-SQL-Konzepte ein.

Datenbearbeitung mit DataFrames

Fehlende Daten mit fill und drop behandeln

Spaltenoperationen – Spalten erstellen und umbenennen

Fortgeschrittene DataFrame-Operationen

DataFrame-Kombinationen

Flüge mit ihren Zielflughäfen verknüpfen

Du definierst sie? Du benutzt sie!

UDF Definition

Integer in PySpark-UDFs

Pandas-UDFs

PySpark in Python

Nutze Spark SQL und PySpark für skalierbare Datenverarbeitung: Kombiniere die Einfachheit von SQL mit der verteilten Rechenleistung von PySpark, um große Datensätze effizient zu bearbeiten.

Resilient Distributed Datasets in PySpark

RDDs erstellen

RDDs einsammeln

Einführung in Spark SQL

Abfragen auf einer temporären View

SQL auf DataFrames ausführen

Analysen mit SQL auf DataFrames

PySpark-Aggregationen

Aggregationen in PySpark

Aggregation in RDDs

Komplexe Aggregationen

PySpark im großen Maßstab

Broadcasting

Alles zusammenführen I

Alles zusammenführen II

Was haben wir gelernt?

Einführung in PySpark SQL

Transportation

Salaries

Adults

Course Glossary

Dieser Kurs richtet sich an Data Engineers, Data Scientists und Machine-Learning-Anwender, die mit großen Datensätzen in PySpark arbeiten möchten. Du lernst die Geschwindigkeit und Skalierbarkeit von Apache Spark kennen, erstellst Spark-Sessions, arbeitest mit RDDs und bearbeitest DataFrames in praxisnahen Übungen. Der Kurs umfasst außerdem PySpark SQL: Du fragst Daten mit SQL ab, arbeitest mit Schemata und komplexen Datentypen und optimierst die Performance in verteilten Umgebungen. Am Ende verfügst du über grundlegende Fähigkeiten zur Verarbeitung und Analyse von Big Data – die Basis für fortgeschrittene Anwendungen wie Machine Learning und Big-Data-Analytik.

Die Videos enthalten Live-Transkripte, die du über „Mitschrift Anzeigen“ unten links im Video einblenden kannst.
Das Kursglossar findest du rechts im Bereich „Ressourcen“.
Um CPE-Credits zu erhalten, musst du den Kurs abschließen und in der qualifizierten Bewertung mindestens 70 % erreichen. Du gelangst zur Bewertung, indem du rechts auf den CPE-Credits-Hinweis klickst.

Dieser Kurs richtet sich an Data Engineers, Data Scientists und Menschen mit Interesse an maschinellem Lernen, die mit großen Datensätzen effizient arbeiten wollen. Egal, ob du von Tools wie Pandas kommst oder dich zum ersten Mal mit Big-Data-Technologien beschäftigst – dieser Kurs bietet dir eine solide Einführung in PySpark und verteilte Datenverarbeitung.<br><br>
<h2>Warum Spark? Warum gerade jetzt?</h2>
Entdecke die Geschwindigkeit und Skalierbarkeit von Apache Spark, dem leistungsstarken Framework für die Verarbeitung von Big Data. Durch interaktive Lektionen und praktische Übungen wirst du sehen, wie die In-Memory-Verarbeitung von Spark einen Vorteil gegenüber traditionellen Frameworks wie Hadoop bietet. Du beginnst damit, Spark-Sessions einzurichten und dich mit Kernkomponenten wie Resilient Distributed Datasets (RDDs) und DataFrames auseinanderzusetzen. Lerne, wie du Datensätze ganz einfach filtern, gruppieren und zusammenführen kannst, indem du an Beispielen aus der Praxis arbeitest.<br><br>
<h2>Verbesser deine Python- und SQL-Kenntnisse für Big Data</h2>
Lerne, wie du PySpark SQL für Abfragen und die Verwaltung von Daten mit der bekannten SQL-Syntax nutzen kannst. Lerne Schemata, komplexe Datentypen und benutzerdefinierte Funktionen (UDFs) kennen und baue parallel dazu deine Fähigkeiten im Bereich Caching und Leistungsoptimierung für verteilte Systeme aus.<br><br>
<h2>Lege die Grundlagen für deine Big Data Kompetenz</h2>
Am Ende dieses Kurses wirst du mit PySpark sicher umgehen können, um Big Data abfragen und verarbeiten zu können. Diese grundlegenden Fähigkeiten befähigen dich dazu, fortgeschrittene Themen wie maschinelles Lernen und Big-Data-Analysen in Angriff zu nehmen.

Introduction to SQL

Data Manipulation with pandas

Beherrsche PySpark für Big Data: Lerne, große Datensätze zu verarbeiten, abzufragen und zu optimieren!

Mit PySpark meisterst du Big Data ganz einfach. Hier lernst du, wie du riesige Datensätze für Analysen bearbeitest, abfragst und optimierst.

Big Data mit PySpark

Wissenschaftler für maschinelles Lernen in Python

Professioneller Dateningenieur in Python

Variable	Beschreibung
age	Alter der Person
education_num	Bildung (Anzahl Jahre)
marital_status	Familienstand
occupation	Beruf
income	Einkommen

Schemafestlegung

Einführung in PySpark

Anleitung zur Übung

Interaktive Übung