Ein Überblick über die Grundlagen von DataFrame und die Bedeutung der Datenbereinigung.

Einführung in die Datenbereinigung mit Apache Spark

Überprüfung der Datenbereinigung

Definieren eines Schemas

Unveränderlichkeit und faule Verarbeitung

Überprüfung der Unveränderlichkeit

Faule Verarbeitung verwenden

Parkett verstehen

Speichern eines DataFrames im Parquet-Format

SQL und Parkett

DataFrame Details

Ein Blick auf verschiedene Techniken zur Änderung des Inhalts von DataFrames in Spark.

DataFrame-Spaltenoperationen

Filtern von Spalteninhalten mit Python

Filtern Frage 1

Filterung Frage #2

Ändern von DataFrame-Spalten

Bedingte DataFrame-Spaltenoperationen

when()-Beispiel

Wann / Sonst

Benutzerdefinierte Funktionen

Verstehen von benutzerdefinierten Funktionen

Benutzerdefinierte Funktionen in Spark verwenden

Partitionierung und verzögerte Verarbeitung

Hinzufügen eines ID-Feldes

IDs mit verschiedenen Partitionen

Mehr ID-Tricks

DataFrames in der realen Welt manipulieren

Verbessere Datenbereinigungsaufgaben, indem du die Leistung erhöhst oder den Ressourcenbedarf reduzierst.

Caching

Zwischenspeichern eines DataFrame

DataFrame aus dem Zwischenspeicher entfernen

Verbessere die Importleistung

Optimierung der Dateigröße

Leistung beim Datei-Import

Cluster-Konfigurationen

Spark-Konfigurationen lesen

Spark-Konfigurationen schreiben

Leistungsverbesserungen

Normale Fugen

Verwendung von Broadcasting bei Spark-Joins

Vergleich zwischen Broadcast und normalen Joins

Die Leistung verbessern

Lerne, wie du mit Spark komplexe Daten aus der realen Welt verarbeitest und die Grundlagen von Pipelines kennen.

Einführung in Datenpipelines

Schnelle Pipeline

Problem mit Pipeline-Daten

Techniken zur Datenverarbeitung

Entfernen von kommentierten Zeilen

Ungültige Zeilen entfernen

Aufteilung in Spalten

Weiteres Parsing

Datenvalidierung

Zeilen über Join validieren

Untersuchung ungültiger Zeilen

Endgültige Analyse und Lieferung

Hundeparsing

Pro Bildanzahl

Prozentsatz Hundepixel

Glückwünsche und nächste Schritte

Komplexe Verarbeitungs- und Datenpipelines

Dallas Council Votes

Dallas Council Voters

Flights - 2014

Flights - 2015

Flights - 2016

Flights - 2017

Die Arbeit mit Daten ist schwierig - die Arbeit mit Millionen oder sogar Milliarden von Zeilen ist noch schwieriger.
Hast du einen Datenverarbeitungscode erhalten, der auf einem Laptop mit ziemlich unverfälschten Daten geschrieben wurde?
Wahrscheinlich hast du schon einmal die Aufgabe bekommen, einen grundlegenden Datenprozess vom Prototyp in die Produktion zu überführen.
Du hast vielleicht schon mit echten Datensätzen gearbeitet, bei denen Felder fehlen, die Formatierung seltsam ist und die Datenmenge um ein Vielfaches höher ist. Auch wenn das alles neu für dich ist, lernst du in diesem Kurs, was du brauchst, um Datenprozesse mit Python und Apache Spark vorzubereiten.
Du lernst die Terminologie, Methoden und einige Best Practices kennen, um eine leistungsfähige, wartbare und verständliche Datenverarbeitungsplattform zu erstellen.

Intermediate Python

Introduction to PySpark

Lernen Sie, wie Sie mit PySpark und DataFrames Daten in Python bereinigen und warum saubere Daten wichtig sind.

Daten bereinigen mit PySpark

Lerne, wie du Daten mit Apache Spark in Python bereinigen kannst.

Big Data mit PySpark

Optimierung der Dateigröße

Daten bereinigen mit PySpark

Interaktive Übung