DataFrames verwenden

Die zentrale Datenstruktur von Spark ist das Resilient Distributed Dataset (RDD). Dies ist ein Low-Level-Objekt, das es Spark ermöglicht, seine Magie zu entfalten, indem es die Daten auf mehrere Knoten im Cluster verteilt. Allerdings ist es schwierig, direkt mit RDDs zu arbeiten. Deshalb wirst du in diesem Kurs die Abstraktion „Spark DataFrame“ verwenden, die auf RDDs aufbaut.

Der Spark DataFrame wurde so konzipiert, dass er sich ähnlich verhält wie eine SQL-Tabelle (eine Tabelle mit Variablen in den Spalten und Beobachtungen in den Zeilen). Sie sind nicht nur leichter zu verstehen, sondern DataFrames sind auch besser für komplizierte Operationen optimiert als RDDs.

Wenn man anfängt, Spalten und Zeilen von Daten zu verändern und zu kombinieren, gibt es viele Wege, um zum gleichen Ergebnis zu kommen, aber einige dauern oft viel länger als andere. Bei der Verwendung von RDDs muss der Data Scientist herausfinden, wie er die Abfrage optimieren kann, aber die DataFrame-Implementierung hat einen Großteil dieser Optimierung bereits integriert!

Um mit Spark DataFrames arbeiten zu können, musst du zunächst ein SparkSession-Objekt aus deinem SparkContext erstellen. Du kannst dir den SparkContext als deine Verbindung zum Cluster vorstellen und die SparkSession als deine Schnittstelle zu dieser Verbindung.

Vergiss nicht, dass du für den Rest des Kurses eine SparkSession mit dem Namen spark in deinem Arbeitsbereich zur Verfügung haben wirst!

Welcher der folgenden Aspekte ist ein Vorteil von Spark DataFrames gegenüber RDDs?

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten