DataFrames verwenden
Die zentrale Datenstruktur von Spark ist das Resilient Distributed Dataset (RDD). Dies ist ein Low-Level-Objekt, das es Spark ermöglicht, seine Magie zu entfalten, indem es die Daten auf mehrere Knoten im Cluster verteilt. Allerdings ist es schwierig, direkt mit RDDs zu arbeiten. Deshalb wirst du in diesem Kurs die Abstraktion „Spark DataFrame“ verwenden, die auf RDDs aufbaut.
Der Spark DataFrame wurde so konzipiert, dass er sich ähnlich verhält wie eine SQL-Tabelle (eine Tabelle mit Variablen in den Spalten und Beobachtungen in den Zeilen). Sie sind nicht nur leichter zu verstehen, sondern DataFrames sind auch besser für komplizierte Operationen optimiert als RDDs.
Wenn man anfängt, Spalten und Zeilen von Daten zu verändern und zu kombinieren, gibt es viele Wege, um zum gleichen Ergebnis zu kommen, aber einige dauern oft viel länger als andere. Bei der Verwendung von RDDs muss der Data Scientist herausfinden, wie er die Abfrage optimieren kann, aber die DataFrame-Implementierung hat einen Großteil dieser Optimierung bereits integriert!
Um mit Spark DataFrames arbeiten zu können, musst du zunächst ein SparkSession
-Objekt aus deinem SparkContext
erstellen. Du kannst dir den SparkContext
als deine Verbindung zum Cluster vorstellen und die SparkSession
als deine Schnittstelle zu dieser Verbindung.
Vergiss nicht, dass du für den Rest des Kurses eine SparkSession
mit dem Namen spark
in deinem Arbeitsbereich zur Verfügung haben wirst!
Welcher der folgenden Aspekte ist ein Vorteil von Spark DataFrames gegenüber RDDs?
Diese Übung ist Teil des Kurses
Einführung in PySpark
Interaktive Übung
Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um
