LoslegenKostenlos loslegen

Alles zusammenführen I

Du hast ein solides Fundament in PySpark aufgebaut, seine Kernkomponenten erkundet und praktische Szenarien mit Spark SQL, DataFrames und fortgeschrittenen Operationen durchgespielt. Jetzt ist es Zeit, alles zusammenzuführen. In den nächsten zwei Übungen erstellst du eine SparkSession und ein DataFrame, cächst dieses DataFrame, führst Analysen durch und erklärst das Ergebnis!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere SparkSession aus pyspark.sql.
  • Erstelle eine neue SparkSession namens final_spark mit SparkSession.builder.getOrCreate().
  • Gib my_spark auf der Konsole aus, um zu prüfen, dass es eine SparkSession ist.
  • Erstelle ein neues DataFrame aus einem vorab geladenen Schema und einer Spaltendefinition.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import SparkSession from pyspark.sql
from ____ import ____

# Create my_spark
my_spark = SparkSession.builder.appName(____).____

# Print my_spark
____

# Load dataset into a DataFrame
df = ____(data, schema=columns)

df.show()
Code bearbeiten und ausführen