LoslegenKostenlos starten

Alles zusammenführen I

Du hast dir ein solides Fundament in PySpark aufgebaut, die Kernkomponenten erkundet und praktische Szenarien mit Spark SQL, DataFrames und fortgeschrittenen Operationen durchgearbeitet. Jetzt ist es Zeit, all das Gelernte zusammenzuführen. In den nächsten zwei Übungen erstellst du eine SparkSession und ein DataFrame, wendest Caching für diesen DataFrame an, führst Analysen durch und erklärst das Ergebnis!

Diese Übung ist Teil des Kurses

<Kurs>Einführung in PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Importiere SparkSession aus pyspark.sql.
  • Erstelle eine neue SparkSession namens final_spark mit SparkSession.builder.getOrCreate().
  • Gib my_spark in der Konsole aus, um zu prüfen, dass es eine SparkSession ist.
  • Erstelle einen neuen DataFrame anhand eines vorab geladenen Schemata und einer Spaltendefinition.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import SparkSession from pyspark.sql
from ____ import ____

# Create my_spark
my_spark = SparkSession.builder.appName(____).____

# Print my_spark
____

# Load dataset into a DataFrame
df = ____(data, schema=columns)

df.show()
Code bearbeiten und ausführen