LoslegenKostenlos loslegen

IDs mit unterschiedlichen Partitionen

Du hast gerade ein ID-Feld zu einem DataFrame hinzugefügt. Schau dir jetzt an, was passiert, wenn du dasselbe mit DataFrames machst, die eine unterschiedliche Anzahl an Partitionen enthalten.

Um die Anzahl der Partitionen zu prüfen, verwende die Methode .rdd.getNumPartitions() auf einem DataFrame.

Die spark-Session und zwei DataFrames, voter_df und voter_df_single, stehen dir in deinem Workspace zur Verfügung. Die Anleitung hilft dir, den Unterschied zwischen den DataFrames zu entdecken. Die Bibliothek pyspark.sql.functions ist unter dem Alias F verfügbar.

Diese Übung ist Teil des Kurses

Datenbereinigung mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Gib die Anzahl der Partitionen für jeden DataFrame aus.
  • Füge jedem DataFrame ein Feld ROW_ID hinzu.
  • Zeige die ersten 10 IDs in jedem DataFrame an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)

# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____

# Show the top 10 IDs in each DataFrame 
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)
Code bearbeiten und ausführen