IDs mit verschiedenen Partitionen

Du hast soeben ein ID-Feld zu einem DataFrame hinzugefügt. Schauen wir uns nun an, was passiert, wenn du das Gleiche mit DataFrames machst, die eine andere Anzahl von Partitionen enthalten.

Um die Anzahl der Partitionen zu überprüfen, verwende die Methode .rdd.getNumPartitions() für einen DataFrame.

Die Sitzung spark und zwei DataFrames, voter_df und voter_df_single, sind in deinem Arbeitsbereich verfügbar. Die Anleitung wird dir helfen, den Unterschied zwischen den DataFrames zu erkennen. Die Bibliothek pyspark.sql.functions ist unter dem Alias F verfügbar.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

Gib die Anzahl der Partitionen in jedem DataFrame aus.
Füge ein ROW_ID Feld zu jedem DataFrame hinzu.
Zeige die 10 wichtigsten IDs in jedem DataFrame.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)

# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____

# Show the top 10 IDs in each DataFrame 
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)

Code bearbeiten und ausführen