IDs mit verschiedenen Partitionen
Du hast soeben ein ID-Feld zu einem DataFrame hinzugefügt. Schauen wir uns nun an, was passiert, wenn du das Gleiche mit DataFrames machst, die eine andere Anzahl von Partitionen enthalten.
Um die Anzahl der Partitionen zu überprüfen, verwende die Methode .rdd.getNumPartitions()
für einen DataFrame.
Die Sitzung spark
und zwei DataFrames, voter_df
und voter_df_single
, sind in deinem Arbeitsbereich verfügbar. Die Anleitung wird dir helfen, den Unterschied zwischen den DataFrames zu erkennen. Die Bibliothek pyspark.sql.functions
ist unter dem Alias F
verfügbar.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Gib die Anzahl der Partitionen in jedem DataFrame aus.
- Füge ein
ROW_ID
Feld zu jedem DataFrame hinzu. - Zeige die 10 wichtigsten IDs in jedem DataFrame.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)
# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____
# Show the top 10 IDs in each DataFrame
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)