ID's met verschillende partities
Je hebt zojuist een ID-veld toegevoegd aan een DataFrame. Kijk nu wat er gebeurt als je hetzelfde doet op DataFrames met een verschillend aantal partities.
Om het aantal partities te controleren, gebruik je de methode .rdd.getNumPartitions() op een DataFrame.
De spark-sessie en twee DataFrames, voter_df en voter_df_single, zijn beschikbaar in je workspace. De instructies helpen je het verschil tussen de DataFrames te ontdekken. De bibliotheek pyspark.sql.functions is beschikbaar onder de alias F.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Print het aantal partities van elke DataFrame.
- Voeg een
ROW_ID-veld toe aan elke DataFrame. - Laat de bovenste 10 ID's in elke DataFrame zien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)
# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____
# Show the top 10 IDs in each DataFrame
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)