ID's met verschillende partities

Je hebt zojuist een ID-veld toegevoegd aan een DataFrame. Kijk nu wat er gebeurt als je hetzelfde doet op DataFrames met een verschillend aantal partities.

Om het aantal partities te controleren, gebruik je de methode .rdd.getNumPartitions() op een DataFrame.

De spark-sessie en twee DataFrames, voter_df en voter_df_single, zijn beschikbaar in je workspace. De instructies helpen je het verschil tussen de DataFrames te ontdekken. De bibliotheek pyspark.sql.functions is beschikbaar onder de alias F.

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Bekijk cursus

Oefeninstructies

Print het aantal partities van elke DataFrame.
Voeg een ROW_ID-veld toe aan elke DataFrame.
Laat de bovenste 10 ID's in elke DataFrame zien.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)

# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____

# Show the top 10 IDs in each DataFrame 
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)

Code bewerken en uitvoeren