Sottoinsiemi e pulizia di DataFrame in PySpark
Dopo l’ispezione dei dati, spesso è necessario pulirli: in genere significa creare sottoinsiemi, rinominare le colonne, rimuovere le righe duplicate, ecc. La DataFrame API di PySpark fornisce diversi operatori per farlo. In questo esercizio, il tuo compito è creare un sottoinsieme delle colonne 'name', 'sex' e 'date of birth' dal DataFrame people_df, rimuovere eventuali righe duplicate da quel dataset e contare il numero di righe prima e dopo la rimozione dei duplicati.
Ricorda, hai già a disposizione nella tua area di lavoro una SparkSession spark e un DataFrame people_df.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Seleziona le colonne 'name', 'sex' e 'date of birth' da
people_dfe crea il DataFramepeople_df_sub. - Stampa le prime 10 osservazioni del DataFrame
people_df_sub. - Rimuovi le righe duplicate dal DataFrame
people_df_sube crea il DataFramepeople_df_sub_nodup. - Quante righe ci sono prima e dopo la rimozione dei duplicati?
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)
# Print the first 10 observations from people_df_sub
people_df_sub.____(____)
# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()
# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))