Sottoinsiemi e pulizia di DataFrame in PySpark

Dopo l’ispezione dei dati, spesso è necessario pulirli: in genere significa creare sottoinsiemi, rinominare le colonne, rimuovere le righe duplicate, ecc. La DataFrame API di PySpark fornisce diversi operatori per farlo. In questo esercizio, il tuo compito è creare un sottoinsieme delle colonne 'name', 'sex' e 'date of birth' dal DataFrame people_df, rimuovere eventuali righe duplicate da quel dataset e contare il numero di righe prima e dopo la rimozione dei duplicati.

Ricorda, hai già a disposizione nella tua area di lavoro una SparkSession spark e un DataFrame people_df.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

Seleziona le colonne 'name', 'sex' e 'date of birth' da people_df e crea il DataFrame people_df_sub.
Stampa le prime 10 osservazioni del DataFrame people_df_sub.
Rimuovi le righe duplicate dal DataFrame people_df_sub e crea il DataFrame people_df_sub_nodup.
Quante righe ci sono prima e dopo la rimozione dei duplicati?

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)

# Print the first 10 observations from people_df_sub
people_df_sub.____(____)

# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()

# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))

Modifica ed esegui il codice