Filtrare il tuo DataFrame

Nell'esercizio precedente hai creato un sottoinsieme dei dati usando l'operatore select(), che serve principalmente a selezionare colonne del DataFrame. E se volessi sotto-selezionare il DataFrame in base a una condizione (per esempio, selezionare tutte le righe in cui il sesso è Female)? In questo esercizio filtrerai le righe del DataFrame people_df in cui 'sex' è female e male e creerai due insiemi di dati distinti. Infine, conterai il numero di righe in ciascuno di questi insiemi.

Ricorda: nella tua area di lavoro sono già disponibili una SparkSession spark e un DataFrame people_df.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza corso

Istruzioni dell'esercizio

Filtra il DataFrame people_df per selezionare tutte le righe in cui sex è female nel DataFrame people_df_female.
Filtra il DataFrame people_df per selezionare tutte le righe in cui sex è male nel DataFrame people_df_male.
Conta il numero di righe nei DataFrame people_df_female e people_df_male.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Filter people_df to select females 
people_df_female = people_df.____(people_df.____ == "female")

# Filter people_df to select males
people_df_male = people_df.____(____ == "____")

# Count the number of rows 
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))

Modifica ed esegui il codice