Filtrare il tuo DataFrame
Nell'esercizio precedente hai creato un sottoinsieme dei dati usando l'operatore select(), che serve principalmente a selezionare colonne del DataFrame. E se volessi sotto-selezionare il DataFrame in base a una condizione (per esempio, selezionare tutte le righe in cui il sesso è Female)? In questo esercizio filtrerai le righe del DataFrame people_df in cui 'sex' è female e male e creerai due insiemi di dati distinti. Infine, conterai il numero di righe in ciascuno di questi insiemi.
Ricorda: nella tua area di lavoro sono già disponibili una SparkSession spark e un DataFrame people_df.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Filtra il DataFrame
people_dfper selezionare tutte le righe in cui sex è female nel DataFramepeople_df_female. - Filtra il DataFrame
people_dfper selezionare tutte le righe in cui sex è male nel DataFramepeople_df_male. - Conta il numero di righe nei DataFrame
people_df_femaleepeople_df_male.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Filter people_df to select females
people_df_female = people_df.____(people_df.____ == "female")
# Filter people_df to select males
people_df_male = people_df.____(____ == "____")
# Count the number of rows
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))