Cómo filtrar tu DataFrame

En el ejercicio anterior hiciste subconjuntos con los datos utilizando el operador select(), que se utiliza principalmente para crear subconjuntos en el DataFrame por columnas. ¿Y si quieres hacer subconjuntos del DataFrame en función de una condición (por ejemplo, seleccionar todas las filas en las que el sexo sea Female)? En este ejercicio filtrarás las filas del DataFrame people_df en las que "sex" sea femenino y masculino y crearás dos conjuntos de datos diferentes. Por último, contarás el número de filas de cada uno de esos conjuntos de datos.

Recuerda que ya tienes spark de SparkSession y el DataFrame people_df disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

Filtra el DataFrame people_df para seleccionar todas las filas en las que el sexo sea femenino en el DataFrame people_df_female.
Filtra el DataFrame people_df para seleccionar todas las filas en las que el sexo sea masculino en el DataFrame people_df_male.
Cuenta el número de filas de los DataFrames people_df_female y people_df_male.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Filter people_df to select females 
people_df_female = people_df.____(people_df.____ == "female")

# Filter people_df to select males
people_df_male = people_df.____(____ == "____")

# Count the number of rows 
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))

Editar y ejecutar código