Cómo filtrar tu DataFrame
En el ejercicio anterior hiciste subconjuntos con los datos utilizando el operador select()
, que se utiliza principalmente para crear subconjuntos en el DataFrame por columnas. ¿Y si quieres hacer subconjuntos del DataFrame en función de una condición (por ejemplo, seleccionar todas las filas en las que el sexo sea Female)? En este ejercicio filtrarás las filas del DataFrame people_df
en las que "sex" sea femenino y masculino y crearás dos conjuntos de datos diferentes. Por último, contarás el número de filas de cada uno de esos conjuntos de datos.
Recuerda que ya tienes spark
de SparkSession y el DataFrame people_df
disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones del ejercicio
- Filtra el DataFrame
people_df
para seleccionar todas las filas en las que el sexo sea femenino en el DataFramepeople_df_female
. - Filtra el DataFrame
people_df
para seleccionar todas las filas en las que el sexo sea masculino en el DataFramepeople_df_male
. - Cuenta el número de filas de los DataFrames
people_df_female
ypeople_df_male
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Filter people_df to select females
people_df_female = people_df.____(people_df.____ == "female")
# Filter people_df to select males
people_df_male = people_df.____(____ == "____")
# Count the number of rows
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))