Consultas SQL para filtrar la tabla
En el ejercicio anterior ejecutaste una consulta SQL sencilla en un DataFrame. Puedes construir consultas más sofisticadas para obtener el resultado que desees y utilizarlo para análisis posteriores, como la visualización de datos y el machine learning. En este ejercicio utilizaremos la tabla temporal people
que creaste anteriormente, ignoraremos las filas en las que "sex" sea masculino y femenino y crearemos dos DataFrames.
Ten en cuenta que la "solución" distingue entre mayúsculas y minúsculas para los comandos SQL (por ejemplo, solo acepta FROM
, y no from
). La "solución" solo acepta "==", y no "=".
Recuerda que ya tienes spark
de SparkSession y la tabla temporal people
disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Filtra la tabla
people
para seleccionar todas las filas en las que el sexo sea femenino en el DataFramepeople_female_df
. - Filtra la tabla
people
para seleccionar todas las filas en las que el sexo sea masculino en el DataFramepeople_male_df
. - Cuenta el número de filas de los DataFrames
people_female
ypeople_male
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Filter the people table to select female sex
people_female_df = spark.____('SELECT * FROM ____ WHERE sex=="____"')
# Filter the people table DataFrame to select male sex
people_male_df = spark.____('SELECT * ____ people ____ ____=="____"')
# Count the number of rows in both people_df_female and people_male_df DataFrames
print("There are {} rows in the people_female_df and {} rows in the people_male_df DataFrames".format(people_female_df.____(), people_male_df.____()))