ComenzarEmpieza gratis

Consultas SQL para filtrar la tabla

En el ejercicio anterior ejecutaste una consulta SQL sencilla en un DataFrame. Puedes construir consultas más sofisticadas para obtener el resultado que desees y utilizarlo para análisis posteriores, como la visualización de datos y el machine learning. En este ejercicio utilizaremos la tabla temporal people que creaste anteriormente, ignoraremos las filas en las que "sex" sea masculino y femenino y crearemos dos DataFrames.

Ten en cuenta que la "solución" distingue entre mayúsculas y minúsculas para los comandos SQL (por ejemplo, solo acepta FROM, y no from). La "solución" solo acepta "==", y no "=".

Recuerda que ya tienes spark de SparkSession y la tabla temporal people disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones de ejercicio

  • Filtra la tabla people para seleccionar todas las filas en las que el sexo sea femenino en el DataFrame people_female_df.
  • Filtra la tabla people para seleccionar todas las filas en las que el sexo sea masculino en el DataFrame people_male_df.
  • Cuenta el número de filas de los DataFrames people_female y people_male.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Filter the people table to select female sex 
people_female_df = spark.____('SELECT * FROM ____ WHERE sex=="____"')

# Filter the people table DataFrame to select male sex
people_male_df = spark.____('SELECT * ____ people ____ ____=="____"')

# Count the number of rows in both people_df_female and people_male_df DataFrames
print("There are {} rows in the people_female_df and {} rows in the people_male_df DataFrames".format(people_female_df.____(), people_male_df.____()))
Editar y ejecutar código