ComenzarEmpieza gratis

2.ª parte: consultas SQL en el DataFrame

El DataFrame fifa_df que hemos creado tiene información adicional sobre tipos de datos y nombres de columnas asociados. Esta información adicional permite a PySpark SQL ejecutar consultas SQL en el DataFrame. Las consultas SQL son concisas y fáciles de ejecutar en comparación con las operaciones de DataFrame. Sin embargo, para aplicar consultas SQL en el DataFrame, tienes que crear una vista temporal del DataFrame en forma de tabla y, a continuación, aplicar consultas SQL en la tabla creada (ejecutar consultas SQL mediante programación).

En la segunda parte crearás una tabla temporal del DataFrame fifa_df y ejecutarás consultas SQL para extraer la columna "Age" de jugadores de Alemania.

Ya tienes spark y fifa_df de SparkContext disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones de ejercicio

  • Crea la tabla temporal fifa_df_table a partir del DataFrame fifa_df.
  • Construye una "consulta" para extraer la columna "Age" de jugadores de Alemania en fifa_df_table.
  • Aplica la "consulta" SQL y crea el nuevo DataFrame fifa_df_germany_age.
  • Calcula la estadística básica del DataFrame creado.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')

# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''

# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)

# Generate basic statistics
fifa_df_germany_age.____().show()
Editar y ejecutar código