2.ª parte: consultas SQL en el DataFrame
El DataFrame fifa_df
que hemos creado tiene información adicional sobre tipos de datos y nombres de columnas asociados. Esta información adicional permite a PySpark SQL ejecutar consultas SQL en el DataFrame. Las consultas SQL son concisas y fáciles de ejecutar en comparación con las operaciones de DataFrame. Sin embargo, para aplicar consultas SQL en el DataFrame, tienes que crear una vista temporal del DataFrame en forma de tabla y, a continuación, aplicar consultas SQL en la tabla creada (ejecutar consultas SQL mediante programación).
En la segunda parte crearás una tabla temporal del DataFrame fifa_df
y ejecutarás consultas SQL para extraer la columna "Age" de jugadores de Alemania.
Ya tienes spark
y fifa_df
de SparkContext disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Crea la tabla temporal
fifa_df_table
a partir del DataFramefifa_df
. - Construye una "consulta" para extraer la columna "Age" de jugadores de Alemania en
fifa_df_table
. - Aplica la "consulta" SQL y crea el nuevo DataFrame
fifa_df_germany_age
. - Calcula la estadística básica del DataFrame creado.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')
# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''
# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)
# Generate basic statistics
fifa_df_germany_age.____().show()