1.ª parte: crear un DataFrame a partir del archivo CSV
Cada 4 años, aficionados al fútbol de todo el mundo celebran la "Copa Mundial de la FIFA", que parece cambiarlo todo en muchos países. En este ejercicio de 3 partes realizarás un análisis exploratorio de datos (EDA) con el conjunto de datos "FIFA 2018 World Cup Player" utilizando PySpark SQL, que incluye operaciones con el DataFrame, consultas SQL y visualización.
En la primera parte cargarás el conjunto de datos FIFA 2018 World Cup Players (Fifa2018_dataset.csv
), que está en formato CSV, en un dataFrame de PySpark e inspeccionarás los datos utilizando operaciones básicas de DataFrame.
Recuerda que ya tienes spark
de SparkSession y una variable file_path
disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Crea un DataFrame de PySpark a partir de
file_path
(que es la ruta del archivoFifa2018_dataset.csv
). - Imprime el esquema del DataFrame.
- Imprime las 10 primeras observaciones.
- ¿Cuántas filas hay en el DataFrame?
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)
# Check the schema of columns
fifa_df.____()
# Show the first 10 observations
fifa_df.____(____)
# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))