ComenzarEmpieza gratis

1.ª parte: crear un DataFrame a partir del archivo CSV

Cada 4 años, aficionados al fútbol de todo el mundo celebran la "Copa Mundial de la FIFA", que parece cambiarlo todo en muchos países. En este ejercicio de 3 partes realizarás un análisis exploratorio de datos (EDA) con el conjunto de datos "FIFA 2018 World Cup Player" utilizando PySpark SQL, que incluye operaciones con el DataFrame, consultas SQL y visualización.

En la primera parte cargarás el conjunto de datos FIFA 2018 World Cup Players (Fifa2018_dataset.csv), que está en formato CSV, en un dataFrame de PySpark e inspeccionarás los datos utilizando operaciones básicas de DataFrame.

Recuerda que ya tienes spark de SparkSession y una variable file_path disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones de ejercicio

  • Crea un DataFrame de PySpark a partir de file_path (que es la ruta del archivo Fifa2018_dataset.csv).
  • Imprime el esquema del DataFrame.
  • Imprime las 10 primeras observaciones.
  • ¿Cuántas filas hay en el DataFrame?

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)

# Check the schema of columns
fifa_df.____()

# Show the first 10 observations
fifa_df.____(____)

# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))
Editar y ejecutar código