ComenzarEmpieza gratis

Carga de CSV en el DataFrame

En el ejercicio anterior viste un método para crear un DataFrame a partir de un RDD. Generalmente, cargar datos desde el archivo CSV es el método más común de creación de DataFrames. En este ejercicio crearás un DataFrame de PySpark a partir del archivo people.csv que ya se te ha proporcionado como file_path y confirmarás que el objeto creado es un DataFrame de PySpark.

Recuerda que ya tienes spark de SparkSession y una variable file_path (la ruta del archivo people.csv) disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones de ejercicio

  • Crea un DataFrame a partir de la variable file_path, que es la ruta del archivo people.csv.
  • Confirma la salida como DataFrame de PySpark.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))
Editar y ejecutar código