Carga de CSV en el DataFrame

En el ejercicio anterior viste un método para crear un DataFrame a partir de un RDD. Generalmente, cargar datos desde el archivo CSV es el método más común de creación de DataFrames. En este ejercicio crearás un DataFrame de PySpark a partir del archivo people.csv que ya se te ha proporcionado como file_path y confirmarás que el objeto creado es un DataFrame de PySpark.

Recuerda que ya tienes spark de SparkSession y una variable file_path (la ruta del archivo people.csv) disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

Crea un DataFrame a partir de la variable file_path, que es la ruta del archivo people.csv.
Confirma la salida como DataFrame de PySpark.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))

Editar y ejecutar código