Carga de CSV en el DataFrame
En el ejercicio anterior viste un método para crear un DataFrame a partir de un RDD. Generalmente, cargar datos desde el archivo CSV es el método más común de creación de DataFrames. En este ejercicio crearás un DataFrame de PySpark a partir del archivo people.csv
que ya se te ha proporcionado como file_path
y confirmarás que el objeto creado es un DataFrame de PySpark.
Recuerda que ya tienes spark
de SparkSession y una variable file_path
(la ruta del archivo people.csv
) disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Crea un DataFrame a partir de la variable
file_path
, que es la ruta del archivopeople.csv
. - Confirma la salida como DataFrame de PySpark.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)
# Check the type of people_df
print("The type of people_df is", ____(people_df))