Abandono del intermediario
Ahora ya sabes cómo introducir datos en Spark a través de pandas
, pero probablemente te preguntes ¿por qué tratar con pandas
? ¿No sería más fácil leer un archivo de texto directamente en Spark? ¡Claro que sí!
Por suerte, tu SparkSession
tiene un atributo .read
que dispone de varios métodos para leer diferentes fuentes de datos en Spark DataFrames. Con ellos puedes crear un DataFrame a partir de un archivo .csv, ¡igual que con los DataFrame normales de pandas
!
La variable file_path
es una cadena con la ruta al archivo airports.csv
. Este archivo contiene información sobre diferentes aeropuertos de todo el mundo.
En tu espacio de trabajo hay un SparkSession
llamado spark
.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
Utiliza el método
.read.csv()
para crear un DataFrame de Spark llamadoairports
El primer argumento es
file_path
Pasa el argumento
header=True
para que Spark sepa que debe tomar los nombres de las columnas de la primera línea del archivo.
Imprime este DataFrame llamando a
.show()
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"
# Read in the airports data
airports = ____.____.____(____, ____=____)
# Show the data
____.____()