ComenzarEmpieza gratis

Abandono del intermediario

Ahora ya sabes cómo introducir datos en Spark a través de pandas, pero probablemente te preguntes ¿por qué tratar con pandas? ¿No sería más fácil leer un archivo de texto directamente en Spark? ¡Claro que sí!

Por suerte, tu SparkSession tiene un atributo .read que dispone de varios métodos para leer diferentes fuentes de datos en Spark DataFrames. Con ellos puedes crear un DataFrame a partir de un archivo .csv, ¡igual que con los DataFrame normales de pandas!

La variable file_path es una cadena con la ruta al archivo airports.csv. Este archivo contiene información sobre diferentes aeropuertos de todo el mundo.

En tu espacio de trabajo hay un SparkSession llamado spark.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Utiliza el método .read.csv() para crear un DataFrame de Spark llamado airports

    • El primer argumento es file_path

    • Pasa el argumento header=True para que Spark sepa que debe tomar los nombres de las columnas de la primera línea del archivo.

  • Imprime este DataFrame llamando a .show().

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"

# Read in the airports data
airports = ____.____.____(____, ____=____)

# Show the data
____.____()
Editar y ejecutar código