Cargando datos de vuelos

En este ejercicio vas a cargar algunos datos de vuelos de una aerolínea desde un archivo CSV. Para garantizar que el ejercicio se ejecute rápidamente, estos datos se han reducido a solo 50 000 registros. Puedes obtener un conjunto de datos más amplio en el mismo formato aquí.

Notas sobre el formato CSV:

los campos están separados por una coma (este es el separador predeterminado) y
Los datos que faltan se indican con la cadena «NA».

Diccionario de datos:

mon — mes (número entero entre 1 y 12)
dom — día del mes (número entero entre 1 y 31)
dow — día de la semana (entero; 1 = lunes y 7 = domingo)
carrier — transportista (código IATA)
flight — número de vuelo
org — aeropuerto de origen (código IATA)
mile — distancia (millas)
depart — hora de salida (hora decimal)
duration — duración prevista (minutos)
delay — retraso (minutos)

pyspark se ha importado para ti y la sesión se ha inicializado.

Nota: Los datos han sido sometidos a un agresivo proceso de reducción de la muestra.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

Lee los datos de un archivo CSV llamado flights.csv. Asigna tipos de datos a las columnas automáticamente. Tratar los datos que faltan.
¿Cuántos registros hay en los datos?
Echa un vistazo a los cinco primeros registros.
¿Qué tipos de datos se han asignado a las columnas? ¿Te parecen correctos?

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)

Editar y ejecutar código