ComenzarEmpieza gratis

Cargar datos de vuelos

En este ejercicio vas a cargar algunos datos de vuelos de aerolíneas desde un archivo CSV. Para que el ejercicio se ejecute rápidamente, estos datos se han recortado a sólo 50.000 registros. Puedes obtener un conjunto de datos más amplio en el mismo formato aquí.

Notas sobre el formato CSV:

  • los campos están separados por una coma (es el separador por defecto) y
  • Los datos que faltan se indican con la cadena "NA".

Diccionario de datos:

  • mon - mes (número entero entre 1 y 12)
  • dom - día del mes (número entero entre 1 y 31)
  • dow - día de la semana (entero; 1 = lunes y 7 = domingo)
  • carrier — carrier (IATA code)
  • flight - número de vuelo
  • org — origin airport (IATA code)
  • mile - distancia (kilómetros)
  • depart - hora de salida (hora decimal)
  • duration - duración prevista (minutos)
  • delay - retraso (minutos)

pyspark se ha importado para ti y se ha inicializado la sesión.

Nota: Los datos se han muestreado agresivamente a la baja.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Lee los datos de un archivo CSV llamado 'vuelos.csv'. Asigna tipos de datos a las columnas automáticamente. Trata los datos que faltan.
  • ¿Cuántos registros hay en los datos?
  • Echa un vistazo a los cinco primeros registros.
  • ¿Qué tipos de datos se han asignado a las columnas? ¿Parecen correctos?

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Editar y ejecutar código