ComenzarEmpieza gratis

Cargando datos de vuelos

En este ejercicio vas a cargar algunos datos de vuelos de una aerolínea desde un archivo CSV. Para garantizar que el ejercicio se ejecute rápidamente, estos datos se han reducido a solo 50 000 registros. Puedes obtener un conjunto de datos más amplio en el mismo formato aquí.

Notas sobre el formato CSV:

  • los campos están separados por una coma (este es el separador predeterminado) y
  • Los datos que faltan se indican con la cadena «NA».

Diccionario de datos:

  • mon — mes (número entero entre 1 y 12)
  • dom — día del mes (número entero entre 1 y 31)
  • dow — día de la semana (entero; 1 = lunes y 7 = domingo)
  • carrier — transportista (código IATA)
  • flight — número de vuelo
  • org — aeropuerto de origen (código IATA)
  • mile — distancia (millas)
  • depart — hora de salida (hora decimal)
  • duration — duración prevista (minutos)
  • delay — retraso (minutos)

pyspark se ha importado para ti y la sesión se ha inicializado.

Nota: Los datos han sido sometidos a un agresivo proceso de reducción de la muestra.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Lee los datos de un archivo CSV llamado flights.csv. Asigna tipos de datos a las columnas automáticamente. Tratar los datos que faltan.
  • ¿Cuántos registros hay en los datos?
  • Echa un vistazo a los cinco primeros registros.
  • ¿Qué tipos de datos se han asignado a las columnas? ¿Te parecen correctos?

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Editar y ejecutar código