Cargando datos de vuelos
En este ejercicio vas a cargar algunos datos de vuelos de una aerolínea desde un archivo CSV. Para garantizar que el ejercicio se ejecute rápidamente, estos datos se han reducido a solo 50 000 registros. Puedes obtener un conjunto de datos más amplio en el mismo formato aquí.
Notas sobre el formato CSV:
- los campos están separados por una coma (este es el separador predeterminado) y
- Los datos que faltan se indican con la cadena «NA».
Diccionario de datos:
mon
— mes (número entero entre 1 y 12)dom
— día del mes (número entero entre 1 y 31)dow
— día de la semana (entero; 1 = lunes y 7 = domingo)carrier
— transportista (código IATA)flight
— número de vueloorg
— aeropuerto de origen (código IATA)mile
— distancia (millas)depart
— hora de salida (hora decimal)duration
— duración prevista (minutos)delay
— retraso (minutos)
pyspark
se ha importado para ti y la sesión se ha inicializado.
Nota: Los datos han sido sometidos a un agresivo proceso de reducción de la muestra.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Lee los datos de un archivo CSV llamado
flights.csv
. Asigna tipos de datos a las columnas automáticamente. Tratar los datos que faltan. - ¿Cuántos registros hay en los datos?
- Echa un vistazo a los cinco primeros registros.
- ¿Qué tipos de datos se han asignado a las columnas? ¿Te parecen correctos?
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)