Cargar datos de vuelos
En este ejercicio vas a cargar algunos datos de vuelos de aerolíneas desde un archivo CSV. Para que el ejercicio se ejecute rápidamente, estos datos se han recortado a sólo 50.000 registros. Puedes obtener un conjunto de datos más amplio en el mismo formato aquí.
Notas sobre el formato CSV:
- los campos están separados por una coma (es el separador por defecto) y
- Los datos que faltan se indican con la cadena "NA".
Diccionario de datos:
mon
- mes (número entero entre 1 y 12)dom
- día del mes (número entero entre 1 y 31)dow
- día de la semana (entero; 1 = lunes y 7 = domingo)carrier
— carrier (IATA code)flight
- número de vueloorg
— origin airport (IATA code)mile
- distancia (kilómetros)depart
- hora de salida (hora decimal)duration
- duración prevista (minutos)delay
- retraso (minutos)
pyspark
se ha importado para ti y se ha inicializado la sesión.
Nota: Los datos se han muestreado agresivamente a la baja.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Lee los datos de un archivo CSV llamado 'vuelos.csv'. Asigna tipos de datos a las columnas automáticamente. Trata los datos que faltan.
- ¿Cuántos registros hay en los datos?
- Echa un vistazo a los cinco primeros registros.
- ¿Qué tipos de datos se han asignado a las columnas? ¿Parecen correctos?
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)