Chargement des données des vols

Dans cet exercice, vous allez charger des données de vol d'une compagnie aérienne à partir d'un fichier CSV. Pour que l'exercice se déroule rapidement, ces données ont été réduites à 50 000 enregistrements seulement. Vous pouvez obtenir un ensemble de données plus important dans le même format ici.

Notes sur le format CSV :

sont séparés par une virgule (c'est le séparateur par défaut) et les champs
les données manquantes sont signalées par la chaîne "NA".

Dictionnaire de données :

mon - mois (nombre entier entre 1 et 12)
dom - jour du mois (nombre entier entre 1 et 31)
dow - jour de la semaine (entier ; 1 = lundi et 7 = dimanche)
carrier - transporteur(code IATA)
flight - numéro de vol
org - aéroport d'origine(code IATA)
mile - distance (miles)
depart - heure de départ (heure décimale)
duration - durée prévue (minutes)
delay - délai (minutes)

pyspark a été importé pour vous et la session a été initialisée.

Remarque : Les données ont été fortement sous-échantillonnées.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

Lire les données d'un fichier CSV appelé flights.csv. Attribuez automatiquement des types de données aux colonnes. Traiter les données manquantes.
Combien d'enregistrements contiennent les données ?
Jetez un coup d'œil aux cinq premiers records.
Quels types de données ont été attribués aux colonnes ? Ces éléments vous semblent-ils corrects ?

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)

Modifier et exécuter le code