Chargement des données de vol

Dans cet exercice, vous allez charger des données relatives à des vols aériens à partir d'un fichier CSV. Afin de garantir la rapidité de l'exercice, ces données ont été réduites à seulement 50 000 enregistrements. Vous pouvez obtenir un ensemble de données plus complet dans le même format ici.

Remarques sur le format CSV :

Les champs sont séparés par une virgule (séparateur par défaut) et
Les données manquantes sont indiquées par la chaîne « NA ».

Dictionnaire de données :

mon — mois (nombre entier compris entre 1 et 12)
dom — jour du mois (nombre entier compris entre 1 et 31)
dow — jour de la semaine (entier ; 1 = lundi et 7 = dimanche)
carrier — transporteur (code IATA)
flight — numéro de vol
org — aéroport d'origine (code IATA)
mile — distance (en miles)
depart — heure de départ (heure décimale)
duration — durée prévue (en minutes)
delay — délai (en minutes)

pyspark a été importé pour vous et la session a été initialisée.

Remarque : Les données ont été considérablement sous-échantillonnées.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

Lisez les données d'un fichier CSV nommé « flights.csv ». Attribuez automatiquement des types de données aux colonnes. Traitez les données manquantes.
Combien d'enregistrements contiennent les données ?
Veuillez examiner les cinq premiers enregistrements.
Quels types de données ont été attribués aux colonnes ? Est-ce que cela vous semble correct ?

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)

Modifier et exécuter le code