Chargement des données de vol
Dans cet exercice, vous allez charger des données relatives à des vols aériens à partir d'un fichier CSV. Afin de garantir la rapidité de l'exercice, ces données ont été réduites à seulement 50 000 enregistrements. Vous pouvez obtenir un ensemble de données plus complet dans le même format ici.
Remarques sur le format CSV :
- Les champs sont séparés par une virgule (séparateur par défaut) et
- Les données manquantes sont indiquées par la chaîne « NA ».
Dictionnaire de données :
mon
— mois (nombre entier compris entre 1 et 12)dom
— jour du mois (nombre entier compris entre 1 et 31)dow
— jour de la semaine (entier ; 1 = lundi et 7 = dimanche)carrier
— transporteur (code IATA)flight
— numéro de volorg
— aéroport d'origine (code IATA)mile
— distance (en miles)depart
— heure de départ (heure décimale)duration
— durée prévue (en minutes)delay
— délai (en minutes)
pyspark
a été importé pour vous et la session a été initialisée.
Remarque : Les données ont été considérablement sous-échantillonnées.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Lisez les données d'un fichier CSV nommé «
flights.csv
». Attribuez automatiquement des types de données aux colonnes. Traitez les données manquantes. - Combien d'enregistrements contiennent les données ?
- Veuillez examiner les cinq premiers enregistrements.
- Quels types de données ont été attribués aux colonnes ? Est-ce que cela vous semble correct ?
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)