Chargement des données des vols
Dans cet exercice, vous allez charger des données de vol d'une compagnie aérienne à partir d'un fichier CSV. Pour que l'exercice se déroule rapidement, ces données ont été réduites à 50 000 enregistrements seulement. Vous pouvez obtenir un ensemble de données plus important dans le même format ici.
Notes sur le format CSV :
- sont séparés par une virgule (c'est le séparateur par défaut) et les champs
- les données manquantes sont signalées par la chaîne "NA".
Dictionnaire de données :
mon- mois (nombre entier entre 1 et 12)dom- jour du mois (nombre entier entre 1 et 31)dow- jour de la semaine (entier ; 1 = lundi et 7 = dimanche)carrier- transporteur(code IATA)flight- numéro de volorg- aéroport d'origine(code IATA)mile- distance (miles)depart- heure de départ (heure décimale)duration- durée prévue (minutes)delay- délai (minutes)
pyspark a été importé pour vous et la session a été initialisée.
Remarque : Les données ont été fortement sous-échantillonnées.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Lire les données d'un fichier CSV appelé
flights.csv. Attribuez automatiquement des types de données aux colonnes. Traiter les données manquantes. - Combien d'enregistrements contiennent les données ?
- Jetez un coup d'œil aux cinq premiers records.
- Quels types de données ont été attribués aux colonnes ? Ces éléments vous semblent-ils corrects ?
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)