CommencerCommencer gratuitement

Chargement des données des vols

Dans cet exercice, vous allez charger des données de vol d'une compagnie aérienne à partir d'un fichier CSV. Pour que l'exercice se déroule rapidement, ces données ont été réduites à 50 000 enregistrements seulement. Vous pouvez obtenir un ensemble de données plus important dans le même format ici.

Notes sur le format CSV :

  • sont séparés par une virgule (c'est le séparateur par défaut) et les champs
  • les données manquantes sont signalées par la chaîne "NA".

Dictionnaire de données :

  • mon - mois (nombre entier entre 1 et 12)
  • dom - jour du mois (nombre entier entre 1 et 31)
  • dow - jour de la semaine (entier ; 1 = lundi et 7 = dimanche)
  • carrier - transporteur(code IATA)
  • flight - numéro de vol
  • org - aéroport d'origine(code IATA)
  • mile - distance (miles)
  • depart - heure de départ (heure décimale)
  • duration - durée prévue (minutes)
  • delay - délai (minutes)

pyspark a été importé pour vous et la session a été initialisée.

Remarque : Les données ont été fortement sous-échantillonnées.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Lire les données d'un fichier CSV appelé flights.csv. Attribuez automatiquement des types de données aux colonnes. Traiter les données manquantes.
  • Combien d'enregistrements contiennent les données ?
  • Jetez un coup d'œil aux cinq premiers records.
  • Quels types de données ont été attribués aux colonnes ? Ces éléments vous semblent-ils corrects ?

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Modifier et exécuter le code