CommencerCommencer gratuitement

Chargement des données de vol

Dans cet exercice, vous allez charger des données relatives à des vols aériens à partir d'un fichier CSV. Afin de garantir la rapidité de l'exercice, ces données ont été réduites à seulement 50 000 enregistrements. Vous pouvez obtenir un ensemble de données plus complet dans le même format ici.

Remarques sur le format CSV :

  • Les champs sont séparés par une virgule (séparateur par défaut) et
  • Les données manquantes sont indiquées par la chaîne « NA ».

Dictionnaire de données :

  • mon — mois (nombre entier compris entre 1 et 12)
  • dom — jour du mois (nombre entier compris entre 1 et 31)
  • dow — jour de la semaine (entier ; 1 = lundi et 7 = dimanche)
  • carrier — transporteur (code IATA)
  • flight — numéro de vol
  • org — aéroport d'origine (code IATA)
  • mile — distance (en miles)
  • depart — heure de départ (heure décimale)
  • duration — durée prévue (en minutes)
  • delay — délai (en minutes)

pyspark a été importé pour vous et la session a été initialisée.

Remarque : Les données ont été considérablement sous-échantillonnées.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Lisez les données d'un fichier CSV nommé « flights.csv ». Attribuez automatiquement des types de données aux colonnes. Traitez les données manquantes.
  • Combien d'enregistrements contiennent les données ?
  • Veuillez examiner les cinq premiers enregistrements.
  • Quels types de données ont été attribués aux colonnes ? Est-ce que cela vous semble correct ?

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Modifier et exécuter le code