Abandonner l'intermédiaire

Vous savez maintenant comment introduire des données dans Spark via pandas, mais vous vous demandez probablement pourquoi traiter avec pandas? Ne serait-il pas plus simple de lire un fichier texte directement dans Spark ? Bien sûr que oui !

Heureusement, votre site SparkSession dispose d'un attribut .read qui propose plusieurs méthodes pour lire différentes sources de données dans les DataFrame Spark. Vous pouvez ainsi créer un DataFrame à partir d'un fichier .csv, comme vous le feriez avec un DataFrame classique ( pandas ) !

La variable file_path est une chaîne de caractères contenant le chemin d'accès au fichier airports.csv. Ce fichier contient des informations sur différents aéroports du monde entier.

Un site SparkSession nommé spark est disponible dans votre espace de travail.

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

Utilisez la méthode .read.csv() pour créer un DataFrame Spark appelé airports
- Le premier argument est file_path
- Passez l'argument header=True pour que Spark sache qu'il doit prendre les noms de colonnes à partir de la première ligne du fichier.
Imprimez ce DataFrame en appelant .show().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"

# Read in the airports data
airports = ____.____.____(____, ____=____)

# Show the data
____.____()

Modifier et exécuter le code