Abandonner l'intermédiaire
Vous savez maintenant comment introduire des données dans Spark via pandas
, mais vous vous demandez probablement pourquoi traiter avec pandas
? Ne serait-il pas plus simple de lire un fichier texte directement dans Spark ? Bien sûr que oui !
Heureusement, votre site SparkSession
dispose d'un attribut .read
qui propose plusieurs méthodes pour lire différentes sources de données dans les DataFrame Spark. Vous pouvez ainsi créer un DataFrame à partir d'un fichier .csv, comme vous le feriez avec un DataFrame classique ( pandas
) !
La variable file_path
est une chaîne de caractères contenant le chemin d'accès au fichier airports.csv
. Ce fichier contient des informations sur différents aéroports du monde entier.
Un site SparkSession
nommé spark
est disponible dans votre espace de travail.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
Utilisez la méthode
.read.csv()
pour créer un DataFrame Spark appeléairports
Le premier argument est
file_path
Passez l'argument
header=True
pour que Spark sache qu'il doit prendre les noms de colonnes à partir de la première ligne du fichier.
Imprimez ce DataFrame en appelant
.show()
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"
# Read in the airports data
airports = ____.____.____(____, ____=____)
# Show the data
____.____()