Chargement des données dans le shell PySpark
Dans PySpark, nous exprimons nos calculs par des opérations sur des collections distribuées qui sont automatiquement parallélisées dans l’ensemble du cluster. Dans l'exercice précédent, vous avez vu un exemple de chargement d'une liste sous forme de collections parallélisées et dans cet exercice, vous allez charger les données d'un fichier local dans le shell PySpark.
Rappelez-vous qu’un SparkContext sc
et une variable file_path
(qui est le chemin d'accès au fichier README.md
) se trouvent déjà dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Chargez un fichier texte local
README.md
dans le shell PySpark.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load a local file into PySpark shell
lines = sc.____(file_path)