Chargement des données dans le shell PySpark

Dans PySpark, nous exprimons nos calculs par des opérations sur des collections distribuées qui sont automatiquement parallélisées dans l’ensemble du cluster. Dans l'exercice précédent, vous avez vu un exemple de chargement d'une liste sous forme de collections parallélisées et dans cet exercice, vous allez charger les données d'un fichier local dans le shell PySpark.

Rappelez-vous qu’un SparkContext sc et une variable file_path (qui est le chemin d'accès au fichier README.md ) se trouvent déjà dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

Chargez un fichier texte local README.md dans le shell PySpark.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load a local file into PySpark shell
lines = sc.____(file_path)

Modifier et exécuter le code