CommencerCommencez gratuitement

Chargement des données dans le shell PySpark

Dans PySpark, nous exprimons nos calculs par des opérations sur des collections distribuées qui sont automatiquement parallélisées dans l’ensemble du cluster. Dans l'exercice précédent, vous avez vu un exemple de chargement d'une liste sous forme de collections parallélisées et dans cet exercice, vous allez charger les données d'un fichier local dans le shell PySpark.

Rappelez-vous qu’un SparkContext sc et une variable file_path (qui est le chemin d'accès au fichier README.md ) se trouvent déjà dans votre espace de travail.

Cet exercice fait partie du cours

<cours>Principes fondamentaux des mégadonnées avec PySpark</cours>
Voir le cours

Instructions de l’exercice

  • Chargez un fichier texte local README.md dans le shell PySpark.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Load a local file into PySpark shell
lines = sc.____(file_path)
Modifier et exécuter le code