RDD à partir d'ensembles de données externes

PySpark peut facilement créer des RDD à partir de fichiers stockés sur des périphériques de stockage externes, tels qu’un système HDFS (Hadoop Distributed File System), des compartiments Amazon S3, etc. Toutefois, la méthode la plus courante pour créer des RDD consiste à utiliser des fichiers stockés dans votre système de fichiers local. Cette méthode prend un chemin de fichier, et le lit sous la forme d’une collection de lignes. Dans cet exercice, vous allez créer un RDD à partir du chemin d'accès (file_path) avec le nom de fichier README.md qui est déjà disponible dans votre espace de travail.

Rappelez-vous qu'un SparkContext sc se trouve déjà dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

Affichez le file_path dans le shell PySpark.
Créez un RDD nommé fileRDD à partir d'un file_path.
Affichez le type du fileRDD créé.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print the file_path
print("The file_path is", ____)

# Create a fileRDD from file_path
fileRDD = sc.____(file_path)

# Check the type of fileRDD
print("The file type of fileRDD is", type(____))

Modifier et exécuter le code