RDD à partir d'ensembles de données externes
PySpark peut facilement créer des RDD à partir de fichiers stockés sur des périphériques de stockage externes, tels qu’un système HDFS (Hadoop Distributed File System), des compartiments Amazon S3, etc. Toutefois, la méthode la plus courante pour créer des RDD consiste à utiliser des fichiers stockés dans votre système de fichiers local. Cette méthode prend un chemin de fichier, et le lit sous la forme d’une collection de lignes. Dans cet exercice, vous allez créer un RDD à partir du chemin d'accès (file_path
) avec le nom de fichier README.md
qui est déjà disponible dans votre espace de travail.
Rappelez-vous qu'un SparkContext sc
se trouve déjà dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Affichez le
file_path
dans le shell PySpark. - Créez un RDD nommé
fileRDD
à partir d'unfile_path
. - Affichez le type du
fileRDD
créé.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the file_path
print("The file_path is", ____)
# Create a fileRDD from file_path
fileRDD = sc.____(file_path)
# Check the type of fileRDD
print("The file type of fileRDD is", type(____))