Filter et Count
La transformation filter()
du RDD renvoie un nouveau RDD contenant uniquement les éléments qui satisfont à une fonction particulière. Elle est utile pour filtrer de grands ensembles de données sur la base d'un mot-clé. Pour cet exercice, vous allez filtrer les lignes contenant le mot-clé Spark
du RDD fileRDD
, qui se compose de lignes de texte provenant du fichier README.md
. Ensuite, vous compterez le nombre total de lignes contenant le mot-clé Spark
, et enfin, vous afficherez les 4 premières lignes du RDD filtré.
Rappelez-vous qu’un SparkContext sc
, file_path
, et fileRDD
sont déjà disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Créez la transformation
filter()
pour sélectionner les lignes contenant le mot-cléSpark
. - Combien de lignes dans
fileRDD_filter
contiennent le mot-cléSpark
? - Affichez les quatre premières lignes du RDD résultant.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)
# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())
# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
print(line)