Filter et Count
La transformation filter() du RDD renvoie un nouveau RDD contenant uniquement les éléments qui satisfont à une fonction particulière. Elle est utile pour filtrer de grands ensembles de données sur la base d'un mot-clé. Pour cet exercice, vous allez filtrer les lignes contenant le mot-clé Spark du RDD fileRDD, qui se compose de lignes de texte provenant du fichier README.md. Ensuite, vous compterez le nombre total de lignes contenant le mot-clé Spark, et enfin, vous afficherez les 4 premières lignes du RDD filtré.
Rappelez-vous qu’un SparkContext sc, file_path, et fileRDD sont déjà disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Créez la transformation
filter()pour sélectionner les lignes contenant le mot-cléSpark. - Combien de lignes dans
fileRDD_filtercontiennent le mot-cléSpark? - Affichez les quatre premières lignes du RDD résultant.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)
# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())
# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
print(line)