Filter et Count

La transformation filter() du RDD renvoie un nouveau RDD contenant uniquement les éléments qui satisfont à une fonction particulière. Elle est utile pour filtrer de grands ensembles de données sur la base d'un mot-clé. Pour cet exercice, vous allez filtrer les lignes contenant le mot-clé Spark du RDD fileRDD, qui se compose de lignes de texte provenant du fichier README.md. Ensuite, vous compterez le nombre total de lignes contenant le mot-clé Spark, et enfin, vous afficherez les 4 premières lignes du RDD filtré.

Rappelez-vous qu’un SparkContext sc, file_path, et fileRDD sont déjà disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

Créez la transformation filter() pour sélectionner les lignes contenant le mot-clé Spark.
Combien de lignes dans fileRDD_filter contiennent le mot-clé Spark ?
Affichez les quatre premières lignes du RDD résultant.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)

Modifier et exécuter le code