CommencerCommencer gratuitement

Filter et Count

La transformation filter() du RDD renvoie un nouveau RDD contenant uniquement les éléments qui satisfont à une fonction particulière. Elle est utile pour filtrer de grands ensembles de données sur la base d'un mot-clé. Pour cet exercice, vous allez filtrer les lignes contenant le mot-clé Spark du RDD fileRDD, qui se compose de lignes de texte provenant du fichier README.md. Ensuite, vous compterez le nombre total de lignes contenant le mot-clé Spark, et enfin, vous afficherez les 4 premières lignes du RDD filtré.

Rappelez-vous qu’un SparkContext sc, file_path, et fileRDD sont déjà disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

  • Créez la transformation filter() pour sélectionner les lignes contenant le mot-clé Spark.
  • Combien de lignes dans fileRDD_filter contiennent le mot-clé Spark ?
  • Affichez les quatre premières lignes du RDD résultant.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)
Modifier et exécuter le code