IniziaInizia gratis

Filtra e conta

La trasformazione RDD filter() restituisce un nuovo RDD che contiene solo gli elementi che soddisfano una determinata funzione. È utile per filtrare grandi insiemi di dati in base a una parola chiave. In questo esercizio filtrerai le righe che contengono la parola chiave Spark dall'RDD fileRDD, che è composto da righe di testo del file README.md. Poi conterai il numero totale di righe che contengono la parola chiave Spark e infine stamperai le prime 4 righe dell'RDD filtrato.

Ricorda: nel tuo workspace hai già a disposizione uno SparkContext sc, file_path e fileRDD.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea la trasformazione filter() per selezionare le righe che contengono la parola chiave Spark.
  • Quante righe in fileRDD_filter contengono la parola chiave Spark?
  • Stampa le prime quattro righe dell'RDD risultante.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)
Modifica ed esegui il codice