Filtra e conta
La trasformazione RDD filter() restituisce un nuovo RDD che contiene solo gli elementi che soddisfano una determinata funzione. È utile per filtrare grandi insiemi di dati in base a una parola chiave. In questo esercizio filtrerai le righe che contengono la parola chiave Spark dall'RDD fileRDD, che è composto da righe di testo del file README.md. Poi conterai il numero totale di righe che contengono la parola chiave Spark e infine stamperai le prime 4 righe dell'RDD filtrato.
Ricorda: nel tuo workspace hai già a disposizione uno SparkContext sc, file_path e fileRDD.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Crea la trasformazione
filter()per selezionare le righe che contengono la parola chiaveSpark. - Quante righe in
fileRDD_filtercontengono la parola chiaveSpark? - Stampa le prime quattro righe dell'RDD risultante.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)
# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())
# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
print(line)