Filteren en tellen

De RDD-transformatie filter() retourneert een nieuwe RDD met alleen de elementen die voldoen aan een bepaalde functie. Dit is handig om grote gegevenssets te filteren op basis van een trefwoord. In deze oefening filter je de regels die het trefwoord Spark bevatten uit de RDD fileRDD, die bestaat uit tekstregels uit het bestand README.md. Vervolgens tel je het totale aantal regels met het trefwoord Spark en print je tot slot de eerste 4 regels van de gefilterde RDD.

Onthoud: je hebt al een SparkContext sc, file_path en fileRDD beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

Maak een filter()-transformatie om de regels te selecteren die het trefwoord Spark bevatten.
Hoeveel regels in fileRDD_filter bevatten het trefwoord Spark?
Print de eerste vier regels van de resulterende RDD.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)

Code bewerken en uitvoeren