Filteren en tellen
De RDD-transformatie filter() retourneert een nieuwe RDD met alleen de elementen die voldoen aan een bepaalde functie. Dit is handig om grote gegevenssets te filteren op basis van een trefwoord. In deze oefening filter je de regels die het trefwoord Spark bevatten uit de RDD fileRDD, die bestaat uit tekstregels uit het bestand README.md. Vervolgens tel je het totale aantal regels met het trefwoord Spark en print je tot slot de eerste 4 regels van de gefilterde RDD.
Onthoud: je hebt al een SparkContext sc, file_path en fileRDD beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Maak een
filter()-transformatie om de regels te selecteren die het trefwoordSparkbevatten. - Hoeveel regels in
fileRDD_filterbevatten het trefwoordSpark? - Print de eerste vier regels van de resulterende RDD.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)
# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())
# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
print(line)