Aan de slagBegin gratis

Filteren en tellen

De RDD-transformatie filter() retourneert een nieuwe RDD met alleen de elementen die voldoen aan een bepaalde functie. Dit is handig om grote gegevenssets te filteren op basis van een trefwoord. In deze oefening filter je de regels die het trefwoord Spark bevatten uit de RDD fileRDD, die bestaat uit tekstregels uit het bestand README.md. Vervolgens tel je het totale aantal regels met het trefwoord Spark en print je tot slot de eerste 4 regels van de gefilterde RDD.

Onthoud: je hebt al een SparkContext sc, file_path en fileRDD beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Bekijk cursus

Oefeninstructies

  • Maak een filter()-transformatie om de regels te selecteren die het trefwoord Spark bevatten.
  • Hoeveel regels in fileRDD_filter bevatten het trefwoord Spark?
  • Print de eerste vier regels van de resulterende RDD.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)
Code bewerken en uitvoeren