Maak een basis-RDD en transformeer deze

Het volume ongestructureerde data (logregels, afbeeldingen, binaire bestanden) groeit explosief, en PySpark is een uitstekende framework om dit soort data via RDD’s te analyseren. In deze oefening in 3 delen schrijf je code die de meest voorkomende woorden uit de Complete Works of William Shakespeare berekent.

Hier zijn de korte stappen voor het schrijven van het woordtelprogramma:

Maak een basis-RDD van het bestand Complete_Shakespeare.txt.
Gebruik een RDD-transformatie om van elk element van de basis-RDD een lange lijst met woorden te maken.
Verwijder stopwoorden uit je data.
Maak een pair RDD waarbij elk element een tupel is van ('w', 1)
Groepeer de elementen van de pair RDD op sleutel (woord) en tel hun waarden op.
Verwissel de sleutels (woord) en waarden (aantallen) zodat de sleutel het aantal is en de waarde het woord.
Sorteer tot slot de RDD in aflopende volgorde en print de 10 meest voorkomende woorden en hun frequenties.

In deze eerste oefening maak je een basis-RDD van het bestand Complete_Shakespeare.txt en transformeer je deze naar een lange lijst met woorden.

Vergeet niet: je hebt al een SparkContext sc beschikbaar in je werkruimte. Een variabele file_path (het pad naar het bestand Complete_Shakespeare.txt) is ook al voor je geladen.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

Maak een RDD met de naam baseRDD die regels inleest vanuit file_path.
Transformeer baseRDD naar een lange lijst met woorden en maak een nieuwe splitRDD.
Tel het totale aantal woorden in splitRDD.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a baseRDD from the file path
baseRDD = sc.____(file_path)

# Split the lines of baseRDD into words
splitRDD = baseRDD.____(lambda x: x.split())

# Count the total number of words
print("Total number of words in splitRDD:", splitRDD.____())

Code bewerken en uitvoeren