Maak een basis-RDD en transformeer deze
Het volume ongestructureerde data (logregels, afbeeldingen, binaire bestanden) groeit explosief, en PySpark is een uitstekende framework om dit soort data via RDD’s te analyseren. In deze oefening in 3 delen schrijf je code die de meest voorkomende woorden uit de Complete Works of William Shakespeare berekent.
Hier zijn de korte stappen voor het schrijven van het woordtelprogramma:
- Maak een basis-RDD van het bestand
Complete_Shakespeare.txt. - Gebruik een RDD-transformatie om van elk element van de basis-RDD een lange lijst met woorden te maken.
- Verwijder stopwoorden uit je data.
- Maak een pair RDD waarbij elk element een tupel is van
('w', 1) - Groepeer de elementen van de pair RDD op sleutel (woord) en tel hun waarden op.
- Verwissel de sleutels (woord) en waarden (aantallen) zodat de sleutel het aantal is en de waarde het woord.
- Sorteer tot slot de RDD in aflopende volgorde en print de 10 meest voorkomende woorden en hun frequenties.
In deze eerste oefening maak je een basis-RDD van het bestand Complete_Shakespeare.txt en transformeer je deze naar een lange lijst met woorden.
Vergeet niet: je hebt al een SparkContext sc beschikbaar in je werkruimte. Een variabele file_path (het pad naar het bestand Complete_Shakespeare.txt) is ook al voor je geladen.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Maak een RDD met de naam
baseRDDdie regels inleest vanuitfile_path. - Transformeer
baseRDDnaar een lange lijst met woorden en maak een nieuwesplitRDD. - Tel het totale aantal woorden in
splitRDD.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a baseRDD from the file path
baseRDD = sc.____(file_path)
# Split the lines of baseRDD into words
splitRDD = baseRDD.____(lambda x: x.split())
# Count the total number of words
print("Total number of words in splitRDD:", splitRDD.____())