De SparkContext bekijken
In deze oefening maak je kennis met de SparkContext.
Je zult waarschijnlijk merken dat code langer nodig heeft om uit te voeren dan je gewend bent. Dat komt omdat Spark serieuze software is. Het opstarten kost meer tijd dan je misschien gewend bent. Je zult ook zien dat eenvoudige berekeningen soms langer duren dan verwacht. Dat komt doordat alle optimalisaties onder de motorkap van Spark zijn ontworpen voor complexe bewerkingen met grote gegevenssets. Dat betekent dat Spark voor simpele of kleine problemen zelfs slechter kan presteren dan sommige andere oplossingen!
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
Maak kennis met de SparkContext.
- Roep
print()aan opscom te controleren dat er eenSparkContextin je omgeving staat. print()sc.versionom te zien welke versie van Spark op je cluster draait.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Verify SparkContext
print(____)
# Print Spark version
print(____)