Aan de slagGa gratis aan de slag

De SparkContext bekijken

In deze oefening maak je kennis met de SparkContext.

Je zult waarschijnlijk merken dat code langer nodig heeft om uit te voeren dan je gewend bent. Dat komt omdat Spark serieuze software is. Het opstarten kost meer tijd dan je misschien gewend bent. Je zult ook zien dat eenvoudige berekeningen soms langer duren dan verwacht. Dat komt doordat alle optimalisaties onder de motorkap van Spark zijn ontworpen voor complexe bewerkingen met grote gegevenssets. Dat betekent dat Spark voor simpele of kleine problemen zelfs slechter kan presteren dan sommige andere oplossingen!

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Oefeninstructies

Maak kennis met de SparkContext.

  • Roep print() aan op sc om te controleren dat er een SparkContext in je omgeving staat.
  • print() sc.version om te zien welke versie van Spark op je cluster draait.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Verify SparkContext
print(____)

# Print Spark version
print(____)
Code bewerken en uitvoeren