Den SparkContext untersuchen
In dieser Aufgabe wirst du mit dem SparkContext
vertraut gemacht.
Du wirst wahrscheinlich feststellen, dass die Ausführung des Codes länger dauert, als du vielleicht erwartest. Das liegt daran, dass Spark eine sehr umfangreiche Software ist. Der Start dauert länger, als du es vielleicht gewohnt bist. Es kann auch vorkommen, dass einfachere Berechnungen länger dauern als erwartet. Das liegt daran, dass alle Optimierungen, die Spark unter der Haube hat, für komplizierte Operationen mit großen Datensätzen entwickelt wurden. Das bedeutet, dass Spark bei einfachen oder kleinen Problemen schlechter abschneiden kann als andere Lösungen!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
Lerne den SparkContext
kennen.
- Rufe
print()
fürsc
auf, um zu überprüfen, ob es in deiner Umgebung einenSparkContext
gibt. - Gib mit
print()
sc.version
aus, um zu sehen, welche Version von Spark auf deinem Cluster läuft.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Verify SparkContext
print(____)
# Print Spark version
print(____)