Den SparkContext untersuchen
In dieser Aufgabe wirst du mit dem SparkContext vertraut gemacht.
Du wirst wahrscheinlich feststellen, dass die Ausführung des Codes länger dauert, als du vielleicht erwartest. Das liegt daran, dass Spark eine sehr umfangreiche Software ist. Der Start dauert länger, als du es vielleicht gewohnt bist. Es kann auch vorkommen, dass einfachere Berechnungen länger dauern als erwartet. Das liegt daran, dass alle Optimierungen, die Spark unter der Haube hat, für komplizierte Operationen mit großen Datensätzen entwickelt wurden. Das bedeutet, dass Spark bei einfachen oder kleinen Problemen schlechter abschneiden kann als andere Lösungen!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
Lerne den SparkContext kennen.
- Rufe
print()fürscauf, um zu überprüfen, ob es in deiner Umgebung einenSparkContextgibt. - Gib mit
print()sc.versionaus, um zu sehen, welche Version von Spark auf deinem Cluster läuft.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Verify SparkContext
print(____)
# Print Spark version
print(____)