Den SparkContext untersuchen
In dieser Aufgabe wirst du mit dem SparkContext vertraut gemacht.
Du wirst wahrscheinlich feststellen, dass die Ausführung des Codes länger dauert, als du vielleicht erwartest. Das liegt daran, dass Spark eine sehr umfangreiche Software ist. Der Start dauert länger, als du es vielleicht gewohnt bist. Es kann auch vorkommen, dass einfachere Berechnungen länger dauern als erwartet. Das liegt daran, dass alle Optimierungen, die Spark unter der Haube hat, für komplizierte Operationen mit großen Datensätzen entwickelt wurden. Das bedeutet, dass Spark bei einfachen oder kleinen Problemen schlechter abschneiden kann als andere Lösungen!
Diese Übung ist Teil des Kurses
<Kurs>Einführung in PySpark</Kurs>Übungsanweisungen
Lerne den SparkContext kennen.
- Rufe
print()fürscauf, um zu überprüfen, ob es in deiner Umgebung einenSparkContextgibt. - Gib mit
print()sc.versionaus, um zu sehen, welche Version von Spark auf deinem Cluster läuft.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Verify SparkContext
print(____)
# Print Spark version
print(____)