LoslegenKostenlos loslegen

Was ist Spark eigentlich?

Spark ist eine Cluster-Computing-Plattform. Mit Spark kannst du Daten und Berechnungen auf Cluster mit mehreren Knoten verteilen (stell dir jeden Knoten als separaten Computer vor). Die Aufteilung deiner Daten macht es einfacher, mit sehr großen Datensätzen zu arbeiten, da jeder Knoten nur mit einer kleinen Datenmenge arbeitet.

Da jeder Knoten seine eigene Teilmenge der Gesamtdaten bearbeitet, führt er auch einen Teil der insgesamt erforderlichen Berechnungen durch, so dass sowohl die Datenverarbeitung als auch die Berechnungen parallel über die Knoten im Cluster erfolgen. Es ist eine Tatsache, dass die parallele Berechnung bestimmte Arten von Programmieraufgaben viel schneller machen kann.

Allerdings steigt mit der Rechenleistung auch die Komplexität.

Um zu entscheiden, ob Spark die beste Lösung für dein Problem ist oder nicht, brauchst du etwas Erfahrung, aber du kannst dir Fragen wie diese stellen:

  • Sind meine Daten zu groß, um sie auf einem einzelnen Computer zu verarbeiten?
  • Kann ich meine Berechnungen leicht parallelisieren?

Willst du gerne mehr über Spark erfahren?

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Interaktive Übung

Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um

Übung starten