Wie füreinander gemacht
R lässt dich Code für Datenanalysen schnell schreiben. Mit ein wenig Sorgfalt kannst du deinen Code auch gut lesbar machen – das bedeutet, dass du ihn auch leicht pflegen kannst. In vielen Fällen ist R außerdem schnell genug bei der Ausführung.
Leider verlangt R, dass alle zu analysierenden Daten im Arbeitsspeicher (RAM) auf einer einzelnen Maschine liegen. Das begrenzt, wie viele Daten du mit R analysieren kannst. Es gibt einige Lösungen für dieses Problem, unter anderem Spark.
Spark ist eine Open-Source-Cluster-Computing-Plattform. Das bedeutet, dass du deine Daten und Berechnungen auf mehrere Maschinen verteilen kannst und so praktisch unbegrenzt viele Daten analysieren kannst. Die beiden Technologien ergänzen sich hervorragend. Wenn du R und Spark zusammen nutzt, kannst du Code schnell schreiben und schnell ausführen!
sparklyr ist ein R-Paket, mit dem du R-Code schreiben kannst, um mit Daten in einem Spark-Cluster zu arbeiten. Es bietet eine dplyr-Schnittstelle – das heißt, du kannst (mehr oder weniger) denselben dplyr-artigen R-Code schreiben, egal ob du mit Daten auf deinem Rechner oder in einem Spark-Cluster arbeitest.
Schrei, wenn du schneller fahren willst!
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten