Daten aus Spark zurückholen
In der Übung „Die Struktur von Tibbles erkunden“ aus Kapitel 1 hast du gesehen, dass Tibbles keine Kopie der Daten speichern. Stattdessen bleiben die Daten in Spark, und das Tibble speichert nur die Details dazu, was es aus Spark abrufen möchte.
Es gibt viele Gründe, warum du deine Daten von Spark nach R holen möchtest. Du hast bereits gesehen, dass beim Drucken ein Teil der Daten von Spark nach R übertragen wird. Du musst deinen Datensatz auch sammeln, wenn du ihn visualisieren willst oder wenn du eine Modellierungstechnik verwenden möchtest, die in Spark nicht verfügbar ist. (R hat schließlich die größte Auswahl an verfügbaren Modellen aller Programmiersprachen.)
Um deine Daten zu sammeln – also von Spark nach R zu verschieben –, rufst du collect() auf.
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Eine Spark-Verbindung wurde als spark_conn für dich erstellt. Ein Tibble, das mit den in Spark gespeicherten Track-Metadaten verknüpft ist, wurde als track_metadata_tbl vordefiniert.
- Filtere die Zeilen von
track_metadata_tbl, bei denenartist_familiaritygrößer als 0.9 ist, und weise die Ergebnisseresultszu. - Gib die Klasse von
resultsaus und beachte, dass es sich um eintbl_lazyhandelt (für entfernte Daten). - Sammle deine Ergebnisse und weise sie
collectedzu. - Gib die Klasse von
collectedaus und beachte, dass es sich um eintbl_dfhandelt (für lokale Daten).
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
results <- track_metadata_tbl %>%
# Filter where artist familiarity is greater than 0.9
___
# Examine the class of the results
___
# Collect your results
collected <- results %>%
___
# Examine the class of the collected results
___