Daten aus Spark zurückholen

In der Übung „Die Struktur von Tibbles erkunden“ aus Kapitel 1 hast du gesehen, dass Tibbles keine Kopie der Daten speichern. Stattdessen bleiben die Daten in Spark, und das Tibble speichert nur die Details dazu, was es aus Spark abrufen möchte.

Es gibt viele Gründe, warum du deine Daten von Spark nach R holen möchtest. Du hast bereits gesehen, dass beim Drucken ein Teil der Daten von Spark nach R übertragen wird. Du musst deinen Datensatz auch sammeln, wenn du ihn visualisieren willst oder wenn du eine Modellierungstechnik verwenden möchtest, die in Spark nicht verfügbar ist. (R hat schließlich die größte Auswahl an verfügbaren Modellen aller Programmiersprachen.)

Um deine Daten zu sammeln – also von Spark nach R zu verschieben –, rufst du collect() auf.

Diese Übung ist Teil des Kurses

Einführung in Spark mit sparklyr in R

Kurs anzeigen

Anleitung zur Übung

Eine Spark-Verbindung wurde als spark_conn für dich erstellt. Ein Tibble, das mit den in Spark gespeicherten Track-Metadaten verknüpft ist, wurde als track_metadata_tbl vordefiniert.

Filtere die Zeilen von track_metadata_tbl, bei denen artist_familiarity größer als 0.9 ist, und weise die Ergebnisse results zu.
Gib die Klasse von results aus und beachte, dass es sich um ein tbl_lazy handelt (für entfernte Daten).
Sammle deine Ergebnisse und weise sie collected zu.
Gib die Klasse von collected aus und beachte, dass es sich um ein tbl_df handelt (für lokale Daten).

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

results <- track_metadata_tbl %>%
  # Filter where artist familiarity is greater than 0.9
  ___

# Examine the class of the results
___

# Collect your results
collected <- results %>%
  ___

# Examine the class of the collected results
___

Code bearbeiten und ausführen