Eindeutige Zeilen auswählen

Wenn du eine kategoriale Variable als Faktor gespeichert hast, ist es oft hilfreich zu wissen, welche einzelnen Kategorien es gibt; dafür verwendest du die Funktion levels(). Für ein Tibble ist das allgemeinere Konzept, Zeilen mit eindeutigem Inhalt zu finden. In Anlehnung an die Terminologie aus SQL geschieht das mit der Funktion distinct(). Du kannst sie direkt auf deinen Datensatz anwenden und so eindeutige Kombinationen eines bestimmten Sets von Spalten ermitteln. Um zum Beispiel die eindeutigen Kombinationen der Werte in den Spalten x, y und z zu finden, würdest du Folgendes schreiben.

a_tibble %>%
  distinct(x, y, z)

Diese Übung ist Teil des Kurses

Einführung in Spark mit sparklyr in R

Kurs anzeigen

Anleitung zur Übung

Eine Spark-Verbindung wurde bereits als spark_conn erstellt. Ein Tibble mit den in Spark gespeicherten Track-Metadaten wurde als track_metadata_tbl vordefiniert.

Ermittle die unterschiedlichen Werte der Spalte artist_name aus track_metadata_tbl.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Only return rows with distinct artist_name
  ___

Code bearbeiten und ausführen