Eindeutige Zeilen auswählen
Wenn du eine kategoriale Variable als Faktor gespeichert hast, ist es oft hilfreich zu wissen, welche einzelnen Kategorien es gibt; dafür verwendest du die Funktion levels(). Für ein Tibble ist das allgemeinere Konzept, Zeilen mit eindeutigem Inhalt zu finden. In Anlehnung an die Terminologie aus SQL geschieht das mit der Funktion distinct(). Du kannst sie direkt auf deinen Datensatz anwenden und so eindeutige Kombinationen eines bestimmten Sets von Spalten ermitteln. Um zum Beispiel die eindeutigen Kombinationen der Werte in den Spalten x, y und z zu finden, würdest du Folgendes schreiben.
a_tibble %>%
distinct(x, y, z)
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Eine Spark-Verbindung wurde bereits als spark_conn erstellt. Ein Tibble mit den in Spark gespeicherten Track-Metadaten wurde als track_metadata_tbl vordefiniert.
- Ermittle die unterschiedlichen Werte der Spalte
artist_nameaustrack_metadata_tbl.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Only return rows with distinct artist_name
___