Vollständige Duplikate

Du hast die Info bekommen, dass die Bike-Sharing-Datenpipeline aktualisiert wurde, um effizienter zu sein – dafür ist es nun wahrscheinlicher, dass Duplikate entstehen. Damit du weiterhin dieselben Skripte für deine wöchentlichen Auswertungen der Fahrstatistiken nutzen kannst, musst du sicherstellen, dass alle Duplikate im Datensatz zuerst entfernt werden.

Wenn mehrere Zeilen eines Data Frames in allen Spalten dieselben Werte haben, sind sie vollständige Duplikate voneinander. Das Entfernen solcher Duplikate ist wichtig, weil mehrfach wiederholte Werte Kennzahlen wie Mittelwert und Median verfälschen können. Jede Fahrt – einschließlich ihrer ride_id – sollte eindeutig sein.

dplyr ist geladen und bike_share_rides ist verfügbar.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung in R</Kurs>

Übungsanweisungen

Ermittle die Gesamtzahl der vollständigen Duplikate in bike_share_rides.
Entferne alle vollständigen Duplikate aus bike_share_rides und speichere den neuen Data Frame als bike_share_rides_unique.
Ermittle die Gesamtzahl der vollständigen Duplikate im neuen Data Frame bike_share_rides_unique.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung in R</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du, einige der häufigsten Probleme mit unsauberen Daten zu beheben. Du konvertierst Datentypen, wendest Wertebereichsgrenzen an, um zukünftige Datenpunkte zu entfernen, und entfernst doppelte Datenpunkte, um Doppelzählungen zu vermeiden.

Exercise 1: Datentyp-Beschränkungen Exercise 2: Häufige Datentypen Exercise 3: Datentypen konvertieren Exercise 4: Strings trimmen Exercise 5: Bereichsbedingungen Exercise 6: Beschränkungen für die Fahrtdauer Exercise 7: Zurück in die Zukunft Exercise 8: Eindeutigkeitsbeschränkungen Exercise 9: Vollständige Duplikate

Aktuelle Übung

Exercise 10: Teilweise Duplikate entfernen Exercise 11: Partielle Duplikate aggregieren

Kategorische und Textdaten gehören durch ihre unstrukturierte Natur oft zu den unordentlichsten Teilen eines Datensatzes. In diesem Kapitel behebst du Inkonsistenzen bei Leerzeichen und Groß-/Kleinschreibung in Kategorienamen, fasst mehrere Kategorien zusammen und formatierst Strings einheitlich um.

Exercise 1: Mitgliedschaft prüfen Exercise 2: Nur für Mitglieder Exercise 3: Kein Mitglied Exercise 4: Probleme mit kategorialen Daten Exercise 5: Inkonsistenzen erkennen Exercise 6: Inkonsistenzen korrigieren Exercise 7: Kategorien zusammenfassen Exercise 8: Textdaten bereinigen Exercise 9: Inkonsistente Textdaten erkennen Exercise 10: Ersetzen und Entfernen Exercise 11: Ungültige Telefonnummern

In diesem Kapitel widmest du dich fortgeschritteneren Problemen der Datenbereinigung, zum Beispiel sicherzustellen, dass Gewichte einheitlich in Kilogramm statt in Pfund angegeben sind. Außerdem erwirbst du wichtige Fähigkeiten, mit denen du prüfen kannst, ob Werte korrekt erfasst wurden und fehlende Werte deine Analysen nicht negativ beeinflussen.

Exercise 1: Einheitlichkeit Exercise 2: Einheitlichkeit von Datumsangaben Exercise 3: Einheitliche Währung Exercise 4: Validierung über Felder hinweg Exercise 5: Summen validieren Exercise 6: Alter validieren Exercise 7: Vollständigkeit Exercise 8: Arten von Fehlwerten Exercise 9: Fehlende Daten visualisieren Exercise 10: Umgang mit fehlenden Daten

Record Linkage ist eine leistungsstarke Technik zum Zusammenführen mehrerer Datensätze, wenn Werte Tippfehler oder unterschiedliche Schreibweisen aufweisen. In diesem Kapitel lernst du, Datensätze zu verknüpfen, indem du die Ähnlichkeit zwischen Strings berechnest — anschließend nutzt du deine neuen Fähigkeiten, um zwei Datensätze mit Restaurantbewertungen zu einem sauberen, zusammengeführten Master-Datensatz zu verbinden.

Exercise 1: Zeichenketten vergleichen Exercise 2: Distanz berechnen Exercise 3: Kleine Distanz, kleiner Unterschied Exercise 4: Tippfehler mit String-Distanz korrigieren Exercise 5: Paare erzeugen und vergleichen Exercise 6: Linken oder joinen?Exercise 7: Pair-Blocking Exercise 8: Paare vergleichen Exercise 9: Bewerten und verknüpfen Exercise 10: Erst bewerten, dann auswählen – oder erst auswählen, dann bewerten?Exercise 11: Alles zusammenführen Exercise 12: Glückwunsch!