Behandlung von Duplikaten

In der letzten Übung konntest du feststellen, dass das neue Update, welches die Daten für ride_sharing bereitstellt, einen Fehler enthält, der sowohl vollständige als auch unvollständige doppelte Zeilen für einige Werte der Spalte ride_id erzeugt, mit gelegentlich abweichenden Werten für die Spalten user_birth_year und duration.

In dieser Übung behandelst du die doppelten Zeilen, indem du zuerst die vollständigen Duplikate löschst und dann die unvollständigen doppelten Zeilen zu einer einzigen zusammenfügst, wobei du die durchschnittliche Fahrtdauer (duration) und den kleinsten Wert von user_birth_year für jede Gruppe von unvollständigen doppelten Zeilen beibehältst.

Diese Übung ist Teil des Kurses

Datenbereinigung in Python

Anleitung zur Übung

Verwirf vollständige Duplikate in ride_sharing und speichere die Ergebnisse in ride_dup.
Erstelle das Dictionary statistics, das die minimale Aggregation für user_birth_year und die durchschnittliche Aggregation für duration enthält.
Entferne unvollständige Duplikate, indem du nach ride_id gruppierst und die Aggregation in statistics anwendest.
Ermittle erneut Duplikate und führe die Anweisung assert aus, um die Deduplizierung zu überprüfen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Drop complete duplicates from ride_sharing
ride_dup = ____.____()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': ____, 'duration': ____}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.____('____').____(____).reset_index()

# Find duplicated values again
duplicates = ride_unique.____(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Datenbereinigung in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel erfährst du, wie du einige der häufigsten Probleme mit unsauberen Daten lösen kannst. Du konvertierst Datentypen, wendest Bereichsbeschränkungen an, um Datenpunkte mit einem Datum in der Zukunft zu entfernen, und entfernst doppelte Datenpunkte, um Doppelzählungen zu vermeiden.

Exercise 1: Datentypbeschränkungen Exercise 2: Häufige Datentypen Exercise 3: Numerische Daten oder ... ?Exercise 4: Summieren von Zeichenketten und Verketten von Zahlen Exercise 5: Einschränkungen des Datenbereichs Exercise 6: Reifengrößenbeschränkung Exercise 7: Zurück in die Zukunft Exercise 8: Eindeutigkeitsbeschränkungen Exercise 9: Wie groß ist deine Teilmenge?Exercise 10: Duplikate ermitteln Exercise 11: Behandlung von Duplikaten

Aktuelle Übung

Kategoriale Daten und Textdaten gehören oft zu den unübersichtlichsten Teilen eines Datensatzes, weil sie unstrukturiert sind. In diesem Kapitel erfährst du, wie du Unstimmigkeiten bei Leerzeichen und Großschreibung in Kategoriekennzeichnungen behebst, mehrere Kategorien zu einer zusammenfasst und Zeichenketten neu formatierst, um die Konsistenz zu gewährleisten.

Exercise 1: Einschränkung des Wertebereichs Exercise 2: Nur für Mitglieder Exercise 3: (In-)Konsistenzen ermitteln Exercise 4: Kategoriale Variablen Exercise 5: Fehlerkategorien Exercise 6: Inkonsistente Kategorien Exercise 7: Kategorien neu zuordnen Exercise 8: Textdaten bereinigen Exercise 9: Titel entfernen und Namen erfassen Exercise 10: Beschreibend bleiben

In diesem Kapitel beschäftigst du dich mit fortgeschrittenen Datenbereinigungsproblemen, z. B. damit wie du sicherstellen kannst, dass alle Gewichtsangaben in Kilogramm statt in Pfund angegeben werden. Du erwirbst außerdem wertvolle Fähigkeiten, mit denen du überprüfen kannst, ob Werte korrekt hinzugefügt wurden und ob fehlende Werte deine Analysen nicht negativ beeinflussen.

Exercise 1: Einheitlichkeit Exercise 2: Mehrdeutige Daten Exercise 3: Einheitliche Währungen Exercise 4: Einheitliche Datumsangaben Exercise 5: Feldübergreifende Validierung Exercise 6: Feldübergreifend oder nicht feldübergreifend?Exercise 7: Wie steht es um unsere Datenintegrität?Exercise 8: Vollständigkeit Exercise 9: Zufällig fehlend oder nicht?Exercise 10: Fehlende Investoren Exercise 11: Folge dem Geld

Die Datensatzverknüpfung ist eine leistungsstarke Technik, mit der mehrere Datensätze zusammengeführt werden können, wenn die Werte Tippfehler oder unterschiedliche Schreibweisen aufweisen. In diesem Kapitel lernst du, wie du Datensätze miteinander verknüpfst, indem du die Ähnlichkeit zwischen Zeichenketten berechnest, und dann deine neuen Kenntnisse einsetzt, um zwei Restaurantbewertungsdatensätze zu einem einzigen, sauberen Masterdatensatz zu verbinden.

Exercise 1: Zeichenketten vergleichen Exercise 2: Minimale Editierdistanz Exercise 3: Der Abschneidepunkt Exercise 4: Kategorien neu ordnen II Exercise 5: Paare generieren Exercise 6: Verlinken oder nicht verlinken?Exercise 7: Restaurantpaare Exercise 8: Ähnliche Restaurants Exercise 9: DataFrames verknüpfen Exercise 10: Den richtigen Index finden Exercise 11: Verbinde sie miteinander!Exercise 12: Herzlichen Glückwunsch!