Diese Übung ist Teil des Kurses
In diesem Kapitel erfährst du, wie du einige der häufigsten Probleme mit unreinen Daten lösen kannst. Du konvertierst Datentypen, wendest Bereichsbeschränkungen an, um zukünftige Datenpunkte zu entfernen, und entfernst doppelte Datenpunkte, um Doppelzählungen zu vermeiden.
Kategoriale und Textdaten gehören oft zu den unübersichtlichsten Teilen eines Datensatzes, weil sie unstrukturiert sind. In diesem Kapitel erfährst du, wie du Unstimmigkeiten bei Leerzeichen und Großschreibung in Kategoriebeschriftungen behebst, mehrere Kategorien zu einer zusammenfasst und Zeichenketten neu formatierst, um die Konsistenz zu gewährleisten.
In diesem Kapitel beschäftigst du dich mit fortgeschrittenen Datenbereinigungsproblemen, z. B. damit du sicherstellen kannst, dass alle Gewichte in Kilogramm statt in Pfund angegeben werden. Du erwirbst außerdem unschätzbare Fähigkeiten, mit denen du überprüfen kannst, ob die Werte korrekt hinzugefügt wurden und ob fehlende Werte deine Analysen nicht negativ beeinflussen.
Die Datensatzverknüpfung ist eine leistungsstarke Technik, mit der mehrere Datensätze zusammengeführt werden können, wenn die Werte Tippfehler oder unterschiedliche Schreibweisen aufweisen. In diesem Kapitel lernst du, wie du Datensätze miteinander verknüpfst, indem du die Ähnlichkeit zwischen Zeichenketten berechnest, und dann deine neuen Kenntnisse einsetzt, um zwei Restaurantbewertungsdatensätze zu einem einzigen, sauberen Masterdatensatz zu verbinden.
Aktuelle Übung