Beschreibend bleiben

Um die Erfahrungen der Reisenden am Flughafen von San Francisco besser zu verstehen, hat die Qualitätssicherungsabteilung einen qualitativen Fragebogen an alle Reisenden verschickt, die dem Flughafen in allen möglichen Kategorien die schlechteste Note gegeben haben. Das Ziel dieses Fragebogens ist es, gemeinsame Muster in den Aussagen der Reisenden über den Flughafen zu erkennen.

Ihre Antwort ist in der Spalte survey_response gespeichert. Bei genauerem Hinsehen fiel dir auf, dass einige der Antworten die kürzestmögliche Zeichenanzahl ohne viel Inhalt hatten. In dieser Übung isolierst du die Antworten mit einer Zeichenzahl von mehr als 40 und stellst sicher, dass dein neuer DataFrame nur Antworten mit 40 Zeichen oder mehr enthält, indem du eine assert-Anweisung verwendest.

Der DataFrame airlines befindet sich in deiner Umgebung, und pandas ist als pd importiert.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung in Python</Kurs>

Übungsanweisungen

Speichere mithilfe des airlines-DataFrame die Länge jeder Instanz in der Spalte survey_response in resp_length, indem du .str.len() verwendest.
Isoliere die Zeilen von airlines, bei denen resp_length größer ist als 40.
Bestätige, dass die kleinste Länge von survey_response in airlines_survey jetzt größer ist als 40.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Store length of each row in survey_response column
resp_length = ____

# Find rows in airlines where resp_length > 40
airlines_survey = airlines[____ > ____]

# Assert minimum survey_response length is > 40
assert ____.str.len().____ > _____

# Print new survey_response column
print(airlines_survey['survey_response'])

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel erfährst du, wie du einige der häufigsten Probleme mit unsauberen Daten lösen kannst. Du konvertierst Datentypen, wendest Bereichsbeschränkungen an, um Datenpunkte mit einem Datum in der Zukunft zu entfernen, und entfernst doppelte Datenpunkte, um Doppelzählungen zu vermeiden.

Exercise 1: Datentypbeschränkungen Exercise 2: Häufig verwendete Datentypen Exercise 3: Numerische Daten oder ... ?Exercise 4: Summieren von Zeichenketten und Verketten von Zahlen Exercise 5: Einschränkungen des Datenbereichs Exercise 6: Reifengrößenbeschränkung Exercise 7: Zurück in die Zukunft Exercise 8: Eindeutigkeitsbeschränkungen Exercise 9: Wie groß ist deine Teilmenge?Exercise 10: Duplikate ermitteln Exercise 11: Behandlung von Duplikaten

Kategoriale Daten und Textdaten gehören oft zu den unübersichtlichsten Teilen eines Datensatzes, weil sie unstrukturiert sind. In diesem Kapitel erfährst du, wie du Unstimmigkeiten bei Leerzeichen und Großschreibung in Kategoriekennzeichnungen behebst, mehrere Kategorien zu einer zusammenfasst und Zeichenketten neu formatierst, um die Konsistenz zu gewährleisten.

Exercise 1: Einschränkung des Wertebereichs Exercise 2: Nur für Mitglieder Exercise 3: (In-)Konsistenzen ermitteln Exercise 4: Kategoriale Variablen Exercise 5: Fehlerkategorien Exercise 6: Inkonsistente Kategorien Exercise 7: Kategorien neu zuordnen Exercise 8: Bereinigen von Textdaten Exercise 9: Titel entfernen und Namen erfassen Exercise 10: Beschreibend bleiben

Aktuelle Übung

In diesem Kapitel beschäftigst du dich mit fortgeschrittenen Datenbereinigungsproblemen, z. B. damit wie du sicherstellen kannst, dass alle Gewichtsangaben in Kilogramm statt in Pfund angegeben werden. Du erwirbst außerdem wertvolle Fähigkeiten, mit denen du überprüfen kannst, ob Werte korrekt hinzugefügt wurden und ob fehlende Werte deine Analysen nicht negativ beeinflussen.

Exercise 1: Einheitlichkeit Exercise 2: Mehrdeutige Daten Exercise 3: Einheitliche Währungen Exercise 4: Einheitliche Datumsangaben Exercise 5: Feldübergreifende Validierung Exercise 6: Feldübergreifend oder nicht feldübergreifend?Exercise 7: Wie steht es um unsere Datenintegrität?Exercise 8: Vollständigkeit Exercise 9: Zufällig fehlend oder nicht?Exercise 10: Fehlende Investoren Exercise 11: Folge dem Geld

Die Datensatzverknüpfung ist eine leistungsstarke Technik, mit der mehrere Datensätze zusammengeführt werden können, wenn die Werte Tippfehler oder unterschiedliche Schreibweisen aufweisen. In diesem Kapitel lernst du, wie du Datensätze miteinander verknüpfst, indem du die Ähnlichkeit zwischen Zeichenketten berechnest, und dann deine neuen Kenntnisse einsetzt, um zwei Restaurantbewertungsdatensätze zu einem einzigen, sauberen Masterdatensatz zu verbinden.

Exercise 1: Zeichenketten vergleichen Exercise 2: Minimale Editierdistanz Exercise 3: Der Abschneidepunkt Exercise 4: Kategorien neu ordnen II Exercise 5: Paare generieren Exercise 6: Verlinken oder nicht verlinken?Exercise 7: Restaurantpaare Exercise 8: Ähnliche Restaurants Exercise 9: DataFrames verknüpfen Exercise 10: Den richtigen Index finden Exercise 11: Verbinde sie miteinander!Exercise 12: Glückwunsch!