Verbinde sie miteinander!

In der letzten Lektion hast du den größten Teil der Arbeit an der Verknüpfung von restaurants und restaurants_new abgeschlossen. Du hast die verschiedenen Paare von potenziell übereinstimmenden Zeilen erstellt, nach exakten Übereinstimmungen zwischen den Spalten cuisine_type und city gesucht, und nach ähnlichen Zeichenketten in der Spalte rest_name verglichen. Du hast den DataFrame mit den Werten in potential_matches gespeichert.

Jetzt ist es endlich an der Zeit, die beiden DataFrames zu verknüpfen. Dazu extrahierst du zunächst alle Zeilenindizes von restaurants_new, die mit den oben genannten Spalten übereinstimmen, aus potential_matches. Dann bildest du eine Teilmenge von restaurants_new mit diesen Indizes und fügst schließlich die nicht doppelten Werte mit restaurants zusammen. Alle DataFrames befinden sich in deiner Umgebung, neben pandas, das als pd importiert wurde.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung in Python</Kurs>

Übungsanweisungen

Isoliere Instanzen von potential_matches, bei denen die Zeilensumme größer oder gleich Drei ist, indem du die Methode .sum() verwendest.
Extrahiere den zweiten Spaltenindex aus matches, der die Zeilenindizes des übereinstimmenden Datensatzes aus restaurants_new darstellt, indem du die Methode .get_level_values() verwendest.
Erstelle eine Teilmenge von restaurants_new für Zeilen, die nicht in matching_indices sind.
Verbinde restaurants und non_dup.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Isolate potential matches with row sum >=3
matches = ____[____.___(____) >= ____]

# Get values of second column index of matches
matching_indices = matches.____.____(____)

# Subset restaurants_new based on non-duplicate values
non_dup = ____[~restaurants_new.index.____(____)]

# Concatenate restaurants and non_dup
full_restaurants = pd.____([____, ____])
print(full_restaurants)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In this chapter, you'll learn how to overcome some of the most common dirty data problems. You'll convert data types, apply range constraints to remove future data points, and remove duplicated data points to avoid double-counting.

Exercise 1: Data type constraints Exercise 2: Common data types Exercise 3: Numeric data or ... ?Exercise 4: Summing strings and concatenating numbers Exercise 5: Data range constraints Exercise 6: Tire size constraints Exercise 7: Back to the future Exercise 8: Uniqueness constraints Exercise 9: How big is your subset?Exercise 10: Finding duplicates Exercise 11: Treating duplicates

Categorical and text data can often be some of the messiest parts of a dataset due to their unstructured nature. In this chapter, you’ll learn how to fix whitespace and capitalization inconsistencies in category labels, collapse multiple categories into one, and reformat strings for consistency.

Exercise 1: Membership constraints Exercise 2: Members only Exercise 3: Finding consistency Exercise 4: Categorical variables Exercise 5: Categories of errors Exercise 6: Inconsistent categories Exercise 7: Remapping categories Exercise 8: Cleaning text data Exercise 9: Removing titles and taking names Exercise 10: Keeping it descriptive

In this chapter, you'll dive into more advanced data cleaning problems, such as ensuring that weights are all written in kilograms instead of pounds. You'll also gain invaluable skills that will help you verify that values have been added correctly, and that missing values don't negatively impact your analyses.

Exercise 1: Uniformity Exercise 2: Ambiguous dates Exercise 3: Uniform currencies Exercise 4: Uniform dates Exercise 5: Cross field validation Exercise 6: Cross field or no cross field?Exercise 7: How's our data integrity?Exercise 8: Completeness Exercise 9: Is this missing at random?Exercise 10: Missing investors Exercise 11: Follow the money

Record linkage is a powerful technique used to merge multiple datasets together, used when values have typos or different spellings. In this chapter, you'll learn how to link records by calculating the similarity between strings—you'll then use your new skills to join two restaurant review datasets into one clean master dataset.

Exercise 1: Zeichenketten vergleichen Exercise 2: Minimale Editierdistanz Exercise 3: Der Abschneidepunkt Exercise 4: Kategorien neu ordnen II Exercise 5: Paare generieren Exercise 6: Verlinken oder nicht verlinken?Exercise 7: Restaurantpaare Exercise 8: Ähnliche Restaurants Exercise 9: DataFrames verknüpfen Exercise 10: Den richtigen Index finden Exercise 11: Verbinde sie miteinander!

Aktuelle Übung

Exercise 12: Glückwunsch!